เสียงสังเคราะห์ของ ElevenLabs นั้นสมจริงมากจนอาจหลอกแม่ของคุณได้ แต่สิ่งดีๆ ที่เกิดขึ้นก็คือ ผู้ก่อตั้งทั้งสองเคยเป็นสมาชิกในทำเนียบ 30 Under 30 ตอนนี้พวกเขาได้กลายเป็นเศรษฐีพันล้านไปแล้ว แต่ก็เป็นเหมือนคำสาปสำหรับบริษัทที่ก่อตั้งมา 4 ปีแห่งนี้ด้วย
ภาพยนตร์พากย์เสียงในโปแลนด์นั้นแย่มาก นักพากย์คนเดียวจะอ่านบทสนทนาทั้งหมดด้วยน้ำเสียงเดียวแบบภาษาสลาฟที่ไร้ชีวิตชีวา ไม่มีนักพากย์คนอื่น ไม่มีการเปลี่ยนเสียงตามตัวละคร ซึ่งคนดูรุ่นใหม่ไม่ชอบสุดๆ “ลองถามคนโปแลนด์คนไหนก็ได้พวกเขาจะบอกว่า มันแย่มาก” Mateusz Staniszewski ผู้ร่วมก่อตั้ง ElevenLabs บริษัทพัฒนาเสียงพูดจาก AI เล่า “ผมคิดว่ามันออกจะคอมมิวนิสต์หน่อยๆ ถ้ายังยึดติดว่าจะต้องผลิตเนื้อหาด้วยต้นทุนถูกๆ”
ตอนที่ Staniszewski ทำงานที่ Palantir เขาร่วมมือกับ Piotr Dabkowski เพื่อนสมัยมัธยมปลายที่เป็นวิศวกรของ Google เพื่อทดลองสร้าง AI ทั้งคู่เห็นว่า โครงการหนึ่งที่ดูมีแววเป็นพิเศษคือ โค้ชสอนพูดในที่สาธารณะจาก AI ซึ่งสามารถแก้ปัญหาอันสยองขวัญของชาวโปแลนด์ที่ Leonardo DiCaprio หรือ Scarlett Johansson จะถูกเสียงนักพากย์ “ดาวเด่น” อย่าง Maciej Gudowski กลืนหายไป
ทั้งคู่รวบรวมเงินเก็บและลาออกจากงานในเดือนพฤษภาคม ปี 2022 เพื่อมาทำงานเต็มเวลาที่ ElevenLabs ผลงานชิ้นแรกสุดของพวกเขาคือ AI แปลงข้อความเป็นเสียงพูด ซึ่งดีกว่าเสียงหุ่นยนต์ของ Siri จาก Apple และ Alexa จาก Amazon อย่างเห็นได้ชัด เสียง AI ของ ElevenLabs สามารถแสดงถึงความสุข ความตื่นเต้น หรือแม้กระทั่งเสียงหัวเราะ

ในเดือนมกราคม ปี 2023 ElevenLabs เปิดตัวโมเดลแรก ซึ่งผู้ใช้สามารถนำข้อความอะไรก็ได้มาให้ AI อ่านออกเสียงด้วยน้ำเสียงแบบใดก็ได้ รวมถึงเลียนเสียงของคุณก็ได้ (หรือที่น่ากังวลคือ การเลียนเสียงคนอื่น) และแล้วความต้องการก็หลั่งไหลมาทันที นักเขียนสามารถสร้างหนังสือเสียงจำนวนมากได้อย่างรวดเร็วด้วยซอฟต์แวร์ที่ว่า (ปัจจุบันอัตราค่าบริการระดับมืออาชีพเริ่มต้นที่ 99 เหรียญสหรัฐฯ ต่อเดือนสำหรับคุณภาพที่สูงขึ้นและเวลาที่นานขึ้น) นักสร้างคอนเทนต์บน YouTube ใช้ ElevenLabs ในการแปลวิดีโอของพวกเขาเป็นภาษาอื่นๆ (ปัจจุบันโมเดลของพวกเขาพูดได้ 29 ภาษา)
สตาร์ทอัพที่ตั้งอยู่ใน Warsaw และ London นี้ได้ทำข้อตกลงกับแอปสอนภาษาและการทำสมาธิ จากนั้นบริษัทสื่ออย่างเช่น HarperCollins และ Bertelsmann ของเยอรมนีก็มาร่วมวงด้วย “เห็นๆ อยู่ว่านี่คือโมเดลที่ดีที่สุดซึ่งใครๆ ก็ซื้อมาใช้” Jennifer Li นักลงทุนจาก Andreessen Horowitz ซึ่งร่วมเป็นผู้นำระดมทุนรอบ 19 ล้านเหรียญในเดือนพฤษภาคม ปี 2023 กล่าว 1 ปีต่อมาผู้ร่วมก่อตั้งได้รับเกียรติให้เข้าทำเนียบ 30 Under 30 ของ Forbes Europe
อย่างไรก็ตาม บางคนก็นำไปใช้งานในแบบที่น่าขนลุกกว่านั้น เช่น เสียงเลียนแบบบุคคลสำคัญอย่างประธานาธิบดี Trump ที่ถูกนำไปพากย์เสียงการดวลในวิดีโอเกมอย่างหยาบคาย เสียงนักแสดงหญิง Emma Watson ที่อ่านหนังสือ Mein Kampf และเสียงพอดแคสเตอร์ Joe Rogan ที่พูดจาหลอกลวงผู้คนซึ่งแพร่กระจายอย่างรวดเร็ว ที่แย่กว่านั้นคือ พวกมิจฉาชีพเริ่มใช้เครื่องมือสร้างเสียงเลียนแบบเพื่อปลอมเสียงของคนที่เรารัก และขโมยเงินนับล้านโดยใช้กลโกงแบบ deepfake ที่เนียนยิ่งขึ้น
แต่ทั้งหมดนั้นก็ไม่ได้หยุดยั้งนักลงทุนร่วมทุนจากการทุ่มเงินเข้ามาในวงการนี้ ElevenLabs ระดมทุนได้มากกว่า 300 ล้านเหรียญ ส่งผลให้มูลค่าบริษัทพุ่งสูงถึง 6.6 พันล้านเหรียญในเดือนตุลาคมที่ผ่านมา และกลายเป็นหนึ่งในสตาร์ทอัพที่มีมูลค่ามากที่สุดในยุโรป ตอนนี้ Staniszewski วัย 30 ปี ซึ่งดำรงตำแหน่ง CEO (บริษัทนี้มีตำแหน่งที่ไม่เหมือนบริษัททั่วไป) และ Dabkowski หัวหน้าฝ่ายวิจัยวัย 30 ปี ได้กลายเป็นเศรษฐีพันล้าน โดย Forbes ประเมินว่า ทั้งคู่ต่างมีมูลค่าทรัพย์สินมากกว่า 1 พันล้านเหรียญ
ประมาณครึ่งหนึ่งของรายได้ 193 ล้านเหรียญในช่วง 12 เดือนที่ผ่านมาของ ElevenLabs มาจากบริษัทมากมาย เช่น Cisco, Twilio และ Adecco บริษัทจัดหางานจากสวิตเซอร์แลนด์ซึ่งใช้เทคโนโลยีของ ElevenLabs ในการรับสายบริการลูกค้าหรือสัมภาษณ์ผู้สมัครงาน ส่วน Epic Games ใช้เทคโนโลยีนี้ในการพากย์เสียงตัวละครในเกม Fortnite รวมถึงการพูดคุยกับ Darth Vader (โดยได้รับความยินยอมจากทายาทของ James Earl Jones) ส่วนรายได้อีกครึ่งหนึ่งมาจากยูทูบเบอร์ พอดแคสเตอร์ และนักเขียนที่เป็นกลุ่มผู้ใช้งานกลุ่มแรกๆ “พอได้คุยกับพวกเขา คุณจะทึ่งว่าพวกเขาเก่งแค่ไหน” Tom Coshow นักวิเคราะห์จาก Gartner กล่าว และสิ่งที่ ElevenLabs แตกต่างจากบริษัท AI ส่วนใหญ่คือ การมีกำไร โดยทำกำไรได้ราว 116 ล้านเหรียญใน 12 เดือนที่ผ่านมา (อัตรากำไรอยู่ที่ 60%)
ปัจจุบันบริษัทกำลังแข่งกับยักษ์ใหญ่อย่าง Google, Microsoft, Amazon และ OpenAI เพื่อก้าวขึ้นเป็นผู้นำด้านเสียง AI อย่างแท้จริง เทคโนโลยีนี้ไม่ใช่เรื่องใหม่ เพราะบริษัทเทคต่างๆ เริ่มพัฒนาผลิตภัณฑ์เพื่อฟัง ถอดเสียง และสร้างเสียงพูดมาตั้งแต่ 10 ปีที่แล้ว แม้ว่าจะเป็นเพียงธุรกิจเสริมสำหรับ Microsoft แต่ Satya Nadella ก็เต็มใจจะทุ่มเงิน 2 หมื่นล้านเหรียญเพื่อซื้อ Nuance บริษัทให้บริการถอดเสียงพูดซึ่งจดทะเบียนใน Nasdaq ในเดือนมีนาคม ปี 2022 ส่วน OpenAI ก็เปิดตัวเครื่องมือเสียงของตนเองซึ่งสามารถป้อนบทสนทนาของมนุษย์เข้าไปใน ChatGPT ได้ในเดือนตุลาคม ปี 2024
แต่ทีมงาน 300 คนของ ElevenLabs ไม่ได้กำลังไล่ตามคู่แข่ง โมเดลของพวกเขานั้นดีมากจนสามารถเรียกเก็บค่าบริการสูงกว่าคู่แข่งจากอเมริกาถึง 3 เท่าได้สบายๆ คลังของที่นี่ใหญ่ที่สุดที่เคยมีมา โดยมีเสียงที่เหมือนคนจริงๆ อย่างน่าทึ่งกว่า 10,000 เสียง ซึ่งตอนนี้มีเสียงดาราระดับแนวหน้าอย่าง Michael Caine และ Matthew McConaughey ด้วย นอกจากนี้ ที่นี่ยังมีความน่าเชื่อถือมากกว่า โดยสตาร์ทอัพด้านการฝึกอบรมข้อมูล Labelbox ได้ทดสอบโมเดลเสียงตัวท็อป 6 รุ่นด้วยแบบทดสอบการอ่าน และพบว่า ElevenLabs ทำพลาดน้อยกว่าคู่แข่งที่ใกล้เคียงที่สุดอย่าง OpenAI ถึงครึ่งหนึ่ง “เราเป็นหนึ่งในบริษัทไม่กี่แห่งที่ล้ำหน้า OpenAI ไม่ใช่แค่เรื่องเสียงพูด แต่รวมถึงการแปลงเสียงพูดเป็นข้อความและดนตรีด้วย ซึ่งนั่นเป็นเรื่องยาก” Staniszewski กล่าว
สูตรสำเร็จของ ElevenLabs นั้นเรียบง่าย ทีมวิจัยเล็กๆ ด้านการเรียนรู้ของเครื่อง ซึ่งมุ่งแก้ปัญหาแค่อย่างเดียว และงบประมาณที่จำกัด (ผู้ร่วมก่อตั้งออกเงินไปก่อน 100,000 เหรียญสำหรับการฝึกครั้งแรก) เป็นแรงผลักดันให้เกิดการค้นพบที่ยิ่งใหญ่ด้านโมเดล “การมีพลังประมวลผลมหาศาลอาจเป็นคำสาปได้ เพราะคุณไม่ได้หาวิธีแก้ปัญหาอย่างชาญฉลาด” Dabkowski กล่าว
แต่คดีฟ้องร้องจากนักพากย์หนังสือเสียง 2 คนชี้ให้เห็นถึงประเด็นสำคัญอีกอย่าง Karissa Vacker และ Mark Boyett กล่าวหาว่า ElevenLabs ใช้หนังสือเสียงที่มีลิขสิทธิ์คุ้มครองนับพันในการฝึกโมเดลของตน พวกเขาอ้างว่า หนังสือของพวกเขามากมายถูกนำไปใช้ จนกระทั่งเสียงที่เลียนแบบเสียงของพวกเขากลายมาตัวเลือกพื้นฐานใน ElevenLabs คดีนี้ซึ่ง ElevenLabs ปฏิเสธว่า ไม่ได้กระทำผิดใดๆ ได้ยุติลงนอกศาลในเดือนพฤศจิกายนที่ผ่านมา (Vacker และ Boyett ไม่ตอบคำขอแสดงความคิดเห็น ส่วน ElevenLabs ปฏิเสธที่จะแสดงความคิดเห็นเพิ่มเติม)
บริษัทเริ่มแสดงความรับผิดชอบมากขึ้นโดยจัดทำรายการเสียง “ต้องห้าม” (ส่วนใหญ่เป็นนักการเมืองและคนดัง) หลังจากที่เสียงเลียนแบบ Joe Biden ที่สร้างโดย ElevenLabs ถูกนำไปใช้ในการหาเสียงผ่านระบบโทรศัพท์โดยไม่ให้คนลงคะแนนเสียงในการเลือกตั้งขั้นต้นของพรรคเดโมแครตปี 2024 ปัจจุบัน ElevenLabs มีผู้ตรวจสอบที่เป็นคนทำงานเต็มเวลา 7 คน (รวมถึง AI ด้วย) โดยจะคอยตรวจสอบคลิปเสียงเพื่อป้องกันการนำไปใช้ในทางที่ผิด เสียงเลียนแบบใหม่ต้องผ่านการตรวจสอบความยินยอม และบริษัทมีเครื่องมือตรวจจับ deepfake ฟรีให้ใช้งาน

Staniszewski และ Dabkowski มีแผนการใหญ่ที่นอกเหนือไปจากเรื่องเสียง ทั้งครีเอเตอร์ที่มีงบประมาณจำกัดและบริษัทสื่อที่ห่วงเรื่องงบประมาณต่างต้องการเพลงประกอบที่ไม่ต้องเสียค่าลิขสิทธิ์ ดังนั้น พวกเขาจึงเปิดตัว AI สำหรับสร้างเพลงในเดือนสิงหาคมที่ผ่านมา คุณไม่มีเวลาถ่ายวิดีโอใช่ไหม ElevenLabs จะมีอวตาร AI มาเป็นตัวเอกในวิดีโอสไตล์ Sora ในปี 2026 การเดิมพันที่กล้าหาญที่สุดคือ การนำความเชี่ยวชาญมาสร้างเป็นศูนย์รวมแห่งเดียว แล้วให้ลูกค้ามาใช้เครื่องมือ AI ทั้งหมดของพวกเขาได้ “เรากำลังสร้างแพลตฟอร์มที่ช่วยให้คุณสร้างเอเจนต์เสียงและใช้งานมันได้อย่างราบรื่น” Staniszewski กล่าว
แน่นอนว่านั่นทำให้ ElevenLabs ต้องชนกับกลุ่มสตาร์ทอัพอื่นๆ อีกมากมายที่หวังจะทำแบบเดียวกัน การที่ ElevenLabs ทำกำไรได้ตั้งแต่เริ่มแรกนั้นเป็นเรื่องดี แต่คู่แข่งสตาร์ทอัพเหล่านั้นมีแหล่งเงินทุนที่อู้ฟู่ และบริษัทเทคยักษ์ใหญ่ก็มีทรัพยากรแทบจะไม่มีขีดจำกัด อย่างไรก็ตาม ElevenLabs ก็ต้องคิดค้นนวัตกรรมใหม่ๆ อยู่ดี เพราะโมเดลเสียงจะกลายเป็นสินค้าที่หาได้ทั่วไปในไม่ช้า และเมื่อโมเดลอื่นๆ พัฒนาตามทัน ลูกค้าที่เปลี่ยนใจง่ายซึ่งไม่พอใจกับราคาของ ElevenLabs อยู่แล้วก็มีแนวโน้มที่จะหันไปใช้ของคู่แข่ง
เนื่องจาก ElevenLabs กำลังขยายขอบเขตจากเสียงไปสู่ดนตรีและวิดีโอที่ต้องใช้การประมวลผลขั้นสูงขึ้น จึงจำเป็นต้องขยายฟาร์ม GPU ของตนเองเพื่อรักษาความสามารถในการแข่งขัน บริษัทได้ลงทุนไปแล้ว 50 ล้านเหรียญในโครงการศูนย์ข้อมูลในรัฐ Oregon “หากเราจะสร้างบริษัทด้าน AI แห่งยุค เราต้องสร้างขนาดที่ใหญ่ขึ้น ซึ่งเรากำลังทำอยู่” Staniszewski กล่าว
กลับมาที่โปแลนด์ กลุ่มนักพากย์รุ่นเก่าก็ยังคงทำงานต่อไป อย่างน้อยก็ในตอนนี้ Dabkowski ไม่เคยลืมแนวคิดเริ่มแรกของ ElevenLabs และอวดว่า โมเดลรุ่นต่อไปของเขาจะสามารถแปลและพากย์เสียงภาพยนตร์ทั้งเรื่องได้พร้อมกันทันที “เราไม่เคยยอมแพ้ต่อภารกิจของเรา” เขากล่าว
เรื่อง: Iain Martin เรียบเรียง: พินน์นรา วงศ์วิริยะ ภาพ: Cody Pickens
เรื่องราวอื่นๆ ที่น่าสนใจ : เดิมพันของ Michael Intrator ปั้น CoreWeave ล่าขุมทรัพย์ในกระแส AI เฟื่องฟู

