MATI STANISZEWSKI के 3 धमाकेदार दावे: VOICE AI बदलेगा TECH से बात करने का तरीका!
क्या आपको भी लगता है कि अपने phone पर घंटों type करना थोड़ा unnatural लगता है? ज़रा सोचो, अगर आप सिर्फ बोलकर ही अपने सारे काम कर पाओ तो कैसा रहेगा? 11 Labs के Co-founder Mati Staniszewski का मानना है कि Voice AI जल्द ही हमारी ज़िंदगी का सबसे अहम interface बन जाएगा। उन्होंने Nikhil Kamath के साथ एक interview में बताया कि कैसे आने वाले समय में हम tech से बिल्कुल अलग तरीके से interact करेंगे। चलो जानते हैं कि Mati Staniszewski ने Voice AI के बारे में कौन से 3 धमाकेदार दावे किए हैं और Nothing जैसी companies इसमें क्या role निभा सकती हैं।
Voice AI का Future और Device का खेल
Mati Staniszewski ने कहा कि Voice AI 100% एक बड़ा interface होगा और हम tech से interact करने का तरीका बदल जाएगा। उनका कहना है कि 11 Labs का mission ही यही है कि हम tech से कैसे interact करते हैं, उसे पूरी तरह से बदल दें। चाहे वो customer support पर call करना हो, school में सीखना हो, या future में robots और devices से बात करना हो।
इस पूरे प्रक्रिया में सबसे ज़रूरी बात है device का form factor। Mati ने Nothing के Carl Pei की बहुत तारीफ की। उनका कहना है कि hardware में innovate करना बहुत मुश्किल है, लेकिन Carl Pei उन कुछ लोगों में से हैं जो ये काम बहुत अच्छे से कर रहे हैं और अच्छे scale तक पहुंच गए हैं। Nothing ने पिछले साल 500 million dollars से इस साल 900 million dollars की sales की है, जो एक बड़ी बात है।
Nothing के headphones में AI integration की बात चल रही है। Mati का मानना है कि Nothing के headphones पहले AI native devices में से एक हो सकते हैं, जो हमेशा आपके साथ रहेंगे। Mati Staniszewski का कहना है: "अगर Carl Pei Nothing के साथ अच्छा करते हैं, तो ये वो device हो सकता है जो language barriers को तोड़ देगा।"
Mati और Carl अक्सर बात करते हैं कि कैसे एक ideal future में आप किसी भी language में बोल सकते हो और वो real-time में किसी भी दूसरी language में translate हो जाएगा। इससे लोग आसानी से communicate कर पाएंगे और travel भी कर पाएंगे। लेकिन इस dream को पूरा करने में सबसे बड़ी दिक्कत hardware की ही है। अगर कोई सही device बन जाए, तो ये सब मुमकिन हो सकता है।
Voice AI को सफल बनाने के 3 ज़रूरी Components
Mati Staniszewski ने बताया कि Voice AI को पूरी तरह से सफल बनाने के लिए कम से कम 3 चीज़ों का होना बहुत ज़रूरी है:
1. Foundational Technology और Research
सबसे पहले, underlying technology को इतना advanced होना होगा कि आपको लगे कि आप किसी इंसान से ही बात कर रहे हो। Voice quality बेहतरीन होनी चाहिए, आप उसे interrupt कर सको, उसमें सही emotions और intonation हो, और वो तेज़ भी हो। Jarvis (Iron Man वाला) जैसा level चाहिए, जहां voice और knowledge दोनों top-notch हों। अभी के models कुछ इस्तेमाल करना cases के लिए अच्छे हैं, लेकिन वो इंसानी level तक नहीं पहुंचे हैं। Mati का मानना है कि जब तक ये technology इंसानी-level नहीं होगी, लोग हर जगह voice agents को अपने साथ नहीं रखेंगे।
2. Knowledge Access और Data Integration
दूसरी बात, voice agent के पास knowledge access होना बहुत ज़रूरी है। सिर्फ अच्छी voice होने से काम नहीं चलेगा, उसे पता होना चाहिए कि आपसे क्या बात करनी है। Future में, users को आसानी से अपना data और knowledge voice agent में डालने की सुविधा मिलनी चाहिए। चाहे वो उनके अपने systems के साथ integration हो, या WhatsApp जैसे platforms पर voice agent deploy करना हो। Business customers के लिए CRM data को pull करना ताकि voice agent के पास सारी ज़रूरी information हो, ये भी बहुत अहम है। मतलब ये कि voice agent की memory में past की सारी बातें और आपकी interests होनी चाहिए।
3. Form Factor (Device का Design)
तीसरी और सबसे ज़रूरी बात है device का form factor, जिसे अभी तक पूरी तरह से solve नहीं किया गया है। लोग अक्सर सोचते हैं कि क्या ये glasses होंगे, phone होगा, या headphones होंगे? Mati का मानना है कि ये इन सब का combination होगा। कुछ लोग glasses पसंद करेंगे, कुछ headphones। यहां तक कि Neuralink जैसा कुछ भी इसका एक version हो सकता है।
Mati को headphones में सबसे ज़्यादा उम्मीद दिखती है, लेकिन वो in-ear headphones की बजाय behind-the-ear headphones की बात कर रहे हैं। ऐसे headphones जो voice experience तो वही दें, लेकिन कान में घुसे न हों। कुछ innovations ऐसे भी आ रहे हैं जहां आप बिना कुछ बोले, सिर्फ अपने mouth movements से voice agent से बात कर सकते हो। Mati कहते हैं कि personal perspective से, वो future में headphones को सबसे ज़्यादा adopt करेंगे क्योंकि ये सबसे natural form factor लगता है और पहले से ही एक key device है।
Mati और Nikhil ने Sam Altman और Jony Ive के राज़ device पर भी बात की। Nikhil का guess है कि शायद ये एक phone जैसा device होगा जिसमें AI-first software होगा, और साथ में एक buddy device जैसे pendant भी हो सकता है। क्योंकि AI companies के लिए hardware में होना अब ज़रूरी होता जा रहा है।
11 Labs क्या करता है और OpenAI से Competition
11 Labs foundational audio AI technology बनाता है। इसका मतलब है कि वो ऐसे models बनाते हैं जो speech को incredible sound दें और speech को अच्छे से समझ सकें। फिर उस research के ऊपर वो ऐसे products बनाते हैं जो voice agents बनाने में मदद करते हैं। ये voice agents customer experience को बेहतर बनाते हैं, लोगों को train करते हैं (internally या externally), और creative side पर भी मदद करते हैं।
11 Labs का business 50% creators और 50% enterprise ग्राहकों के लिए है। Creators के लिए, जैसे अगर आप एक podcast कर रहे हो और बाद में कोई line add करनी है, तो 11 Labs आपकी voice को recreate करके उस line को smoothly add कर सकता है। दूसरा बड़ा इस्तेमाल करना case localization का है। अगर आप अपने podcast को English के अलावा Spanish, French या Hindi में dub करना चाहते हो, तो 11 Labs के interface पर आप पूरे podcast को automatically dub कर सकते हो।
Mati ने एक उदाहरण दिया कि कैसे उन्होंने Lex Friedman और Prime Minister Narendra Modi के podcast को dub किया था। ये automatically कुछ dollars में हो जाता है, लेकिन PM Modi वाले interview में हर word अहम था, इसलिए इंसान भी translation check करने के लिए लगाए गए थे।
Nikhil ने एक ज़रूरी सवाल पूछा कि dubbing में अक्सर emotion खो जाता है और आवाज robotic लगती है। Mati ने कहा कि 11 Labs इसी समस्या को solve कर रहा है। वो सिर्फ voice को ही नहीं, बल्कि intonation और emotion को भी preserve करते हैं। जब वो speech generate करते हैं, तो वो previous response से contextual information लेते हैं और उसे नई target language में recreate करने की कोशिश करते हैं।
OpenAI जैसी बड़ी companies से competition के सवाल पर Mati ने कहा कि हां, ये चिंता की बात है, लेकिन ये उन्हें motivate भी करता है। 11 Labs ने 2022 में शुरू होकर research और product दोनों पर ध्यान किया है। उनका लक्ष्य है कि वो English के साथ-साथ Indian और European languages में भी बेहतरीन models बनाएं। उनका मानना है कि अगले 2-3 सालों में voice AI में अभी भी बहुत कुछ करने को है।
11 Labs के पास दो main offerings हैं:
- Creative Platform: ये narrations, voiceovers और localization में मदद करता है। Podcasters, news articles, और media entertainment companies इसका इस्तेमाल करते हैं।
- Agents Platform: ये voice agents को automate करने में मदद करता है customer experience, training और education के लिए। MasterClass इसका एक अच्छा उदाहरण है, जहां आप AI Gordon Ramsey से cooking सीख सकते हो या AI Chris Boss से negotiation की practice कर सकते हो। Mati ने Nikhil को भी अपना एक AI Nikhil agent बनाने का सुझाव दिया, जो उनके सारे knowledge से सीखकर लोगों को $3 billion company बनाने के बारे में सिखा सके।
Mati का मानना है कि ऐसे AI agents का market ज़रूर है। ये असली इंसान से बात करने का replacement नहीं हैं, लेकिन ये आपको किसी subject में गहराई से जाने में मदद करते हैं, खासकर जब आपके पास बहुत सारे सवाल हों।
क्या आप सोचते हो कि Voice AI सच में हमारी ज़िंदगी का सबसे बड़ा interface बन जाएगा? टिप्पणी में बताओ!
🎧 Mati Staniszewski का full interview सुनने के लिए ऊपर Play button दबाओ!
अगर ये जानकारी अच्छी लगी तो साझा करो ज़रूर करो।
O Tunehill
Tunehill přináší myšlenky a rozhovory, které hýbou světem. Srozumitelně a ve tvém jazyce. Články a podcasty o technologiích, práci a budoucnosti.



