Speechify AI रिसर्च लैब के शोधकर्ता का PFluxTTS पेपर ICASSP 2026 में स्वीकार हुआ

Speechify ने आज घोषणा की कि Speechify AI रिसर्च लैब के शोधकर्ता विकेंटी पैंकोव "PFluxTTS: हाइब्रिड फ्लो मैचिंग TTS विद रोबस्ट क्रॉस-लिंगुअल वॉयस क्लोनिंग एंड इन्फेरेंस टाइम मॉडल फ्यूजन" नामक पेपर के लेखक हैं, जिसे IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग (ICASSP) 2026 के लिए स्वीकार किया गया है।

यह काम PFluxTTS पेश करता है, जो एक हाइब्रिड टेक्स्ट-टू-स्पीच सिस्टम है, जिसे वॉयस क्लोनिंग और मल्टीलिंगुअल प्रॉम्प्टिंग के प्रोडक्शन-स्तर के उपयोग के लिए बनाया गया है। पेपर ऐसी पद्धति का वर्णन करता है जो फ्लो मैचिंग आधारित स्पीच जेनरेशन में तीन बड़ी चुनौतियों को सीधे निशाना बनाती है: स्थिरता और प्राकृतिकता के बीच संतुलन, भाषाओं के बीच स्पीकर पहचान को बनाए रखने की मुश्किल, और कम रेट एकॉस्टिक फीचर्स से फुल बैंडविड्थ ऑडियो दुबारा बनाते समय सीमित वेवफॉर्म गुणवत्ता।

पेपर का प्रीप्रिंट सार्वजनिक रूप से arXiv पर उपलब्ध है, और उससे जुड़े ऑडियो डेमो प्रोजेक्ट वेबसाइट पर सुने जा सकते हैं।

ICASSP 2026 में स्वीकृति से Speechify के रिसर्च डायरेक्शन के बारे में क्या संकेत मिलता है?

ICASSP भाषण, ऑडियो और सिग्नल प्रोसेसिंग अनुसंधान के लिए प्रमुख सम्मेलनों में से एक है, और स्वीकृति इस काम के तकनीकी योगदानों की पीयर-रिव्यू मान्यता को दर्शाती है, जो शोध के क्षेत्र को आगे बढ़ाती है। Speechify की व्यापक रणनीति के संदर्भ में, यह स्वीकृति Speechify की स्थिति को एक वॉयस-फर्स्ट AI कंपनी के रूप में और मजबूत करती है, जो सिर्फ प्रोडक्ट फीचर्स ही नहीं, बल्कि बुनियादी रिसर्च में भी लगातार निवेश करती है।

Speechify टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और स्पीच-टू-स्पीच वर्कफ़्लो जैसे क्षेत्रों में वॉयस टेक्नोलॉजी बनाता और बेहतर करता है, जो असली यूज़र अनुभवों को संभव बनाते हैं, जैसे लंबे समय तक सुनना, हाई-स्पीड प्लेबैक, डिक्टेशन और दस्तावेज़-आधारित वॉयस इंटरैक्शन। जब Speechify के शोधकर्ताओं का काम बड़े सम्मेलनों में स्वीकार होता है, तो यह साफ करता है कि Speechify उस रिसर्च फ्रंटियर का हिस्सा है, जो तय करता है कि आने वाले वर्षों में वॉयस सिस्टम कैसे बनाए और परखे जाएंगे।

PFluxTTS क्या है और यह कौन सी समस्या हल कर रहा है?

PFluxTTS को एक हाइब्रिड फ्लो मैचिंग टेक्स्ट-टू-स्पीच सिस्टम के रूप में वर्णित किया गया है, जो एक ही इन्फेरेंस प्रक्रिया में दो मॉडल शैलियों को जोड़ता है। पेपर के अनुसार, एक पथ ड्यूरेशन-गाइडेड है, जो अलाइनमेंट स्थिरता को बेहतर बनाता है और वर्ड स्किपिंग जैसे मुद्दों को कम करता है। दूसरा पथ अलाइनमेंट-फ्री है, जिससे प्रवाहिता और प्राकृतिकता बढ़ती है। PFluxTTS दोनों को इन्फेरेंस टाइम वेक्टर फील्ड फ्यूजन के जरिए जोड़ता है, यानी सिस्टम जेनरेशन प्रक्रिया के दौरान दोनों मॉडलों के मार्गदर्शन को साथ लेकर चलता है, सिर्फ किसी एक को चुनने के बजाय।

यह इसलिए अहम है क्योंकि कई वॉयस प्रोडक्ट बनाने वाली टीमें देखती हैं कि कोई मॉडल जो छोटी डेमो में बहुत अच्छा लगता है, असली वर्कफ़्लो में लड़खड़ा सकता है, खासकर जब प्रॉम्प्ट शोरगुल वाले, क्रॉस-लिंगुअल या बहुत बातचीत वाले हों। प्रोडक्शन में, किसी वॉयस सिस्टम को अलग-अलग तरह की सामग्री और रिकॉर्डिंग परिस्थितियों में समझने योग्य, पहचान-सुरक्षित और टाइमिंग के लिहाज से स्थिर रहना पड़ता है।

PFluxTTS क्रॉस-लिंगुअल वॉयस क्लोनिंग की विश्वसनीयता को कैसे सुधारता है?

क्रॉस-लिंगुअल वॉयस क्लोनिंग मुश्किल है क्योंकि स्पीकर पहचान कोई स्थिर वेक्टर नहीं होती। असली स्पीकर की आवाज़ की खूबियाँ समय, ध्वन्यात्मक संदर्भ और रिकॉर्डिंग की परिस्थितियों के साथ बदलती रहती हैं। पेपर में तर्क दिया गया है कि स्थिर आयाम वाले स्पीकर एम्बेडिंग्स समयानुसार बदलने वाले टिम्बर संकेतों को दबा सकते हैं, जो खास तौर पर तब ज़्यादा अहम हो जाते हैं जब प्रॉम्प्ट भाषा लक्ष्य भाषा से अलग हो।

PFluxTTS इसे FLUX-बेस्ड डिकोडर के अंदर भाषण प्रॉम्प्ट एम्बेडिंग्स के अनुक्रम पर कंडीशनिंग करके हल करता है, जिसे अलग-अलग भाषाओं में भी स्पीकर की विशेषताओं को बिना प्रॉम्प्ट ट्रांस्क्रिप्ट की ज़रूरत के बरकरार रखने के लिए डिज़ाइन किया गया है।

नतीजतन, सिस्टम इस तरह से तैयार किया गया है कि वह स्पीकर की आवाज़ को बनाए रखता है, भले ही प्रॉम्प्ट एक भाषा में हो और जेनरेट की गई स्पीच दूसरी भाषा में, और भले ही प्रॉम्प्ट स्टूडियो के बजाय वास्तविक परिस्थितियों में रिकॉर्ड किया गया हो।

"इन्फेरेंस टाइम मॉडल फ्यूजन" का सीधा अर्थ क्या है?

अधिकतर सिस्टम एक ही मॉडल परिवार चुनते हैं और फिर उसकी कमियों के साथ समझौता कर लेते हैं। PFluxTTS इसके बजाय जेनरेशन के समय हाइब्रिड तरीका अपनाता है। पेपर में बताया गया है कि दो स्वतंत्र रूप से प्रशिक्षित वेक्टर फील्ड्स को एक ही ODE इंटीग्रेशन के दौरान जोड़ दिया जाता है, ताकि सिस्टम शुरुआती चरणों में ड्यूरेशन-गाइडेड पथ पर ज़्यादा निर्भर रह सके और अलाइनमेंट स्थिरता सुनिश्चित कर सके, और फिर बाद के चरणों में प्रवाहिता और प्राकृतिकता के लिए अलाइनमेंट-फ्री पथ को ज़्यादा असरदार होने दे।

सीधे शब्दों में कहें तो, सिस्टम को इस तरह डिज़ाइन किया गया है कि वह शुरुआत में सुरक्षा और स्थिरता को तरजीह दे और अंत में ज़्यादा अभिव्यक्तिपूर्ण और प्राकृतिक ढंग से बोले, जो बड़े पैमाने पर वॉयस मॉडल तैनात करते समय टीमों के सामने आने वाले "या तो स्थिर या प्राकृतिक" वाले समझौते को व्यावहारिक रूप से कम करता है।

PFluxTTS ऑडियो गुणवत्ता और 48 kHz पुनर्निर्माण को कैसे संबोधित करता है?

कई TTS पाइपलाइन्स ऐसे मेल स्पेक्ट्रोग्राम फीचर्स जेनरेट करती हैं, जिनकी रिज़ॉल्यूशन उच्च आवृत्ति विस्तार को पूरी तरह कैप्चर नहीं कर पाती, और फिर ऑडियो पुनर्निर्माण के लिए वोकाडर पर निर्भर रहती हैं। पेपर में एक संशोधित PeriodWave वोकाडर पेश किया गया है, जिसमें सुपर-रेज़ोल्यूशन दृष्टिकोण शामिल किया गया है, जो कम रेट मेल फीचर्स से 48 kHz वेवफॉर्म पुनर्निर्माण करने में सक्षम है।

यूज़र्स और डेवलपर्स के लिए, हाई-बैंडविड्थ पुनर्निर्माण का मतलब हो सकता है ज़्यादा साफ सिबिलेंट्स, कम शोर वाले ट्रैंजिएंट्स और अधिक यथार्थवादी उच्च आवृत्ति बनावट, खास तौर पर प्रोफेशनल वाचन या लंबे समय तक सुनने के लिए, जहां समय के साथ आर्टिफैक्ट्स ज़्यादा साफ दिखने लगते हैं।

पेपर में कौन से प्रदर्शन दावे किए गए हैं?

arXiv सारांश में बताया गया है कि जंगली क्रॉस-लिंगुअल डेटा पर, PFluxTTS ने सारांश में वर्णित कई ओपन सोर्स बेसलाइनों की तुलना में बेहतर प्रदर्शन किया, प्राकृतिकता में एक प्रमुख बेसलाइन के बराबर स्तर हासिल किया और इंटेलिजिबिलिटी मेट्रिक्स में सुधार दर्ज किया, साथ ही रिपोर्ट किए गए सेटअप में एक अहम कमर्शियल रेफरेंस की तुलना में ज़्यादा स्पीकर समानता दिखाई।

Speechify शोधकर्ताओं, डेवलपर्स और पार्टनर्स को प्रोत्साहित करता है कि वे सीधे पब्लिक प्रीप्रिंट और ऑडियो डेमो के ज़रिए इस काम का मूल्यांकन करें, जिन्हें यथार्थवादी क्रॉस-लिंगुअल प्रॉम्प्टिंग परिस्थितियों में सुनकर और तुलना योग्य नतीजों के लिए तैयार किया गया है।

पाठक पेपर और डेमो कहाँ पा सकते हैं जिन्हें उद्धृत या लिंक किया जा सके?

PFluxTTS का प्रीप्रिंट arXiv पर 2602.04160 पहचानकर्ता के तहत उपलब्ध है, और प्रोजेक्ट साइट पर पेपर का सारांश और ऑडियो सैंपल सुने जा सकते हैं।

Speechify की Voice AI के भविष्य के लिए यह क्यों महत्वपूर्ण है?

Voice AI अब सिर्फ नवाचार नहीं, बल्कि रोज़मर्रा के इन्फ्रास्ट्रक्चर का हिस्सा बनती जा रही है। यह बदलाव मानक को और ऊँचा कर देता है। सिस्टम्स को लंबे सत्रों के दौरान स्थिर रहना चाहिए, मल्टीलिंगुअल प्रॉम्प्ट्स संभालने चाहिए, स्पीकर की पहचान बरकरार रखनी चाहिए, और वास्तविक परिस्थितियों में भरोसेमंद लेटेंसी और समझने की क्षमता देनी चाहिए।

Speechify का रिसर्च फोकस इन्हीं प्रोडक्शन ज़रूरतों के अनुरूप है। PFluxTTS जैसा काम आधुनिक स्पीच रिसर्च की दिशा दिखाता है: हाइब्रिड आर्किटेक्चर जो स्थिरता और प्राकृतिकता के बीच की खाई पाटते हैं, मजबूत वॉयस क्लोनिंग मेथड्स जो भाषाओं के बीच भी काम करते हैं, और ऐसे एंड-टू-एंड पाइपलाइन जो सिर्फ बीच के फीचर्स नहीं, बल्कि अंतिम ऑडियो गुणवत्ता को बेहतर बनाते हैं।

Speechify व्यावहारिक वॉयस AI को आगे बढ़ाने वाले रिसर्च में निवेश करने, शीर्ष सम्मेलनों में शोध प्रकाशित करने और उन उपलब्धियों को यूज़र्स के लिए प्रोडक्ट गुणवत्ता और डेवलपर्स के लिए भरोसेमंद वॉयस इन्फ्रास्ट्रक्चर में बदलते रहने के लिए प्रतिबद्ध है।

Speechify के बारे में

Speechify एक वॉयस-फर्स्ट AI कंपनी है, जो लोगों को जानकारी पढ़ने, लिखने और समझने में भाषण के ज़रिए मदद करती है। 5 करोड़ से ज़्यादा यूज़र्स द्वारा भरोसा किया गया Speechify AI रीडिंग, AI राइटिंग, AI पॉडकास्ट, AI नोट-टेकिंग, AI मीटिंग्स और AI प्रोडक्टिविटी को कंज़्यूमर और एंटरप्राइज़ प्लेटफॉर्म्स पर संभव बनाता है। Speechify का स्वामित्व वाला वॉयस रिसर्च और मॉडल कार्य 60 से अधिक भाषाओं में असली जैसी स्पीच को सक्षम करता है और दुनिया भर में व्यापक नॉलेज वर्क और एक्सेसिबिलिटी उपयोग मामलों में काम आता है।