A szövegből beszéd technológia óriási ütemben fejlődött az utóbbi években. A mesterséges intelligencia rohamos előretörésének köszönhetően a mai TTS rendszerek már kiváló minőségű felolvasásokat tudnak készíteni, amelyek megszólalásig hasonlítanak az emberi beszédre.
A Microsoft VALL-E egy legújabb generációs technológiai megoldás, amely a szövegből beszédet hátborzongatóan valósághűvé teheti. Ez egy neurális kodekes nyelvi modell, amely zero-shot gépi tanuláson alapul.
Ha az előző mondat science fiction technoblablának hangzik, ne aggódj. Az alábbi cikkben közérthetően elmagyarázzuk a VALL-E mögött álló bonyolult fogalmakat.
A Microsoft VALL-E magyarázata
Az MI modellek hihetetlen gyorsasággal fejlődnek. Ma már szinte mindenki hallott az OpenAI ChatGPT-ről, amely talán a legközelebb áll ahhoz, hogy az MI tényleges személyként működjön. És valószínűleg te is láttál már néhány MI által generált műalkotást a DALL-E motorból.
Az olyan startupok mellett, mint az OpenAI, a globális nagyvállalatok, például a Microsoft is meghatározó szereplők az MI terén.
A Microsoft kutatói nemrégiben jelentős előrelépést értek el a szövegből beszéd szintézis területén. A VALL-E pontosan ezt testesíti meg.
Az új MI várhatóan alaposan felforgatja a TTS piacát, mivel képes emberi hangzású beszédet generálni egy apró hangminta alapján. Egy mindössze három másodperces akusztikus minta már elegendő ahhoz, hogy a VALL-E felismerje az adott beszélő jellegzetességeit.
Miután megkapja a beszélő mintáját, az MI képes leutánozni az ember hangját, sőt az érzelmi tónust is szimulálhatja. Ugyanilyen lenyűgöző, hogy a VALL-E megőrzi a hallható környezet jellemzőit is.
Röviden: a VALL-E modell kiemelkedő a beszélőhöz való hasonlóság terén. Ezt a gyakorlatban is meghallgathatod a GitHubon, ahol a Microsoft hangmintákat és részletes magyarázatot is megosztott az MI-ről.
Természetesen egy ilyen technológiának rengeteg felhasználási területe van, mint például podcastok és hangoskönyvek készítése. A lehetőségek tovább bővülhetnek, ahogy a VALL-E olyan generatív modellekkel ötvözhető, mint a GPT-3.
Ugyanakkor a VALL-E-hez hasonló technológia rosszindulatú célokra is felhasználható.
Mivel a VALL-E ijesztően hasonlíthat egy valódi személy hangjára, könnyű elképzelni, hogyan használhatja ki ezt valaki csalásra, például nem beleegyezéses, káros deepfake-ek előállítására. Ezek a lehetőségek arra sarkallták a Microsoftot, hogy etikai nyilatkozatot adjon ki.
A nyilatkozatban a vállalat olyan speciális beszédszerkesztő modellek fejlesztését szorgalmazta, amelyek garantálják az eredeti beszélő beleegyezését.
De a VALL-E lehetséges felhasználásai körüli viták inkább a jövő kérdései. Egyelőre azonban van egy izgalmasabb kérdés is:
Hogyan képes az MI ilyen összetett mintázatokat lemásolni mindössze egy három másodperces hangminta alapján?
Nem meglepő módon a válasz meglehetősen bonyolult.
A VALL-E hatalmas mennyiségű tanítóadaton keresztül tanult: ez több ezer órányi angol nyelvű beszédet jelentett. Ez tette lehetővé, hogy az MI gördülékenyen tudjon angol nyelvű beszédet szimulálni. A VALL-E azonban nem egy hétköznapi TTS rendszer – hanem élvonalbeli gépi tanulási technológia működteti.
Már említettük a technológia nevét: zero-shot neurális kodekes nyelvi modell. Nézzük meg, mit is jelent ez a gyakorlatban.
Zero-shot neurális kodekes nyelvi modell – mit jelent ez?
Kezdjük a könnyebben érthető résszel: a „zero-shot” egy olyan megközelítés a beszédszintetizáló motoroknál, amely lehetővé teszi, hogy az MI korábban ismeretlen adat alapján generáljon beszédet. Más szóval, a számítógép képes felolvasni olyan szöveget, amellyel még sohasem „találkozott” korábban.
Még lenyűgözőbb, hogy a zero-shot technológia lehetővé teszi, hogy a gép kiegészítő tanulás nélkül adjon hangos kimenetet. Ez nagyjából olyan, mint amikor egy ember felolvas egy ismeretlen szöveget egy általa már jól ismert nyelven.
Most térjünk rá a bonyolultabb részre: a „neurális kodekes nyelvi modellhez” további magyarázat szükséges.
A beszédszintézis motorok audio kodekek segítségével alkotnak hullámformákat az írott szöveg alapján. A kodek segíti az MI-t abban, hogy a leírt betűket, szavakat és mondatokat megfelelő hangokká alakítsa. A neurális kodek is ezt a célt szolgálja, de itt mindezt egy fejlett neurális hálózat végzi.
Ez természetesen felvet egy további kérdést is: mi az a neurális hálózat?
Most anélkül magyarázzuk el a lényeget, hogy túlságosan elmélyednénk a részletekben. Egy neurális hálózat célja az emberi agy működésének utánzása. A hálózat mesterséges neuronokból, azaz csomópontokból áll, amelyeket rétegekbe szerveznek és összekapcsolnak.
Ez a bonyolult felépítés teszi lehetővé az úgynevezett mélytanulást, ami által a gép képes új mintázatok felismerésére és alkalmazására.
A neurális kodek működteti a nyelvi modellt – ez a szövegfelolvasás másik fontos része ebben az összefüggésben.
A nyelvi modell egy adatbázist használ ahhoz, hogy bármilyen szöveges bemenetet értelmezni tudjon egy adott nyelv kontextusában. Más szóval, ez teszi lehetővé a gép számára, hogy „értelmet találjon” egy szövegben.
A VALL-E esetében a LibriLight nevű hangarchívum – amelyet a Facebook Meta gyűjtött össze – szolgált az MI nyelvi modelljének alapjául.
Hallgasd meg a legújabb TTS technológiát működés közben a Speechify-jal
Bár a VALL-E még nem érhető el a nagyközönség számára, a Speechify-ban már most is meghallgathatod, hogyan szól egy fejlett szövegfelolvasó motor. A Speechify egy olyan TTS szolgáltatás, amely szinte bármilyen forrásból fel tudja olvasni a szöveget.
Akár írott szöveget adsz meg, akár webes tartalmat vagy egy beszkennelt oldalt, a Speechify szinte azonnal felolvassa azt. Ami még jobb, hogy a motor természetes hangzású narrátorokat kínál. A szokásos robothangú TTS megoldásokkal szemben a Speechify sokkal inkább emberi hangra emlékeztet, mint gépire.
Ráadásul teljesen testre is szabhatod, hogyan olvassa fel a szöveget a Speechify. Válaszd ki a kívánt nyelvet, narrátort és felolvasási sebességet, és hallgasd meg bármely szöveget pontosan úgy, ahogy szeretnéd.
Ha mindez felkeltette az érdeklődésedet, akkor próbáld ki ingyen a Speechify-t már ma.
GYIK
Használhatják az emberek a VALL-E-t?
Sok aggodalom merül fel azzal kapcsolatban, hogy a VALL-E-t hogyan lehetne visszaélésre használni. A személyazonosság-lopás különösen ijesztő lehetőség. Emiatt a Microsoft úgy döntött, hogy egyelőre nem teszi elérhetővé a VALL-E-t a nyilvánosság számára.
Mi az a Microsoft MI?
A Microsoft MI nem egy konkrét termék. Inkább a vállalat MI-fejlesztési programját és keretrendszerét jelöli. A Microsoft MI magába foglal adat-tudományi megoldásokat, beszélgető MI-t, robotikát, gépi tanulást és számos egyéb iparági újítást.
Mi az a hangvezérelt felület?
A hangvezérelt felület pontosan az, aminek hangzik – olyan felhasználói felület, amelyhez hangparancsokkal lehet hozzáférni. Ez a technológia már széles körben elterjedt az okoseszközökben – gondolj csak az Amazon Alexa, Apple Siri, Microsoft Cortana vagy a Google Assistant megoldásaira.
Mi az a robot?
A „robot” kifejezés minden olyan gépet jelent, amely automatikusan működik. Ezeket a gépeket azért tervezték, hogy bizonyos feladatokban kiváltsák az emberi munkaerőt. Bár a médiában gyakran emberi alakúként ábrázolják őket, a legtöbb robot nem néz ki emberinek. Valójában már fizikai formájuk sem mindig van. Például a ma népszerű virtuális asszisztensek is robotnak számítanak.

