Iako je ideja da računalo čita tekst korisnicima prisutna već godinama, čini se da text to speech posljednjih godina prolazi kroz pravu revoluciju.
Prema nedavnom istraživanju, tržište text to speecha procijenjeno je na golemih 2 milijarde dolara 2020. godine — dijelom zbog utjecaja pandemije COVID-19. Očekuje se rast na 5 milijardi do 2026., uz impresivnu godišnju stopu rasta od 14,6%.
Prije svega, takva text to speech rješenja pomažu osobama s različitim oštećenjima vida. Prema CDC-u, oko 12 milijuna Amerikanaca starijih od 40 godina ima neki problem s vidom. Od toga je milijun potpuno slijepo, a čak 8 milijuna ima poteškoće zbog neispravljene refrakcijske greške. Taj je broj porastao s 4,2 milijuna u 2012.
Sve to pokazuje da je text to speech tehnologija tijekom godina višestruko opravdala svoju vrijednost. Mnoge platforme, poput Speechifyja, nude brojne visokokvalitetne glasove prema željama korisnika. No kako ovo rješenje radi i zašto postoji toliko puno glasovnih opcija? Evo na što treba obratiti pažnju.
Kako radi text to speech
Prije nego što upoznate same glasove u text to speech rješenjima, važno je shvatiti kako ona zapravo funkcioniraju.
Text to speech koristi umjetnu inteligenciju, strojno učenje i srodne tehnologije za pretvaranje teksta na ekranu u zvuk koji kasnije možemo slušati. To uključuje ne samo web sadržaj ili članke, nego i tekstove iz aplikacija poput Microsoft Worda.
Sam audio sadržaj generira uređaj koji koristite. Osim na računalima, text to speech dostupan je gotovo na svakom pametnom telefonu, tabletu ili drugom mobilnom uređaju danas.
U većini slučajeva, text to speech obrada odvija se lokalno na uređaju. Zahvaljujući tome, ova je funkcionalnost korisna i bez internetske veze.
Osim osobama s oštećenjem vida, text to speech je praktičan i zato što možete prilagoditi visinu i brzinu glasa. Možete usporiti čitanje radi bolje razumljivosti ili ubrzati kako biste brže prošli kroz sadržaj.
Text to speech glasovi: kako funkcioniraju
Glas koji čujete u text to speech rješenjima temelji se na konceptu zvanom sintetizator govora.
Što je sintetizator govora?
Sintetizator govora omogućuje računalu ili uređaju da izgovara riječi odabranim glasom. To zapravo nije bitno drugačije od toga da sami čitate s papira — samo što informacija izlazi kao zvuk kroz zvučnike ili slušalice, umjesto kao tekst na ekranu.
Govorna sinteza odvija se kroz nekoliko ključnih koraka. Prvi je pretvaranje teksta u riječi.
Korak 1: Predobrada
U ovom koraku, text to speech rješenja analiziraju riječi u vašem sadržaju i pretvaraju slova — koja su zapravo simboli — u riječi. To je važno jer pisana riječ može biti dvosmislena. Pojedine riječi ili fraze mogu značiti više toga. Računalo mora «razumjeti» razliku između riječi poput "njihov", "tamo" i "oni su" — koje se izgovaraju isto, ali mijenjaju smisao rečenice.
Ovdje na scenu stupaju umjetna inteligencija i strojno učenje. Uz AI, text to speech rješenja «uče» smanjiti dvosmislenost. Ova se faza naziva "predobradom" jer se odvija «u pozadini» prije nego što aplikacija uopće nešto pročita naglas.
Ovdje text to speech rješenje razlikuje riječi koje se isto pišu, ali se drugačije izgovaraju ovisno o kontekstu. Primjer je "read", koje može označavati sadašnje ili prošlo vrijeme. Ljudi lako prepoznaju značenje po kontekstu — računalni sustavi koriste AI kako bi postigli isto.
Izazov u ovom koraku predstavljaju i brojevi, kratice, akronimi i posebni znakovi poput dolara. Zato je faza predobrade ključna — osigurava da će izgovoreni tekst imati smisla u kontekstu za koji je namijenjen.
Korak 2: Razumijevanje izgovora
Nakon analize teksta, text to speech "razumije" koje riječi treba izgovoriti. Potom se te riječi pretvaraju u foneme — tj. u upute kako pravilno izgovoriti svaki pojam iz teksta.
Ovaj je korak tijekom godina znatno napredovao. Ako ste koristili text to speech iz 1990-ih ili gledali stare filmove iz 70-ih/80-ih, sigurno ste čuli računalne glasove koji nisu zvučali prirodno. Iako ste ih mogli razumjeti, većina riječi bila je loše izgovorena.
Korak 3: Pretvorba u govor
Kad su fonemi određeni, rješenje prelazi na završnu fazu: pretvaranje tih informacija u zvuk koji se reproducira preko zvučnika ili slušalica.
To može funkcionirati na više načina, ovisno o rješenju. Ponekad glumac snimi foneme, a zatim se te snimke koriste za generiranje glasova. Aplikacija povezuje skenirani tekst s već snimljenim fonemima, pa tako reproducira zvuk teksta što prirodnije.
Neka rješenja omogućuju računalu da generira vlastiti glas. Princip je sličan, ali glas nije temeljen na snimkama, već se stvara generiranjem određenih zvučnih frekvencija u točnom redoslijedu.
Ovaj pristup nije bitno drugačiji od glazbenih sintetizatora, gdje glazbenik imitira zvuk instrumenata preko tipkovnice. Računalo "prepoznaje" svaku tipku i iz nje generira odgovarajući zvuk.
Opcije glasova i još mnogo toga
Razlog zašto postoji toliko različitih glasova u generatorima glasova jest to što ih zapravo nije tako teško izraditi kao što se često misli. Potrebni fonemi prisutni su u svim jezicima, pa glumac može snimiti kratak tekst koji sadrži sve što treba, a zatim se snimke koriste za kreiranje glasova.
AI tehnologija prepoznaje svaki fonem i koristi samo one potrebne za generiranje glasova kad korisnik sluša web stranicu ili neki drugi sadržaj.
Naravno, ova tehnologija ima brojne primjene i izvan pomoći slabovidnima. Posljednjih godina interes za AI govor i generiranje glasova raste i zbog društvenih mreža poput TikToka.
TikTok je među prvima uveo AI generiranje glasa, gdje korisnici snime video, dodaju tekst i koriste sintetizirani govor za čitanje naglas. To sadržaju daje zabavan štih, a ovaj trend i dalje raste.
Budućnost text to speecha je stigla
Na kraju, text to speech neprocjenjivo je koristan jer osobama s poteškoćama vida omogućuje pristup istom sadržaju kao i svima drugima — na način koji im odgovara. Bilo koji blog, članak ili dokument pretvori u lako slušljiv audio, bilo kod kuće, na putu ili u teretani.
Ova tehnologija ne čini nas samo produktivnijima, već pomaže rješavati ozbiljne probleme opisane gore. Zato ne čudi naglašen porast popularnosti govorne sinteze i AI govora posljednjih godina.
Ako želite saznati više o text to speech glasovima ili o tome kako vam mogu pomoći, nemojte čekati — isprobajte Speechify besplatno.
Speechify je najbolje ocijenjena aplikacija u App Storeu, s najprirodnijim glasovima, odličnim korisničkim iskustvom i mnoštvom opcija glasova.
Speechify je dostupan u više verzija: za pojedince, grupe i API za tvrtke svih veličina.

