ყველაფერი Google Cloud Text to Speech API-ზე

გენერაციული AI და ხელოვნური ინტელექტი ძალიან წინ წავიდა. ტექსტის ხმაზე გადაყვანა უკვე დიდი ხანია არსებობს. თემაც ფართოა და ყველაფერს დეტალურად, სხვადასხვა კუთხიდან განვიხილავ. თუ დამწყები ხარ ან უკვე ფლობ ამ სფეროს, ეს სტატია Google Text to Speech API-ზე მთლიან სურათს შეგიქმნის.

სანამ თემაში ღრმად შევალთ, საჭიროა ძირითადი ტერმინების გარკვევა და ზოგადი წესების დადგენა, რომ ყველაფერი საფუძვლიანად გავიგოთ.

ჯერ გავმიჯნოთ ორი ტექნოლოგია: ტექსტის ხმაზე გადაყვანა და API-ები და მერე ვნახოთ, რა როლი აკისრია Google Cloud-ს.

რედაქტორის შენიშვნა: გჭირდება ტექსტის ხმაზე გადაყვანის მოწინავე API? გამოსცადე Speechify-ის მარტივი და კარგად დოკუმენტირებული text to speech API.

ტექსტის ხმაზე გადაყვანა

ამ თემაზე ვრცლად მაქვს დაწერილი და შეგიძლია წაიკითხო ჩემი რა არის ტექსტის ხმაზე გადაყვანა ბლოგი და აგრეთვე გაეცნო სულ ადეკვატური ხმოვანი სინთეზის გიდს რომ თემას კარგად ჩაწვდე. ეს სტატიები დეტალურად შლის ყველაფერს, მაგრამ თუ გინდა, მათი კითხვა გამოტოვე — ქვემოთ მოკლედ გაგიზიარებ ძირითადს.

ტექსტის ხმაზე გადაყვანა დამყარებულია ტექნოლოგიაზე, სახელად ხმოვანი სინთეზი, რომელიც სიტყვებს AI-ის მეშვეობით რეალურ ხმად აქცევს. გამოყენების სფერო მრავალფეროვანია: კითხვის სირთულის (დისლექსია, მხედველობის პრობლემები) მქონე ადამიანების მხარდაჭერიდან დაწყებული პროდუქტიულობის ზრდამდე.

API

API ნიშნავს აპლიკაციის პროგრამირების ინტერფეისს. ფაქტობრივად, ეს ორი აპლიკაციის დამაკავშირებელი ხიდია. თუ ქმნი აპს ან ვებ-აპს, სადაც გჭირდება ტექსტის ხმაზე გადაყვანა, შეგიძლია ან ნულიდან დაწერო ეს ფუნქცია, ან გამოიყენო მზა API.

ასე შენ კონცენტრირდები აპის განვითარებაზე და ტექსტის ხმაზე გადაყვანას უკვე მესამე მხარის API-სთან დაკავშირებით იღებ.

Google Cloud API

აქ უკვე ჩნდება Google Cloud. Google-მ შექმნა უნივერსალური ტექსტის ხმაზე გადაყვანის API, რომელიც დეველოპერებისთვის სხვადასხვა ტარიფით არის ხელმისაწვდომი. თუ ტექსტის ხმაზე ფუნქციონალის მქონე ვებ-აპს ააწყობ, უბრალოდ გამოიყენებ Google-ის TTS (Text to Speech) სერვისს.

დასაწყებად შედი Google Cloud Console-ში https://cloud.google.com/. ნახავ გაკვეთილებს, მოირგებ პროფილს, აუდიოლოგებს და სხვა პარამეტრებს.

Google Cloud არის ღრუბლოვანი პლატფორმა, რომელიც მოიცავს სხვადასხვა მოდულურ სერვისებს. შეგიძლია აირჩიო ერთი კონკრეტული ან რამდენიმე ერთად. საკმარისია შექმნა API-სთვის მითითების და ავთენტიფიკაციის გასაღებები. თითქმის ყველა სერვისი ფასიანია, თუმცა ზოგიერთს უფასო პაკეტიც აქვს.

Google-მ 2014 წელს შეიძინა DeepMind სპეციალურად ტექსტის ხმაზე გადაყვანის ტექნოლოგიისა და ნეირონული ქსელების განვითარებისთვის. ახლა ის Google DeepMind-ია და იგივე კომპანიაა, უბრალოდ Google-ის ქოლგის ქვეშ.

ახლა, როცა საფუძველი გავიარეთ, გადავიდეთ Google Cloud Text to Speech API-ის დეტალებზე.

Google Text to Speech API-ის ფუნქციები

Google გლობალური ტექნოლოგიების ერთ-ერთი ლიდერია. მისი TTS API გთავაზობს თანამედროვე ფუნქციონალს, რომელიც მუდმივად იხვეწება.

მაღალი ხარისხის ხმა

Google-ის ტექსტის ხმაზე ხმები ერთ-ერთი საუკეთესოა. ბუნებრივად ჟღერს და ადამიანურ ინტონაციას ინარჩუნებს. ვინც რეალურ ხმოვანებას ყველაზე მეტად მიუახლოვდება, ის მოიგებს.

ხმების მრავალფეროვნება

Google ერთ-ერთ ყველაზე დიდ ხმების არჩევანს სთავაზობს. ასე, თქვენს აპს აღარ მოუწევს კონკურენტების მსგავსად ჟღერა.

შექმენი საკუთარი ხმა

ეს უკავშირდება ხმების კლონირების ტექნოლოგიას. შეგიძლია ჩაწერო შენი ან სხვისი ხმა (ნებართვით) და ეს აუდიო-ნიმუში გამოიყენო ტექსტების წასაკითხად.

ნეირონული ხმები

ნეირონული ხმები ხარისხით საუკეთესოა და მათი ინტერნაციონალიზაციის საშუალებით მრავალენოვან აუდიტორიას მიიზიდავ.

სტუდიური ხმები

სტუდიური ხმები ელიტურ ხარისხს უზრუნველყოფს და ისე ჟღერს, თითქოს პროფესიულ სტუდიაშია ჩაწერილი.

ხმის მორგება

აირჩიე ხმა და მარტივად დაარეგულირე ტონი, სიჩქარე, სიმაღლე და სხვა პარამეტრები.

რამდენი ღირს Google Text to Speech API?

ფასი დამოკიდებულია ხმის ხარისხსა და ტექსტის მოცულობაზე. რაც უფრო ბუნებრივია ხმა, მით ძვირია, მაგრამ მიუხედავად ამისა, მაღალხარისხიანი ხმებიც საკმაოდ ხელმისაწვდომია.

ხმის ტიპი	თვეში უფასოდ	უფასო ზღვრის შემდეგ
Neural2 ხმები	0-დან 1 მილიონ ბაიტამდე	$16 ყოველ მილიონ ბაიტზე
Polyglot ხმები	0-დან 1 მილიონ ბაიტამდე	$16 ყოველ მილიონ ბაიტზე
სტუდიური ხმები	0-დან 100,000 ბაიტამდე	$160 ყოველ მილიონ ბაიტზე
სტანდარტული ხმები	0-დან 4 მილიონ სიმბოლომდე	$4 ყოველ მილიონ სიმბოლოზე
Wavenet ხმები	0-დან 1 მილიონ სიმბოლოზე	$16 ყოველ მილიონ სიმბოლოზე

რა განსხვავებაა სიმბოლოსა და ბაიტს შორის

როგორც ხედავ, ფასი მნიშვნელოვნად იცვლება ხმის ხარისხის მიხედვით. ხმოვანი სინთეზის კოდირება და დამუშავება სხვადასხვა დონეზე სხვადასხვაგვარია. მაგალითად, სტანდარტული ხმები ითვლება სიმბოლოებით და იაფი გამოდის.

ეს ნიშნავს, თუ პროექტში 4 მილიონი სიმბოლოა, მათი სტანდარტული ხმებით გადათქმა დაახლოებით $16 დაგიჯდება.

სტუდიური ხმები მეტ რესურსს მოითხოვს და ფასდება ბაიტებით. ზოგ ენაში, მაგალითად იაპონურში, ერთი სიმბოლო შეიძლება რამდენიმე ბაიტისგან შედგებოდეს.

სწორი ბიუჯეტის დასაგეგმად მნიშვნელოვანია გაითვალისწინო ენაც და საშუალოდ რამდენი ბაიტია თითო სიმბოლოში.

როგორ გავააქტიურო Google Cloud Text to Speech API?

შექმენი Google Cloud ანგარიში ან შ увედი აქედან
შექმენი ახალი პროექტი და დაარქვი შესაბამისი სახელი
დაამატე გადახდის მეთოდი. გადაიხდი მხოლოდ გამოყენებულზე.
შემდეგ აირჩიე პროექტი და მიაბი ბილინგის ანგარიშს.
გააქტიურე Text-to-Speech API. მოძებნე ზედა ზოლში სიტყვა "speech".
და შედეგებიდან აირჩიე Cloud Text-to-Speech API.
დააყენე ავთენტიფიკაცია განვითარების გარემოსთვის. დეტალებისთვის იხილე ინსტრუქცია ავთენტიფიკაციაზე.

შეგიძლია გამოსცადო Text-to-Speech API პროექტის შექმნის გარეშეც:

აირჩიე TRY THIS API ოპცია.
API-ს გასააქტიურებლად დააჭირე ENABLE-ს.

დამატებითი დახმარებისთვის იხილე Google Cloud-ის დოკუმენტაცია.

როგორ გავუთიშოთ Text to Speech API

API-ს გასათიშად შედი Google Cloud Platform-ის დეშბორდზე, APIs სექციაში დააჭირე ღილაკს "Go to APIs overview", მოძებნე Text-to-Speech API, შედი შიგნით და შემდეგ აირჩიე "DISABLE API" გვერდის ზედა ნაწილში.

დაიწყე გამოყენება Google Text to Speech API-ით

როცა პროექტი მზადაა, შეგიძლია დასაწყებად გამოიყენო ბრძანებების ხაზი.

gcloud init

ლოკალური ავთენტიფიკაცია

gcloud auth application-default login

ახლა დააყენე კლიენტის ბიბლიოთეკა. ამ მაგალითში Node.js-ს ვხმარობთ.

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API-ის მხარდაჭერილი ენები:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

როგორ მუშაობს Google Cloud API?

ყველაფერი იწყება მარტივი API-თი: აგზავნი ტექსტს და იღებ ხმოვან ფაილს. შეგიძლია მიუთითო ხმა, ენა და სხვა პარამეტრები და API გამოგიგზავნის უკვე გამზადებულ აუდიო ფაილს.

იხილე, როგორ დააყენო და გამოიყენო TTS კლიენტის ბიბლიოთეკები აქ. კოდის მაგალითები იქნება Node.js-ზე, თუმცა შეგიძლია აირჩიო Python, PHP ან რაც გირჩევნია.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

ესეც ასე — Google Cloud Text to Speech API ამუშავებულია და პირველი მოთხოვნაც გაგზავნილია. შეგიძლია მიიღო ფაილი სხვადასხვა ფორმატში: OGG, MP3 და სხვა.

Google Text to Speech API გამოყენების გზები

Google Text-to-Speech (TTS) API ბევრ ინდუსტრიაში მრავალმხრივ გამოიყენება. ძირითადი მაგალითებია:

ტექსტის ხმაზე გადაყვანა მხედველობის დაქვეითებულებისთვის: კითხვის ავტომატიზაცია აპებში, რომ ციფრული ინფორმაცია ყველასთვის ხელმისაწვდომი იყოს.
ავტომატური სატელეფონო სისტემები: ბუნებრივი ხმოვანი შეტყობინებები ავტომატურ სატელეფონო აპებში.
მედია კონტენტისთვის ვოისოვერები: ბუნებრივი ვოისოვერი ვიდეოებისთვის, პოდკასტებისთვის და სხვა მედიისთვის.
თარგმნილი ტექსტის ხმაზე გადაყვანა: თარგმნილი ტექსტის ხმოვანი წაკითხვა ენის შესასწავლად ან მრავალენოვანი კომუნიკაციისთვის.
კითხვა დისლექსიის მქონეებისთვის: TTS ამარტივებს ტექსტის აღქმას დისლექსიის მქონეთათვის.
ხმოვანი ნავიგაცია აპებში: ხმოვანი მითითებები ნავიგაციისას აპლიკაციებში.
საგანმანათლებლო მასალების ხმაზე გადაყვანა: ტექსტის გახმოვანება განათლებაში უკეთესი აღქმისთვის.
პროდუქტიულობის აპებში ხმოვანი ასისტენტი: ხმოვანი შეტყობინებები ან მოკლე ხმოვანი შეხსენებები ნოუთებისა და დავალებების აპში.
ვირტუალური ასისტენტებისთვის ბუნებრივი ხმა: ასისტენტის ინტერაქტიული, ადამიანური ხმა მომხმარებლისთვის.
ხმოვანი შეტყობინებები და სტატუსი: მოწყობილობებზე TTS ხმოვანი შეტყობინებებისა და სტატუსის გასახმოვანებლად.

Google Cloud TTS API-ის საუკეთესო ალტერნატივები

2022 წლის მდგომარეობით არსებობს Google Text-to-Speech API-ს რამდენიმე ალტერნატივა. მათი აქტუალობა და შესაძლებლობები დროთა განმავლობაში შეიძლება შეიცვალოს. აქ ჩამოთვლილია ძირითადი ვარიანტები:

Speechify Text to Speech API: სიამოვნებით წარმოგიდგენთ ტექსტის ხმაზე API-ს, რომელიც უზრუნველყოფს Speechify-ის საუკეთესო ხმებს დეველოპერებისთვის. დაიჯავშნე შენი ადგილი.
Amazon Polly: AWS-ის Polly სთავაზობს ბუნებრივ ხმოვან სინთეზს მრავალ ენასა და ხმაზე და მარტივად ერთვება AWS-ის სერვისებში.
Microsoft Azure Speech Service: Azure Speech Service მოიცავს TTS ფუნქციას და მრავალ ტიპის აპლიკაციას ემსახურება.
IBM Watson Text to Speech: IBM Watson-ის ტექსტის ხმაზე გადაყვანის სერვისი მრავალ ხმასა და ენაზე.
Nuance Communications: Nuance სთავაზობს ტექსტის ხმაზე გადაყვანას ჯანდაცვაში, ავტომობილებში და მომხმარებელთა მომსახურებაში.
CereProc: CereProc ქმნის მაღალი ხარისხის ხმებს ხელმისაწვდომობისთვის, გასართობად და კომუნიკაციისთვის.
iSpeech: iSpeech არის ღრუბლოვანი სერვისი, რომელიც მუშაობს მრავალ ენასა და ხმაზე. გამოიყენება მობილურ აპებსა და ვებსაიტებში.
ResponsiveVoice: მარტივი, ბიუჯეტური TTS API მრავალ ენაზე, ვებ აპლიკაციებისთვის.
Neospeech: Neospeech განსაკუთრებულ ყურადღებას აქცევს ბუნებრივ ხმას e-learning-ში და გასართობ ინდუსტრიაში.
ReadSpeaker: ReadSpeaker გთავაზობთ ონლაინ და ოფლაინ TTS გადაწყვეტებს ვებსაიტებისთვის, განათლებასა და ხელმისაწვდომობისთვის.
Acapelabox: Acapela Group-ის ღრუბლოვანი API სხვადასხვა ენასა და ხმისთვის.

Google Text to Speech API კითხვები

Google-ს ხმების სხვადასხვა დონე აქვს და თითქმის ყველა დონეს აქვს საწყისი უფასო ზღვარი. მაგალითად, სტანდარტული ხმები უფასოა პირველ მილიონ ბაიტზე, შემდეგ კი მილიონ ბაიტზე $16 ღირს. ასე რომ, გარკვეული მოცულობა შეიძლება უფასოდაც მიიღო.

უბრალოდ შექმენი ანგარიში https://cloud.google.com/text-to-speech/-ზე და მიჰყევი მითითებებს. ამავე პროცესს ზემოთ ბლოგშიც ვხსნი.

API გასაღებს მიიღებ Google Cloud-ში შესვლითა და პროექტის შექმნით. კონკრეტულ პროექტში გენერირდება API გასაღები.

API-ის მისამართია https://cloud.google.com/text-to-speech/

ტექნიკურად Google Cloud-ს ერთიანი საცდელი პერიოდი არ აქვს. თითოეულ სერვისს თავისი პირობები და უფასო ზღვარი აქვს.

არა. Google Cloud Text to Speech-ის გამოყენებას სჭირდება ინტერნეტთან კავშირი.

Google Cloud-ის სერვისებზე, მათ შორის TTS-ზე, ავთენტიფიკაცია ხდება API გასაღებით, OAuth 2.0-ით ან სერვის-ანგარიშით. შესაფერისი მეთოდი გამოყენების სცენარზე და აპლიკაციის ტიპზეა დამოკიდებული.

მე 5 ვარსკვლავს დავუწერდი. მარტივი გამოსაყენებელია, კარგი საძიებო სისტემა აქვს და ფასებიც გონივრულია. საერთო ჯამში, ძალიან კარგი პროდუქტია.

Google Text-to-Speech API-ს აქვს კლიენტის ბიბლიოთეკა სხვადასხვა ენაზე, მათ შორის Python-ზე. ასევე აქვს REST API, ასე რომ ყველანაირი ენა, რომლითაც HTTP მოთხოვნის გაგზავნა შეიძლება, თავსებადია.

Android-ში ინტეგრაციისთვის გამოიყენე TextToSpeech კლასი და API მოთხოვნები. დეტალური ინსტრუქცია მოცემულია დეველოპერების ოფიციალურ დოკუმენტაციაში.

Google Text-to-Speech API-ის დასაინტეგრირებლად JavaScript-ში უნდა გაგზავნო HTTP მოთხოვნა API მისამართზე. დეტალებისთვის იხილე ოფიციალური დოკუმენტაცია.

Speechify — ეს არის მსოფლიოში წამყვანი ტექსტიდან სიტყვაზე პლატფორმა, რომელსაც ენდობა 50 მილიონზე მეტი მომხმარებელი და აქვს 500,000-ზე მეტი ხუთვარსკვლავიანი შეფასება მის ტექსტიდან სიტყვაზე iOS, Android, Chrome-ის გაფართოება, ვებ-აპლიკაცია და Mac-ის დესკტოპ აპლიკაციებში. 2025 წელს Apple-მა მიანიჭა Speechify-ს პრესტიჟული Apple-ის დიზაინის ჯილდო WWDC-ზე და უწოდა მას "აუცილებელ რესურსს, რომელიც ადამიანებს ეხმარება იცხოვრონ სრულფასოვნად." Speechify გვთავაზობს 1,000-ზე მეტ ბუნებრივად ჟღერად ხმას 60+ ენაზე და გამოიყენება თითქმის 200 ქვეყანაში. ცნობილი ადამიანების ხმებში შედის Snoop Dogg-ი და Gwyneth Paltrow. შემოქმედებისთვის და ბიზნესებისთვის Speechify Studio უზრუნველყოფს მოწინავე ხელსაწყოებს, მათ შორისაა AI ხმოვანი გენერატორი, AI ხმოვანი კლონირება, AI დუბლირება და AI ხმის ცვლილება. Speechify სთავაზობს უმაღლესი ხარისხის, ხელმისაწვდომ ტექსტიდან სიტყვაზე API-ით სერვისს წამყვანი პროდუქტებისთვის. გამოქვეყნებულია The Wall Street Journal, CNBC, Forbes, TechCrunch და სხვა წამყვან მედიებში. Speechify არის მსოფლიოში უდიდესი ტექსტიდან სიტყვაზე მომსახურების მომწოდებელი. მეტი დეტალისთვის ეწვიეთ speechify.com/news, speechify.com/blog და speechify.com/press.