টেক্সট-টু-স্পিচের সংক্ষিপ্ত ইতিহাস

স্পিচ সিনথেসিস, অর্থাৎ কৃত্রিমভাবে মানব কন্ঠস্বর তৈরি, গত ৭০ বছরে অনেকদূর এগিয়েছে। আপনি হয়তো এখন টেক্সট-টু-স্পিচ ব্যবহার করছেন বই শোনার জন্য, পড়াশোনা কিংবা নিজের লেখা যাচাইয়ে। নিঃসন্দেহে টেক্সট-টু-স্পিচ নানা পেশার মানুষের জীবন অনেক সহজ করেছে।

এখানে আমরা জানব টেক্সট-টু-স্পিচ প্রক্রিয়া কীভাবে কাজ করে এবং সহায়ক এই প্রযুক্তি সময়ের সাথে কীভাবে বদলেছে।

পরিচিতি

১৭০০-এর দশকে রাশিয়ান অধ্যাপক ক্রিস্টিয়ান ক্রাটজেনস্টাইন এমন অ্যাকুস্টিক রেজোনেটর তৈরি করেন যা মানুষের কণ্ঠের শব্দ অনুকরণ করতে পারত। পরে VODER (ভয়েস অপারেটিং ডেমন্সট্রেটর) নিউ ইয়র্ক ওয়ার্ল্ডস ফেয়ারে কৃত্রিমভাবে মানব বক্তৃতা তৈরি করে সবার দৃষ্টি কেড়ে নেয়। যন্ত্রটি চালানো কঠিন ছিল; ফান্ডামেন্টাল ফ্রিকোয়েন্সি ফু্ট প্যাডেল দিয়ে নিয়ন্ত্রণ করতে হত।

১৮০০-এর শুরুতে চার্লস হুইটস্টোন প্রথম যান্ত্রিক স্পিচ সিনথেসাইজার তৈরি করেন। এরপর আর্টিকুলেটরি সিনথেসিস টুল ও প্রযুক্তির দ্রুত বিকাশ শুরু হয়।

একটি ভালো টেক্সট-টু-স্পিচ প্রোগ্রাম চট করে ধরা না পড়লেও, শুনলেই বোঝা যায়। উচ্চমানের টেক্সট-টু-স্পিচ প্রোগ্রাম স্বাভাবিক শোনার কণ্ঠ দেয়, যেখানে বাস্তব ইন্টোনেশন ও টোন থাকে।

টেক্সট-টু-স্পিচ প্রযুক্তি দৃষ্টি প্রতিবন্ধী ও অন্যান্য প্রতিবন্ধিতায় ভোগা মানুষকে তথ্য পেতে ও যোগাযোগ করতে সাহায্য করে। শিক্ষার্থী ও যাদের প্রচুর পড়তে হয়, তারাও চলতে ফিরতে অডিওর মাধ্যমে পড়া সেরে নিতে পারেন। সিনথেটিক ভাষণ নানা কাজে সময় বাঁচায়, যেমন ভিডিও গেম তৈরি থেকে ভাষা-সংক্রান্ত সমস্যায় সহায়তা।

১৯৫০ ও ৬০-এর দশক

১৯৫০-এর শেষ দিকে প্রথম কম্পিউটারভিত্তিক স্পিচ সিনথেসিস সিস্টেম তৈরি হয়। ১৯৬১ সালে বেল ল্যাবের পদার্থবিদ জন ল্যারি কেলি জুনিয়র IBM কম্পিউটার দিয়ে বক্তৃতা সিনথেসাইজ করেন। তাঁর ভোকোডার গান ‘ডেইজি বেল’ বানায়।

কেলি তাঁর ভোকোডার উন্নয়নের সময়, '২০০১: অ্যা স্পেস অডিসি'র লেখক আর্থার সি ক্লার্ক কেলির ডেমো সিনেমার চিত্রনাট্যে ব্যবহার করেন। সেখানে HAL 9000 কম্পিউটার ‘ডেইজি বেল’ গানটি গায়।

১৯৬৬-তে লিনিয়ার প্রিডিকটিভ কোডিং আসে। এ ভাষণ কোডিংয়ের উন্নয়ন করেন ফুমিতাদা ইটাকুরা ও শুজো সাইতো। বিশ্নু এস. আটাল এবং মানফ্রেড আর. শ্রোডারও লিনিয়ার প্রিডিকটিভ কোডিংয়ে অবদান রাখেন।

১৯৭০-এর দশক

১৯৭৫ সালে ইটাকুরা লাইনের স্পেকট্রাল পেয়ার্স পদ্ধতি তৈরি করেন। এই উচ্চ কম্প্রেশন কৌশল স্পিচ বিশ্লেষণ-সিনথেসিস বুঝতে ও উন্নয়নে সাহায্য করে।

এ বছরই MUSA প্রকাশিত হয়। এই স্বনির্ভর, কিংবদন্তি স্পিচ সিনথেসিস সিস্টেম অ্যালগরিদম ব্যবহার করে ইতালিয়ান পড়ত। তিন বছর পরের একটি সংস্করণ ইতালিয়ান ভাষায় গান গাইতে পারে।

৭০-এর দশকে মানুষের কণ্ঠনালীর ভিত্তিতে প্রথম আর্টিকুলেটরি সিনথেসাইজার তৈরি হয়। প্রথমটি করেন টম বেয়ার, পল মার্মেলস্টেইন এবং ফিলিপ রুবিন, হাসকিন্স ল্যাবরেটরিতে। বেল ল্যাবের মডেল থেকে তথ্য নেন তারা।

১৯৭৬-এ কারজওয়াইল রিডিং মেশিন ফর দ্য ব্লাইন্ড চালু হয়। এগুলো সাধারণের নাগালের বাইরে হলেও, লাইব্রেরি প্রায়ই এগুলো দিয়ে দৃষ্টি প্রতিবন্ধীদের বই শোনার সুযোগ দিত।

লিনিয়ার প্রিডিকটিভ কোডিং সিনথেসাইজার চিপ তৈরিতে বড় ভূমিকা রাখে। টেক্সাস ইনস্ট্রুমেন্টস LPC স্পিচ চিপ ও স্পিক & স্পেল টয় এই প্রযুক্তি ব্যবহার করত। এই খেলনায় বাস্তব ইন্টোনেশন ছিল, যা সাধারণ রোবটিক শোনার কণ্ঠ থেকে আলাদা। দশকজুড়ে স্পিচ সিনথেসিস-সক্ষম পোর্টেবল ডিভাইস জনপ্রিয় হয়, যেমন Telesensory Systems Speech+ ক্যালকুলেটর। ১৯৭৯-এ ফিডেলিটি ভয়েস চেস চ্যালেঞ্জারও বাজারে আসে, সেটিও ভাষণ তৈরি করত।

১৯৮০-এর দশক

৮০-এর দশকে ভিডিও গেমে স্পিচ সিনথেসিস এক নতুন যুগ আনে। ১৯৮০ সালে স্ট্রাটোভক্স—একটি অ্যার্কেড শুটিং গেম—Sun Electronics প্রকাশ করে। Manbiki Shoujo (ইংরেজিতে Shoplifting Girl) ছিল ব্যক্তিগত কম্পিউটারে ভাষণ তৈরি করা প্রথম গেম। এ বছরই Milton ব্র্যাডলির Milton ইলেকট্রনিক গেম প্রকাশিত হয়, কণ্ঠস্বর সিনথেসিস-সক্ষম তাদের প্রথম গেম।

১৯৮৩-তে পৃথক অ্যাকুস্টিক-যান্ত্রিক স্পিচ মেশিন DECtalk আসে। DECtalk ফনেটিক বানান বুঝত, দুর্দান্ত উচ্চারণ দিত। ফনেটিক বানানে টোন ইন্ডিকেটর থাকলে সেটা দিয়ে DECtalk গানও গাইতে পারত।

৮০-র শেষের দিকে স্টিভ জবস NeXT তৈরি করেন, যা Trillium Sound Research ডেভেলপ করে। যদিও NeXT জনপ্রিয় হয়নি, পরে অ্যাপলের সঙ্গে একীভূত হয়।

১৯৯০-এর দশক

আগের সিনথেটিক স্পিচ সিস্টেম অনেক বেশি রোবটিক শোনাতো, কিন্তু ৮০ ও ৯০ দশকের শেষভাগ থেকে চিত্রটা বদলাতে শুরু করে। নরম ব্যঞ্জনধ্বনি স্পিকিং মেশিনকে আরও মানবীয় করে তোলে। ১৯৯০-এ AT&T বেল ল্যাবের আন সিরডাল নারী কণ্ঠের স্পিচ সিনথেসাইজার তৈরি করেন। ৯০-র দশকে প্রকৌশলীরা আরও স্বাভাবিক কণ্ঠস্বরের জন্য কাজ করেন।

১৯৯৯ সালে মাইক্রোসফট Narrator প্রকাশ করে, এটি এখন প্রতিটি উইন্ডোজের অংশ।

২০০০-এর দশক

২০০০-এর দশকে সিনথেটিক স্পিচে কিছু সমস্যা দেখা দেয়, কারণ সবাই একক মান নিয়ে একমত ছিল না। ভাষা ব্যক্তিগত হওয়ায় সারা দুনিয়ার উচ্চারণ বা ধ্বনি-ইন্টোনেশনের মান নির্ধারণ কঠিন।

৯০-এর দশকেও ফরম্যান্ট সিনথেসিস অডিওর মান বড় চিন্তা ছিল, কারণ ল্যাবে ব্যবহৃত সিস্টেমের তুলনায় অনেক ব্যবহারকারীর সরঞ্জাম অনেক কম মানের ছিল। স্পিচ সিনথেসিসে স্টিফেন হকিংয়ের ভয়েস সিনথেসাইজারের কথা মনে পড়ে, যা ছিল অল্প মানবিক, বেশাটা যান্ত্রিক শোনাতো।

২০০৫-এ গবেষকরা একমত হয়ে অভিন্ন স্পিচ ডেটাসেট ব্যবহারে রাজি হন, যাতে উন্নত স্পিচ সিনথেসিস সিস্টেমের ভিত্তি তৈরি হয়।

২০০৭-এ গবেষণায় দেখা যায়, শ্রোতারা বক্তার হাসি চেনার সক্ষমতা রাখে। গবেষকরা এ তথ্য ব্যবহার করে আরও মানবিক, স্বাভাবিক স্পিচ সিনথেসিস তৈরির চেষ্টা করছেন।

২০১০-এর দশক

আজ, স্পিচ সিনথেসিস পণ্য—সিরি থেকে অ্যামাজন অ্যালেক্সা—সবখানেই। ইলেকট্রনিক স্পিচ সিনথেসাইজার শুধু জীবন সহজই নয়, আরও আনন্দদায়কও করে। আপনি হয়তো TTS সিস্টেম দিয়ে চলতে চলতে উপন্যাস শুনছেন বা দারুণ সহজে বিদেশি ভাষা শিখছেন, প্রতিদিন নিউরাল নেটওয়ার্কে টেক্সট-টু-স্পিচ ব্যবহার করছেন।

ভবিষ্যৎ

আগামী দিনে ভয়েস সিনথেসিস প্রযুক্তি আরও উন্নত মস্তিষ্কের মডেল নির্মাণের দিকে যাবে, যাতে আমরা কিভাবে ভাষণ তথ্য মনে রাখি সেটা বোঝা যায়। স্পিচ টেকনোলজি আবেগের ভূমিকা অন্বেষণ করবে এবং এ তথ্য দিয়ে AI কণ্ঠ তৈরি করবে, যা প্রকৃত মানুষের মতোই হবে।

সর্বশেষ ভয়েস সিনথেসিস প্রযুক্তি: স্পিচিফাই

আগের স্পিচ সিনথেসিস প্রযুক্তি থেকে আজকের উন্নয়ন জানলেই বোঝা যায় বিজ্ঞান কতদূর এগিয়েছে। এখন Speechify অ্যাপ দিয়ে যেকোনো টেক্সট সহজেই অডিওতে বদলে ফেলা যায়। একবার বোতামে ট্যাপ করলেই Speechify ওয়েবসাইট, ডকুমেন্ট, বা লেখার ছবি থেকে প্রাকৃতিক আওয়াজে বক্তব্য পড়ে শোনায়। স্পিচিফাইয়ের লাইব্রেরি সব ডিভাইসে সিঙ্ক হয়, চলতে চলতে শেখা আর কাজ করা অনেক সহজ। Speechify অ্যাপ অ্যাপলের অ্যাপ স্টোর ও অ্যান্ড্রয়েড গুগল প্লে-তে পাওয়া যায়।

প্রশ্নোত্তর

টেক্সট-টু-স্পিচ কে আবিষ্কার করেছেন?

ইংরেজি ভাষায় টেক্সট-টু-স্পিচ আবিষ্কার করেন নোরিকো উমেদা। ১৯৬৮ সালে জাপানের ইলেকট্রোটেকনিক্যাল ল্যাবরেটরিতে এর উন্নয়ন হয়।

টেক্সট-টু-স্পিচের উদ্দেশ্য কী?

অনেকেই টেক্সট-টু-স্পিচ ব্যবহার করেন। যারা অডিওতে তথ্য পছন্দ করেন, তাদের জন্য TTS প্রযুক্তি সহজে তথ্য পেতে সহায়ক, বই পড়ে চোখ ও সময় নষ্ট না করেই শেখা বা কাজ এগিয়ে নেওয়া যায়। ব্যস্ত পেশাজীবীরাও TTS দিয়ে কাজের সাথে তাল মিলিয়ে চলেন। টিটিএস মূলত দৃষ্টি প্রতিবন্ধীদের জন্য তৈরি, এখনও যারা পড়তে পারেন না তাদের জন্য দারুণ সমাধান।

আপনি কীভাবে স্পিচ সিনথেসাইজ করবেন?

রেকর্ডকৃত বক্তৃতার অংশগুলো বিভিন্ন ইউনিট হিসেবে ডাটাবেসে সংরক্ষণ করা হয়। সফটওয়্যার ইউনিট-সিলেকশন করে অডিও ফাইল প্রস্তুত করে। এখান থেকেই কন্ঠ তৈরি হয়। আউটপুট যত বিস্তৃত, তত স্বচ্ছতার চ্যালেঞ্জও বাড়ে।

স্পিচিফাই পৃথিবীর শীর্ষস্থানীয় টেক্সট-টু-স্পিচ প্ল্যাটফর্ম, যা ৫ কোটি+ ব্যবহারকারীর কাছে ভরসাযোগ্য এবং এর টেক্সট-টু-স্পিচ iOS, অ্যান্ড্রয়েড, ক্রোম এক্সটেনশন, ওয়েব অ্যাপ আর ম্যাক ডেস্কটপ অ্যাপসে ৫ লক্ষ+ ফাইভ-স্টার রিভিউ পেয়েছে। ২০২৫ সালে অ্যাপল স্পিচিফাই-কে মর্যাদাপূর্ণ অ্যাপল ডিজাইন অ্যাওয়ার্ড প্রদান করে WWDC-তে এবং একে বলে, “মানুষের জীবনে দারুণ সহায়ক একটি গুরুত্বপূর্ণ রিসোর্স।” স্পিচিফাই ৬০+ ভাষায় ১,০০০+ প্রাকৃতিক কণ্ঠ নিয়ে প্রায় ২০০ দেশে ব্যবহৃত হচ্ছে। সেলিব্রিটি কণ্ঠের মধ্যে রয়েছে স্নুপ ডগ আর গুইনেথ পেল্ট্রো। নির্মাতা ও ব্যবসার জন্য স্পিচিফাই স্টুডিও উন্নত সব টুল দেয়, যার মধ্যে রয়েছে AI ভয়েস জেনারেটর, AI ভয়েস ক্লোনিং, AI ডাবিং আর AI ভয়েস চেঞ্জার। স্পিচিফাই-এর উচ্চমানের এবং খরচ-সাশ্রয়ী টেক্সট-টু-স্পিচ API-এর মাধ্যমে অসংখ্য শীর্ষ পণ্য সম্ভব হয়েছে। দ্য ওয়াল স্ট্রিট জার্নাল, CNBC, Forbes, TechCrunch এবং অন্যান্য বড় সংবাদমাধ্যমে স্পিচিফাই নিয়ে প্রতিবেদন প্রকাশিত হয়েছে; এটি বিশ্বের সর্ববৃহৎ টেক্সট-টু-স্পিচ প্রদানকারী। আরও জানতে ভিজিট করুন speechify.com/news, speechify.com/blog এবং speechify.com/press।