1. হোম
  2. টিটিএস
  3. টেক্সট-টু-স্পিচের সংক্ষিপ্ত ইতিহাস
প্রকাশের তারিখ টিটিএস

টেক্সট-টু-স্পিচের সংক্ষিপ্ত ইতিহাস

Tyler Weitzman

টাইলার ওয়েইটজম্যান

স্ট্যানফোর্ড বিশ্ববিদ্যালয় থেকে কম্পিউটার সায়েন্সে এমএস, ডিসলেক্সিয়া ও অ্যাক্সেসিবিলিটি নিয়ে কাজ করা প্রবক্তা, স্পিচিফাই-এর সিইও ও প্রতিষ্ঠাতা

apple logo২০২৫ অ্যাপল ডিজাইন অ্যাওয়ার্ড
৫ কোটি+ ব্যবহারকারী

স্পিচ সিনথেসিস, অর্থাৎ কৃত্রিমভাবে মানব কন্ঠস্বর তৈরি, গত ৭০ বছরে অনেকদূর এগিয়েছে। আপনি হয়তো এখন টেক্সট-টু-স্পিচ ব্যবহার করছেন বই শোনার জন্য, পড়াশোনা কিংবা নিজের লেখা যাচাইয়ে। নিঃসন্দেহে টেক্সট-টু-স্পিচ নানা পেশার মানুষের জীবন অনেক সহজ করেছে।

এখানে আমরা জানব টেক্সট-টু-স্পিচ প্রক্রিয়া কীভাবে কাজ করে এবং সহায়ক এই প্রযুক্তি সময়ের সাথে কীভাবে বদলেছে।

পরিচিতি

১৭০০-এর দশকে রাশিয়ান অধ্যাপক ক্রিস্টিয়ান ক্রাটজেনস্টাইন এমন অ্যাকুস্টিক রেজোনেটর তৈরি করেন যা মানুষের কণ্ঠের শব্দ অনুকরণ করতে পারত। পরে VODER (ভয়েস অপারেটিং ডেমন্সট্রেটর) নিউ ইয়র্ক ওয়ার্ল্ডস ফেয়ারে কৃত্রিমভাবে মানব বক্তৃতা তৈরি করে সবার দৃষ্টি কেড়ে নেয়। যন্ত্রটি চালানো কঠিন ছিল; ফান্ডামেন্টাল ফ্রিকোয়েন্সি ফু্ট প্যাডেল দিয়ে নিয়ন্ত্রণ করতে হত।

১৮০০-এর শুরুতে চার্লস হুইটস্টোন প্রথম যান্ত্রিক স্পিচ সিনথেসাইজার তৈরি করেন। এরপর আর্টিকুলেটরি সিনথেসিস টুল ও প্রযুক্তির দ্রুত বিকাশ শুরু হয়।

একটি ভালো টেক্সট-টু-স্পিচ প্রোগ্রাম চট করে ধরা না পড়লেও, শুনলেই বোঝা যায়। উচ্চমানের টেক্সট-টু-স্পিচ প্রোগ্রাম স্বাভাবিক শোনার কণ্ঠ দেয়, যেখানে বাস্তব ইন্টোনেশন ও টোন থাকে।

টেক্সট-টু-স্পিচ প্রযুক্তি দৃষ্টি প্রতিবন্ধী ও অন্যান্য প্রতিবন্ধিতায় ভোগা মানুষকে তথ্য পেতে ও যোগাযোগ করতে সাহায্য করে। শিক্ষার্থী ও যাদের প্রচুর পড়তে হয়, তারাও চলতে ফিরতে অডিওর মাধ্যমে পড়া সেরে নিতে পারেন। সিনথেটিক ভাষণ নানা কাজে সময় বাঁচায়, যেমন ভিডিও গেম তৈরি থেকে ভাষা-সংক্রান্ত সমস্যায় সহায়তা।

১৯৫০ ও ৬০-এর দশক

১৯৫০-এর শেষ দিকে প্রথম কম্পিউটারভিত্তিক স্পিচ সিনথেসিস সিস্টেম তৈরি হয়। ১৯৬১ সালে বেল ল্যাবের পদার্থবিদ জন ল্যারি কেলি জুনিয়র IBM কম্পিউটার দিয়ে বক্তৃতা সিনথেসাইজ করেন। তাঁর ভোকোডার গান ‘ডেইজি বেল’ বানায়।

কেলি তাঁর ভোকোডার উন্নয়নের সময়, '২০০১: অ্যা স্পেস অডিসি'র লেখক আর্থার সি ক্লার্ক কেলির ডেমো সিনেমার চিত্রনাট্যে ব্যবহার করেন। সেখানে HAL 9000 কম্পিউটার ‘ডেইজি বেল’ গানটি গায়।

১৯৬৬-তে লিনিয়ার প্রিডিকটিভ কোডিং আসে। এ ভাষণ কোডিংয়ের উন্নয়ন করেন ফুমিতাদা ইটাকুরা ও শুজো সাইতো। বিশ্নু এস. আটাল এবং মানফ্রেড আর. শ্রোডারও লিনিয়ার প্রিডিকটিভ কোডিংয়ে অবদান রাখেন।

১৯৭০-এর দশক

১৯৭৫ সালে ইটাকুরা লাইনের স্পেকট্রাল পেয়ার্স পদ্ধতি তৈরি করেন। এই উচ্চ কম্প্রেশন কৌশল স্পিচ বিশ্লেষণ-সিনথেসিস বুঝতে ও উন্নয়নে সাহায্য করে।

এ বছরই MUSA প্রকাশিত হয়। এই স্বনির্ভর, কিংবদন্তি স্পিচ সিনথেসিস সিস্টেম অ্যালগরিদম ব্যবহার করে ইতালিয়ান পড়ত। তিন বছর পরের একটি সংস্করণ ইতালিয়ান ভাষায় গান গাইতে পারে।

৭০-এর দশকে মানুষের কণ্ঠনালীর ভিত্তিতে প্রথম আর্টিকুলেটরি সিনথেসাইজার তৈরি হয়। প্রথমটি করেন টম বেয়ার, পল মার্মেলস্টেইন এবং ফিলিপ রুবিন, হাসকিন্স ল্যাবরেটরিতে। বেল ল্যাবের মডেল থেকে তথ্য নেন তারা।

১৯৭৬-এ কারজওয়াইল রিডিং মেশিন ফর দ্য ব্লাইন্ড চালু হয়। এগুলো সাধারণের নাগালের বাইরে হলেও, লাইব্রেরি প্রায়ই এগুলো দিয়ে দৃষ্টি প্রতিবন্ধীদের বই শোনার সুযোগ দিত।

লিনিয়ার প্রিডিকটিভ কোডিং সিনথেসাইজার চিপ তৈরিতে বড় ভূমিকা রাখে। টেক্সাস ইনস্ট্রুমেন্টস LPC স্পিচ চিপ ও স্পিক & স্পেল টয় এই প্রযুক্তি ব্যবহার করত। এই খেলনায় বাস্তব ইন্টোনেশন ছিল, যা সাধারণ রোবটিক শোনার কণ্ঠ থেকে আলাদা। দশকজুড়ে স্পিচ সিনথেসিস-সক্ষম পোর্টেবল ডিভাইস জনপ্রিয় হয়, যেমন Telesensory Systems Speech+ ক্যালকুলেটর। ১৯৭৯-এ ফিডেলিটি ভয়েস চেস চ্যালেঞ্জারও বাজারে আসে, সেটিও ভাষণ তৈরি করত।

১৯৮০-এর দশক

৮০-এর দশকে ভিডিও গেমে স্পিচ সিনথেসিস এক নতুন যুগ আনে। ১৯৮০ সালে স্ট্রাটোভক্স—একটি অ্যার্কেড শুটিং গেম—Sun Electronics প্রকাশ করে। Manbiki Shoujo (ইংরেজিতে Shoplifting Girl) ছিল ব্যক্তিগত কম্পিউটারে ভাষণ তৈরি করা প্রথম গেম। এ বছরই Milton ব্র্যাডলির Milton ইলেকট্রনিক গেম প্রকাশিত হয়, কণ্ঠস্বর সিনথেসিস-সক্ষম তাদের প্রথম গেম।

১৯৮৩-তে পৃথক অ্যাকুস্টিক-যান্ত্রিক স্পিচ মেশিন DECtalk আসে। DECtalk ফনেটিক বানান বুঝত, দুর্দান্ত উচ্চারণ দিত। ফনেটিক বানানে টোন ইন্ডিকেটর থাকলে সেটা দিয়ে DECtalk গানও গাইতে পারত।

৮০-র শেষের দিকে স্টিভ জবস NeXT তৈরি করেন, যা Trillium Sound Research ডেভেলপ করে। যদিও NeXT জনপ্রিয় হয়নি, পরে অ্যাপলের সঙ্গে একীভূত হয়।

১৯৯০-এর দশক

আগের সিনথেটিক স্পিচ সিস্টেম অনেক বেশি রোবটিক শোনাতো, কিন্তু ৮০ ও ৯০ দশকের শেষভাগ থেকে চিত্রটা বদলাতে শুরু করে। নরম ব্যঞ্জনধ্বনি স্পিকিং মেশিনকে আরও মানবীয় করে তোলে। ১৯৯০-এ AT&T বেল ল্যাবের আন সিরডাল নারী কণ্ঠের স্পিচ সিনথেসাইজার তৈরি করেন। ৯০-র দশকে প্রকৌশলীরা আরও স্বাভাবিক কণ্ঠস্বরের জন্য কাজ করেন।

১৯৯৯ সালে মাইক্রোসফট Narrator প্রকাশ করে, এটি এখন প্রতিটি উইন্ডোজের অংশ।

২০০০-এর দশক

২০০০-এর দশকে সিনথেটিক স্পিচে কিছু সমস্যা দেখা দেয়, কারণ সবাই একক মান নিয়ে একমত ছিল না। ভাষা ব্যক্তিগত হওয়ায় সারা দুনিয়ার উচ্চারণ বা ধ্বনি-ইন্টোনেশনের মান নির্ধারণ কঠিন।

৯০-এর দশকেও ফরম্যান্ট সিনথেসিস অডিওর মান বড় চিন্তা ছিল, কারণ ল্যাবে ব্যবহৃত সিস্টেমের তুলনায় অনেক ব্যবহারকারীর সরঞ্জাম অনেক কম মানের ছিল। স্পিচ সিনথেসিসে স্টিফেন হকিংয়ের ভয়েস সিনথেসাইজারের কথা মনে পড়ে, যা ছিল অল্প মানবিক, বেশাটা যান্ত্রিক শোনাতো।

২০০৫-এ গবেষকরা একমত হয়ে অভিন্ন স্পিচ ডেটাসেট ব্যবহারে রাজি হন, যাতে উন্নত স্পিচ সিনথেসিস সিস্টেমের ভিত্তি তৈরি হয়।

২০০৭-এ গবেষণায় দেখা যায়, শ্রোতারা বক্তার হাসি চেনার সক্ষমতা রাখে। গবেষকরা এ তথ্য ব্যবহার করে আরও মানবিক, স্বাভাবিক স্পিচ সিনথেসিস তৈরির চেষ্টা করছেন।

২০১০-এর দশক

আজ, স্পিচ সিনথেসিস পণ্য—সিরি থেকে অ্যামাজন অ্যালেক্সা—সবখানেই। ইলেকট্রনিক স্পিচ সিনথেসাইজার শুধু জীবন সহজই নয়, আরও আনন্দদায়কও করে। আপনি হয়তো TTS সিস্টেম দিয়ে চলতে চলতে উপন্যাস শুনছেন বা দারুণ সহজে বিদেশি ভাষা শিখছেন, প্রতিদিন নিউরাল নেটওয়ার্কে টেক্সট-টু-স্পিচ ব্যবহার করছেন।

ভবিষ্যৎ

আগামী দিনে ভয়েস সিনথেসিস প্রযুক্তি আরও উন্নত মস্তিষ্কের মডেল নির্মাণের দিকে যাবে, যাতে আমরা কিভাবে ভাষণ তথ্য মনে রাখি সেটা বোঝা যায়। স্পিচ টেকনোলজি আবেগের ভূমিকা অন্বেষণ করবে এবং এ তথ্য দিয়ে AI কণ্ঠ তৈরি করবে, যা প্রকৃত মানুষের মতোই হবে।

সর্বশেষ ভয়েস সিনথেসিস প্রযুক্তি: স্পিচিফাই

আগের স্পিচ সিনথেসিস প্রযুক্তি থেকে আজকের উন্নয়ন জানলেই বোঝা যায় বিজ্ঞান কতদূর এগিয়েছে। এখন Speechify অ্যাপ দিয়ে যেকোনো টেক্সট সহজেই অডিওতে বদলে ফেলা যায়। একবার বোতামে ট্যাপ করলেই Speechify ওয়েবসাইট, ডকুমেন্ট, বা লেখার ছবি থেকে প্রাকৃতিক আওয়াজে বক্তব্য পড়ে শোনায়। স্পিচিফাইয়ের লাইব্রেরি সব ডিভাইসে সিঙ্ক হয়, চলতে চলতে শেখা আর কাজ করা অনেক সহজ। Speechify অ্যাপ অ্যাপলের অ্যাপ স্টোর ও অ্যান্ড্রয়েড গুগল প্লে-তে পাওয়া যায়। 

প্রশ্নোত্তর

টেক্সট-টু-স্পিচ কে আবিষ্কার করেছেন?

ইংরেজি ভাষায় টেক্সট-টু-স্পিচ আবিষ্কার করেন নোরিকো উমেদা। ১৯৬৮ সালে জাপানের ইলেকট্রোটেকনিক্যাল ল্যাবরেটরিতে এর উন্নয়ন হয়।

টেক্সট-টু-স্পিচের উদ্দেশ্য কী?

অনেকেই টেক্সট-টু-স্পিচ ব্যবহার করেন। যারা অডিওতে তথ্য পছন্দ করেন, তাদের জন্য TTS প্রযুক্তি সহজে তথ্য পেতে সহায়ক, বই পড়ে চোখ ও সময় নষ্ট না করেই শেখা বা কাজ এগিয়ে নেওয়া যায়। ব্যস্ত পেশাজীবীরাও TTS দিয়ে কাজের সাথে তাল মিলিয়ে চলেন। টিটিএস মূলত দৃষ্টি প্রতিবন্ধীদের জন্য তৈরি, এখনও যারা পড়তে পারেন না তাদের জন্য দারুণ সমাধান।

আপনি কীভাবে স্পিচ সিনথেসাইজ করবেন?

রেকর্ডকৃত বক্তৃতার অংশগুলো বিভিন্ন ইউনিট হিসেবে ডাটাবেসে সংরক্ষণ করা হয়। সফটওয়্যার ইউনিট-সিলেকশন করে অডিও ফাইল প্রস্তুত করে। এখান থেকেই কন্ঠ তৈরি হয়। আউটপুট যত বিস্তৃত, তত স্বচ্ছতার চ্যালেঞ্জও বাড়ে।

অত্যাধুনিক AI কণ্ঠস্বর, সীমাহীন ফাইল আর ২৪/৭ সহায়তা উপভোগ করুন

বিনামূল্যে ব্যবহার করে দেখুন
tts banner for blog

এই নিবন্ধটি শেয়ার করুন

Tyler Weitzman

টাইলার ওয়েইটজম্যান

স্ট্যানফোর্ড বিশ্ববিদ্যালয় থেকে কম্পিউটার সায়েন্সে এমএস, ডিসলেক্সিয়া ও অ্যাক্সেসিবিলিটি নিয়ে কাজ করা প্রবক্তা, স্পিচিফাই-এর সিইও ও প্রতিষ্ঠাতা

টাইলার ওয়েইটজম্যান স্পিচিফাই-এর সহ-প্রতিষ্ঠাতা, কৃত্রিম বুদ্ধিমত্তা বিভাগের প্রধান ও প্রেসিডেন্ট; স্পিচিফাই বিশ্বের #1 টেক্সট-টু-স্পিচ অ্যাপ, যার ১,০০,০০০+ ৫-তারকা রিভিউ রয়েছে। তিনি স্ট্যানফোর্ড বিশ্ববিদ্যালয় থেকে গণিতে বিএস এবং কৃত্রিম বুদ্ধিমত্তাভিত্তিক কম্পিউটার সায়েন্সে এমএস ডিগ্রি অর্জন করেছেন। ইনক. ম্যাগাজিনের টপ ৫০ উদ্যোক্তার তালিকায় তাঁর নাম রয়েছে, এবং তাঁকে বিজনেস ইনসাইডার, টেকক্রাঞ্চ, লাইফহ্যাকার, সিবিএসসহ বিভিন্ন মাধ্যমে কভার করা হয়েছে। তাঁর মাস্টার্স গবেষণার মূল ক্ষেত্র ছিল এআই ও টেক্সট-টু-স্পিচ; চূড়ান্ত গবেষণাপত্রের শিরোনাম ছিল “CloneBot: Personalized Dialogue-Response Predictions.”

speechify logo

স্পিচিফাই সম্পর্কে

#১ টেক্সট-টু-স্পিচ রিডার

স্পিচিফাই পৃথিবীর শীর্ষস্থানীয় টেক্সট-টু-স্পিচ প্ল্যাটফর্ম, যা ৫ কোটি+ ব্যবহারকারীর কাছে ভরসাযোগ্য এবং এর টেক্সট-টু-স্পিচ iOS, অ্যান্ড্রয়েড, ক্রোম এক্সটেনশন, ওয়েব অ্যাপ আর ম্যাক ডেস্কটপ অ্যাপসে ৫ লক্ষ+ ফাইভ-স্টার রিভিউ পেয়েছে। ২০২৫ সালে অ্যাপল স্পিচিফাই-কে মর্যাদাপূর্ণ অ্যাপল ডিজাইন অ্যাওয়ার্ড প্রদান করে WWDC-তে এবং একে বলে, “মানুষের জীবনে দারুণ সহায়ক একটি গুরুত্বপূর্ণ রিসোর্স।” স্পিচিফাই ৬০+ ভাষায় ১,০০০+ প্রাকৃতিক কণ্ঠ নিয়ে প্রায় ২০০ দেশে ব্যবহৃত হচ্ছে। সেলিব্রিটি কণ্ঠের মধ্যে রয়েছে স্নুপ ডগ আর গুইনেথ পেল্ট্রো। নির্মাতা ও ব্যবসার জন্য স্পিচিফাই স্টুডিও উন্নত সব টুল দেয়, যার মধ্যে রয়েছে AI ভয়েস জেনারেটর, AI ভয়েস ক্লোনিং, AI ডাবিং আর AI ভয়েস চেঞ্জার। স্পিচিফাই-এর উচ্চমানের এবং খরচ-সাশ্রয়ী টেক্সট-টু-স্পিচ API-এর মাধ্যমে অসংখ্য শীর্ষ পণ্য সম্ভব হয়েছে। দ্য ওয়াল স্ট্রিট জার্নাল, CNBC, Forbes, TechCrunch এবং অন্যান্য বড় সংবাদমাধ্যমে স্পিচিফাই নিয়ে প্রতিবেদন প্রকাশিত হয়েছে; এটি বিশ্বের সর্ববৃহৎ টেক্সট-টু-স্পিচ প্রদানকারী। আরও জানতে ভিজিট করুন speechify.com/news, speechify.com/blog এবং speechify.com/press