টেক্সট টু স্পিচ (TTS) এখন অপরিহার্য সহায়ক প্রযুক্তি, যা অসংখ্য কম্পিউটার ব্যবহারকারীকে পড়া, বিনোদন, পড়াশোনা ও কাজে সহায়তা করছে।
ভাবতেই পারেন, TTS বাজার এখন অপশনে ঠাসা। বেশিরভাগ অ্যাপ আর এক্সটেনশন বেশ কাজের, আপনার কাজে গতি ও সুবিধা আনবে। আজ আমরা মাইক্রোসফটের TTS — Azure নিয়ে কথা বলব।

মাইক্রোসফট টেক্সট টু স্পিচ কি?
তাহলে Azure আসলে কী? তার আগে আরেকটা প্রশ্ন — চান কি আপনার লেখা আপনাকে প্রায় মানুষের গলায় শুনে নিতে, বা পছন্দের পৃষ্ঠা শুনে ফেলা, যেখানে স্পিড, টোন, উচ্চারণ—সবই নিজের মতো সেট করা যায়? মাইক্রোসফট Azure ঠিক এই কাজগুলোই সহজ করে।
Azure এক শক্তিশালী ক্লাউড প্ল্যাটফর্ম। এর Azure cognitive services-এ আছে দুর্দান্ত টেক্সট টু স্পিচ আর স্পিচ-টু-টেক্সট; সাথে Azure cloud storage ও অ্যানালিটিক্সে কাজ আরও মসৃণ হয়, আর আলাদা করে জটিল মেশিন লার্নিং শেখার ঝামেলাও নেই।
বিভিন্ন ওপেন সোর্স সলিউশনের সঙ্গেও দারুণ খাপ খায় Azure; বেশ ফ্লেক্সিবল। নিজের অ্যাপে সহজেই ভয়েসওভার জুড়ে দিন, আর ১০০-এর বেশি ভাষা ও ডায়ালেক্ট Azure-এ হাতের নাগালেই পাবেন।
Microsoft-এর টেক্সট টু স্পিচ অ্যাপ iPhone বা কম্পিউটারে চালানোর উপায়
আপনার ডিভাইসে Microsoft Azure সেটআপ করা ভীষণ সহজ; কেবল অফিসিয়াল Azure ওয়েবসাইটে কয়েকটা ক্লিকেই রেজিস্টার করুন। Outlook, Word, PowerPoint, Docs, OneNote-ই যদি ব্যবহার করেন, আলাদা কিছু ডাউনলোডের দরকার নেই, কারণ এসব প্রোগ্রামে আগে থেকেই 'Speak' নামে বিল্ট-ইন স্পিচ সিস্টেম আছে।
একেবারে টপ-ক্লাস না হলেও Speak অনেক কাজে লাগে, আর সেটিংস বদলানোও খুব সহজ:
- Customize Toolbar অপশনটি ক্লিক করুন
- More Commands নির্বাচন করুন
- All Commands-এ ক্লিক করুন
- Speak খুঁজে বের করে ক্লিক করুন, তারপর Add-এ চাপ দিন
মাইক্রোসফট টেক্সট টু স্পিচের বিকল্প
আগেই বলেছি, টেক্সট রিডারের বিকল্প এখন ভুরি ভুরি—কিছু প্রিমিয়াম অ্যাপ, কিছু আবার GitHub-এর ফ্রি SDK। যদি মাইক্রোসফটের টেক্সট টু স্পিচ পছন্দ না হয় বা অন্য কিছু ট্রাই করতে চান, দেখে নিন নিচের অপশনগুলো।
Speechify
প্রথমেই আছে Speechify, সেরা রেটিংপ্রাপ্ত TTS টুল, যা যেকোনো লেখা, ওয়েবপেজ, গুগল ডক্স, রিসার্চ আর্টিকেল বা নোট — এমনকি ছবি থেকেও পড়ে শোনাতে পারে তার OCR ফিচার দিয়ে। এতে আছে iOS, Android মোবাইল অ্যাপ, ওয়েব অ্যাপ, ম্যাক অ্যাপ, ক্রোম এক্সটেনশন ও টেক্সট টু স্পিচ API।
এছাড়া Speechify ব্যবহারকারীদের দেয় ১০০০-এর বেশি প্রাণবন্ত ও ইমোশনাল AI ভয়েস ৬০+ ভাষায়, যার মধ্যে সেলিব্রেটি কণ্ঠও আছে। সাথে দুর্ধর্ষ টেক্সট টু স্পিচ API, প্রায় সব ধরনের ব্যবহার ও প্রয়োজনই মিটিয়ে দেয়।
Amazon Polly
২ নম্বরে আছে Amazon Polly, প্রাকৃতিক কণ্ঠ আর নানা স্পিকিং স্টাইলের জন্য পরিচিত। বহু ভাষায় কাজ করে, আর নিউরাল টেক্সট টু স্পিচ প্রযুক্তি দিয়ে সহজেই মনের মতো সেটিংস টিউন করা যায়।
Google Cloud Text to Speech
৩ নম্বর, Google-এর Cloud Text to Speech। স্বাভাবিকভাবেই, যেখানে টেকনোলজির অগ্রগতি, সেখানেই Google। এটা মূলত SSML (Speech Synthesis Markup Language) ভিত্তিক ও পে-পার-চারেক্টার মডেলে চলে, একবারের প্রজেক্টের জন্য বেশ সাশ্রয়ী ও কার্যকর।
IBM Watson Text to Speech
৪ নম্বরে IBM Watson। কর্পোরেট পরিবেশের জন্য এটা আলাদা গুরুত্ব পায়—ভার্চুয়াল অ্যাসিস্ট্যান্ট, কাস্টমার সাপোর্ট কিংবা সোজা টেক্সট টু স্পিচ—তিনভাবেই চালানো যায়। বাড়তি প্লাস পয়েন্ট, দামও বেশ সাশ্রয়ী।
Readspeaker
৫ নম্বরে Readspeaker, প্রায় ২৫ বছরের অভিজ্ঞতা নিয়ে কাজ করা এক টিটিএস কোম্পানি। ১০০+ ভাষায় সাপোর্ট, অনলাইন–অফলাইন দুইভাবেই চলে, ই-লার্নিং বা স্পিচ স্টুডিওর জন্য একেবারে পারফেক্ট।
NaturalReader
৬ নম্বরে NaturalReader, যা রিয়েল-টাইম স্পিচ সিন্থেসাইজ বেশ ভালোভাবেই করে। প্রায় সব ধরনের কম্পিউটার অ্যাপে চলে। অন্যতম বৈশিষ্ট্য 'রিডার মোড'—বিজ্ঞাপনসহ সব অপ্রয়োজনীয় লেখা সরিয়ে শুধু মূল কনটেন্ট রেখে দেয়।
VoiceDream Reader
৭ নম্বরে VoiceDream Reader, Azure-এর আরেকটা বিকল্প। হালকা–পাতলা কাজে বেশ ভালো, তবে এক্সেসিবিলিটি বা সিঙ্কিং ফিচার দুর্বল বলে অনেকের অভিযোগ আছে। তবু দ্রুত সমাধান চাইলে এবং একদম হাই-এন্ড নিউরাল টিটিএস না লাগলে কাজ চালিয়ে নেওয়ার মতোই।
FAQ
Windows 10 TTS কি ফ্রি?
Windows 10-এর জন্যও অনেক টিটিএস আছে—কিছু ফ্রি, কিছু পেইড। উইন্ডোজ ১০-এর বিল্ট-ইন 'Speak' অপশন Outlook/Word-এ ফ্রি, তবে Azure-এর মতো উন্নত ফিচার চাইলে সাবস্ক্রিপশন লাগবে।
সবচেয়ে বাস্তবধর্মী টিটিএস কণ্ঠ কোনটি?
সবচেয়ে বাস্তবধর্মীAI ভয়েস পাবেন উন্নত টিটিএস টুল যেমন Amazon Polly, Google Text to Speech API আর Speechify-এ। ভাষা, মডেল আর প্যারামিটার অনুযায়ী রিয়েলিজম ভিন্ন হতে পারে।
টেক্সট টু স্পিচ এবং ভয়েস রিকগনিশনের মধ্যে পার্থক্য কী?
অনেক টিটিএস প্রোগ্রামে টেক্সট টু স্পিচ আর ভয়েস রিকগনিশন দুইটাই থাকে, কিন্তু পার্থক্যটা মাথায় রাখা দরকার। টেক্সট টু স্পিচ লেখাকে অডিও বানিয়ে শোনায়, আর ভয়েস রিকগনিশন হলো কণ্ঠস্বর বিশ্লেষণ করে চিনে ফেলা বা তার মানে বুঝে নেওয়া।

