ভয়েস ক্লোনিং, এমন এক প্রযুক্তি যা কোনো ব্যক্তির কণ্ঠ অত্যন্ত বাস্তবসম্মতভাবে অনুকরণ করতে পারে, বছরের পর বছর উল্লেখযোগ্য উন্নতি লাভ করেছে। Speaker Verification to Text-to-Speech synthesis (SV2TTS) কৌশল ব্যবহার করে কারও কণ্ঠ কার্যকরভাবে সংগ্রহ করে কৃত্রিম কণ্ঠ তৈরি করা যায়।
ভয়েস ক্লোনিং সফটওয়্যার কীভাবে কাজ করে?
ভয়েস ক্লোনিং সফটওয়্যার সাধারণত PyTorch নামের একটি ডিপ লার্নিং ফ্রেমওয়ার্কে চলে। নির্দিষ্ট বক্তার কণ্ঠ ক্লোন করতে সাধারণত বেশ কিছু অডিও ডেটা লাগে। এই ডেটাসেট দিয়ে synthesizer ও vocoder মডেলকে নানা প্যারামিটার ও ডিপেন্ডেন্সি নিয়ে প্রশিক্ষণ দেওয়া হয়।
মূলত সফটওয়্যারে তিনটি প্রধান উপাদান থাকে: এনকোডার, synthesizer ও vocoder। এনকোডার বক্তার কণ্ঠ থেকে এমবেড তৈরি করে, synthesizer সেগুলো থেকে স্পেকট্রোগ্রাম বানায় আর vocoder সেই স্পেকট্রোগ্রাম থেকে শোনার মতো কথা তৈরি করে।
এই প্রযুক্তি CPU ও GPU দুটোতেই চালানো যায়, কিছু ক্ষেত্রে GPU-তে দ্রুত শেখানোর জন্য CUDA ব্যবহার হয়। CPU-তে চালালেও, দ্রুত ফল পেতে GPU-ই সুপারিশ করা হয়, কারণ এতে প্রসেসিং ক্ষমতা বেশি।
ভয়েস ক্লোনিং GitHub-এর প্রভাব
GitHub ওপেন সোর্স প্ল্যাটফর্মে বিভিন্ন ভয়েস ক্লোনিং অ্যাপ্লিকেশনের রিপোজিটরি রয়েছে। ভয়েস ক্লোনিং GitHub প্রজেক্ট যেমন CorentinJ ও BenaAndrew-এর প্রজেক্টগুলো নির্মাতাদের একসঙ্গে কাজের সুযোগ দেয়, উন্নয়ন ত্বরান্বিত করে এবং ছড়িয়ে দিতে সাহায্য করে। এসব প্রজেক্টে সাধারণত প্রশিক্ষিত মডেল থাকে, ফলে কম হার্ডওয়্যার বা ডিপ লার্নিং দক্ষতা নিয়েও ভয়েস ক্লোন করা তুলনামূলক সহজ হয়।
অনেক GitHub প্রজেক্ট যেমন Real-Time-Voice-Cloning repo, টেক্সট-টু-স্পিচ (TTS) ও ভয়েস কনভার্শনের জন্য Python স্ক্রিপ্ট ও টুল দেয়। demo_toolbox.py ব্যবহারকারীদের প্রযুক্তিটি হাতে-কলমে পরীক্ষা করতে সাহায্য করে এবং README.md ইনস্টলেশন ও ব্যবহারের খুঁটিনাটি জানায়।
ভয়েস ক্লোনিংয়ের উদ্দেশ্য ও বৈশিষ্ট্য
ভয়েস ক্লোনিং বিনোদন, শিল্প, অ্যাক্সেসিবিলিটি ও জালিয়াতি শনাক্তকরণসহ নানা কাজে ব্যবহৃত হয়। এটি মাল্টি-স্পিকার টেক্সট-টু-স্পিচে ব্যবহৃত হয়, ফলে ভার্চুয়াল সংলাপ আরও প্রাণবন্ত ও বাস্তব মনে হয়। এছাড়া কথা হারানো রোগীদের কণ্ঠ পুনর্গঠনেও এটি ব্যবহৃত হয়।
ভয়েস ক্লোনিং সফটওয়্যারের মূল বৈশিষ্ট্য: ব্যক্তিগত কণ্ঠের বিশেষত্ব অনুকরণ, বহু ভাষা সমর্থন, স্পিচ স্পিড ও পিচ নিয়ন্ত্রণ, Linux-এর মত প্ল্যাটফর্মে চলতে সক্ষমতা। অনেক সফটওয়্যারে সহজে ইন্টিগ্রেশনের জন্য API থাকে।
শীর্ষ ৯টি ভয়েস ক্লোনিং সফটওয়্যার
- Speechify Voice Cloning: Speechify voice cloning দিয়ে শুরু করাই ভালো। ব্রাউজারে শুধু রেকর্ড চাপুন, প্রায় ৩০ সেকেন্ড বলুন, মুহূর্তেই কণ্ঠ ক্লোন হয়ে যাবে।
- Real-Time-Voice-Cloning: GitHub-এ থাকা ওপেন সোর্স প্রজেক্ট, Python টুল দিয়ে কম ডেটা ব্যবহারেও প্রায় তাৎক্ষণিক ক্লোন করতে পারে।
- iSpeech: মানসম্পন্ন TTS সার্ভিস, ভয়েস ক্লোনসহ নানান ভাষা-সম্পর্কিত সেবা দেয়।
- Resemble AI: উন্নত প্ল্যাটফর্ম, সহজ API-সহ কাস্টম ভয়েস ক্লোনিং সুবিধা দেয়।
- Lyrebird: বর্তমানে Descript-এর অংশ, আগে ইম্প্রেসিভ ক্লোনিং সুবিধা ছিল এবং ইউনিক ‘ডিজিটাল ভয়েস’ বানাতে দিত।
- CereVoice Me: CereProc-এর সার্ভিস, ব্যবহারকারীর রেকর্ডিং থেকে ইউনিক TTS কণ্ঠ বানায়।
- Voicepods: উন্নত AI-তে টেক্সটকে প্রাণবন্ত কথায় রূপান্তর করে, ক্লোনিং সুবিধা দেয়।
- Modulate: ব্যবহারকারীরা কাস্টমাইজড, ইউনিক ‘ভয়েস স্কিন’ বানাতে পারে।
- Voicery: উচ্চ মানের স্পিচ সিন্থেসিস ও কাস্টম কণ্ঠের জন্য পরিচিত।
এই সফটওয়্যারগুলো ব্যবহারের আগে সাধারণত pip install করে প্রয়োজনীয় প্যাকেজ নিতে হয়, requirements.txt মেনে ডিপেন্ডেন্সি ঠিক করতে হয়, আর নির্দেশনা অনুসরণ করতে হয়। বেশিরভাগ প্রজেক্ট Jupyter notebook, CLI অথবা Google Colab-এ ব্যবহার উপযোগী।

