ٹیکسٹ ٹو اسپیچ ٹیکنالوجی تیزی سے ترقی کر رہی ہے، خاص طور پر پچھلے چند سالوں میں۔ اب AI کی بدولت TTS انسانی آواز جیسا پڑھ کر سنا سکتی ہے۔
Microsoft کا VALL-E ایک جدید ترین سلوشن ہے جو ٹیکسٹ کو حیرت انگیز حد تک اصلی جیسی آواز میں بدل سکتا ہے۔ یہ ایک نیورل کوڈیک لینگویج ماڈل ہے جو زیرو شاٹ مشین لرننگ پر مبنی ہے۔
اگر یہ سب پیچیدہ لگے تو پریشان نہ ہوں۔ ہم نیچے مضمون میں VALL-E کے پیچھے خیالات کو سادہ زبان میں سمجھائیں گے۔
Microsoft VALL-E کی وضاحت
AI ماڈلز بہت تیزی سے طاقتور ہو رہے ہیں۔ اب سب OpenAI کے ChatGPT کو جانتے ہیں، جو انسان کے بہت قریب AI ہے۔ شاید آپ نے DALL-E انجن سے بنائی گئی AI آرٹ بھی دیکھی ہو۔
OpenAI جیسے اسٹارٹ اپس کے ساتھ ساتھ، Microsoft جیسی عالمی کمپنیاں بھی AI میں اہم کردار ادا کر رہی ہیں۔
Microsoft کے محققین نے حال ہی میں ٹیکسٹ ٹو اسپیچ سِنتهیسس کو بہتر بنانے پر کام کیا ہے، اور VALL-E اسی کوشش کی نمایاں مثال ہے۔
یہ نیا AI TTS کے میدان کا پلڑا بدل سکتا ہے، کیونکہ یہ صرف چند سیکنڈ کی آڈیو سن کر انسان جیسی آواز بنا سکتا ہے۔ محض تین سیکنڈ کا آڈیو VALL-E کو مخصوص اسپیکر کا انداز پکڑنے کیلئے کافی ہے۔
اسپیکر کی آواز مل جانے کے بعد، AI نہ صرف اس کی نقل کر سکتا ہے بلکہ جذباتی لہجہ بھی اپناتا ہے۔ مزید یہ کہ VALL-E آڈیو کا پس منظر اور ماحول بھی محفوظ رکھتا ہے۔
سیدھی سی بات، VALL-E اسپیکر کی مشابہت پیدا کرنے میں بہت ماہر ہے۔ GitHub پر آپ اس کی مثالیں سن سکتے ہیں، جہاں Microsoft نے مزید تفصیل بھی شیئر کی ہے۔
یقیناً، یہ ٹیکنالوجی کئی کاموں میں استعمال ہو سکتی ہے، مثلاً پوڈکاسٹ اور آڈیو بکس بنانا۔ جیسے جیسے VALL-E کو GPT-3 جیسے ماڈلز کے ساتھ جوڑا جائے گا، امکانات اور بھی بڑھیں گے۔
لیکن اسی قسم کی ٹیکنالوجی کا غلط استعمال بھی ہو سکتا ہے۔
VALL-E اصل شخص جیسی ہی لگ سکتی ہے، اس لئے کوئی بدنیتی سے اس سے فراڈ یا نقصان دہ ڈیپ فیکس بنا سکتا ہے۔ انہی خدشات کے باعث Microsoft نے اخلاقی بیان جاری کیا۔
بیان میں کمپنی نے ایسے ماڈلز کی حمایت کی ہے جو اصل اسپیکر کی واضح اجازت یقینی بنائیں۔
ابھی VALL-E کے ممکنہ استعمالات پر بحث جاری ہے۔ فی الحال ایک دلچسپ سوال سامنے آتا ہے:
AI صرف تین سیکنڈ کی آڈیو سے اتنے پیچیدہ پیٹرن کیسے نقل کر لیتا ہے؟
جیسا کہ اندازہ تھا، جواب کافی پیچیدہ ہے۔
VALL-E نے ہزاروں گھنٹے کی انگریزی تقریر پر تربیت حاصل کی۔ اس سے AI کو انگلش میں قدرتی اسپیچ مل گئی۔ لیکن VALL-E عام TTS نہیں، بلکہ جدید مشین لرننگ پر مبنی نظام ہے۔
ہم پہلے ہی بتا چکے ہیں: زیرو شاٹ نیورل کوڈیک لینگویج ماڈل۔ اب عام زبان میں دیکھتے ہیں کہ اس کا مطلب کیا ہے۔
زیرو شاٹ نیورل کوڈیک ماڈلز کو سمجھیں
سادہ لفظوں میں، “زیرو شاٹ” ٹیکسٹ ٹو اسپیچ انجنز کی ایک خاص تکنیک ہے۔ یہ پہلے نہ دیکھی گئی چیز پر بھی AI کو آواز پیدا کرنے کی صلاحیت دیتی ہے۔ یعنی کمپیوٹر نئی تحریر بھی با آسانی پڑھ سکتا ہے۔
اس سے بھی بڑھ کر، زیرو شاٹ ٹیک اضافی تربیت کے بغیر پڑھ سکتی ہے۔ یہ کچھ ایسے ہی ہے جیسے انسان اجنبی متن بھی زبان سمجھ کر پڑھ لے۔
اب مشکل حصہ آتا ہے، “نیورل کوڈیک لینگویج ماڈل” کی مزید وضاحت درکار ہے۔
TTS انجن آڈیو کوڈیک کے ذریعے تحریر کو آواز میں تبدیل کرتے ہیں۔ کوڈیک AI کو الفاظ اور جملوں کو متعلقہ آواز میں ڈھالنے میں مدد دیتا ہے۔ نیورل کوڈیک یہی کام کرتا ہے، مگر یہ نیورل نیٹ ورک پر مبنی ہوتا ہے۔
اب سوال پیدا ہوتا ہے: نیورل نیٹ ورک کیا ہوتا ہے؟
آسان لفظوں میں، نیورل نیٹ ورک انسانی دماغ کا انداز اپنانے کی کوشش کرتا ہے۔ اس میں آرٹیفیشل نیورونز (نوڈز) ہوتے ہیں، جو آپس میں جڑے ہوتے اور مختلف layers میں بٹے ہوتے ہیں۔
یہ پیچیدہ ساخت ڈیپ لرننگ کو ممکن بناتی ہے، جس سے مشین نئے پیٹرن سیکھنے کے قابل ہوتی ہے۔
نیورل کوڈیک زبان کے ماڈل کو طاقت دیتا ہے، جو اس ٹیکسٹ ٹو اسپیچ فارمولا کا دوسرا حصہ ہے۔
لینگویج ماڈل ڈیٹا سیٹ کی بنیاد پر کسی بھی متن کو اصل زبان کے تناظر میں سمجھتا ہے۔ یہی طریقہ ہے جس سے کمپیوٹر ٹیکسٹ کو بامعنی انداز میں سمجھتا ہے۔
VALL-E کے معاملے میں، فیس بک میٹا کی لائبری لائٹ آڈیو لائبریری AI کے لینگویج ماڈل کی بنیاد ہے۔
Speechify کے ساتھ جدید TTS ٹیکنالوجی سنیں
اگرچہ VALL-E عوام کیلئے دستیاب نہیں، آپ Speechify پر جدید ٹیکسٹ ٹو اسپیچ انجن کی آواز سن سکتے ہیں۔ Speechify تقریباً کسی بھی سورس سے ٹیکسٹ پڑھ سکتا ہے۔
تحریر، ویب مواد یا سکین شدہ صفحہ دیں، Speechify فوراً پڑھ کر سنا دے گا۔ اس کی آواز قدرتی اور انسان جیسی ہے، عام روبوٹک انجنز کی طرح نہیں۔
آپ Speechify کے پڑھنے کا انداز اپنی مرضی سے سیٹ کر سکتے ہیں۔ زبان، اسپیکر اور رفتار منتخب کریں، اور جو چاہیں سنیں۔
اگر آپ کو یہ سب زبردست لگتا ہے تو آج ہی Speechify مفت آزما کر دیکھیں۔
عمومی سوالات
کیا لوگ VALL-E استعمال کر سکتے ہیں؟
VALL-E کے غلط استعمال پر کئی تحفظات ہیں، جن میں شناخت چوری خاص تشویش ہے۔ اسی لئے Microsoft نے VALL-E عام استعمال کیلئے جاری نہیں کیا۔
Microsoft AI کیا ہے؟
Microsoft AI کوئی مخصوص پراڈکٹ نہیں، بلکہ کمپنی کا AI ڈیولپمنٹ فریم ورک ہے، جس میں ڈیٹا سائنس، گفتگو AI، روبوٹکس، مشین لرننگ اور بہت کچھ شامل ہے۔
وائس انٹرفیس کیا ہے؟
وائس انٹرفیس وہی ہے جیسا نام سے ظاہر ہے — ایسا یوزر انٹرفیس جس سے آپ آواز کے ذریعے بات چیت کرتے ہیں۔ یہ ٹیکنالوجی اب سمارٹ ڈیوائسز میں عام ہے، جیسے Alexa، Siri، Cortana یا Google Assistant۔
روبوٹ کیا ہے؟
لفظ “روبوٹ” سے مراد ہر وہ مشین ہے جو خودکار طور پر کام کرے۔ ان مشینوں کو انسانی محنت کے متبادل کے طور پر بنایا جاتا ہے۔ زیادہ تر روبوٹ انسانی شکل میں نہیں ہوتے، بلکہ کئی کے پاس جسم بھی نہیں ہوتا۔ مثلاً آج کے مشہور ورچوئل اسسٹنٹس بھی روبوٹ ہی ہیں۔

