اسپیچ سنتھیسس یا انسانی آواز کی مصنوعی تیاری پچھلے 70 سال میں بہت آگے بڑھ گئی ہے۔ چاہے آپ اب ٹیکسٹ ٹو اسپیچ استعمال کرتے ہیں کتابیں سننے، پڑھائی یا اپنے لکھے ہوئے کام کی پروف ریڈنگ کے لیے، حقیقت یہ ہے کہ ٹیکسٹ ٹو اسپیچ نے مختلف شعبوں کے لوگوں کی زندگی آسان بنا دی ہے۔
یہاں ہم دیکھیں گے کہ ٹیکسٹ ٹو اسپیچ پروسیسنگ کیسے کام کرتی ہے اور وقت کے ساتھ اس میں کیا کیا تبدیلیاں آئی ہیں۔
تعارف
1700 کی دہائی میں، روسی پروفیسر کرسچین کرٹزن اسٹائن نے اکوسٹک ریزونیٹر بنائے جو انسانی آواز جیسی آواز پیدا کرتے تھے۔ چند سال بعد، ووڈر (وائس آپریٹنگ ڈیمونسٹریٹر) نے نیو یارک ورلڈز فیئر پر سب کو حیران کر دیا جب بنانے والے ہومر ڈڈلی نے ہجوم کو مصنوعی آواز سے تقریباً انسان جیسی آواز سنا کر دکھائی۔ اس ڈیوائس کو چلانا مشکل تھا ــ ڈڈلی کو بنیادی فریکوئنسی کو فٹ پیڈل کے ذریعے کنٹرول کرنا پڑتا تھا۔
1800 کی ابتدا میں چارلس ویٹ اسٹون نے پہلا مکینیکل اسپیچ سنتھیسائزر بنایا، جس نے تقلیلی سنتھیسس ٹولز اور ٹیکنالوجیز کی تیز رفتار ترقی کی بنیاد رکھ دی۔
اچھا ٹیکسٹ ٹو اسپیچ پروگرام بنانا مشکل ہو سکتا ہے، لیکن جب آپ سنتے ہیں تو فوراً پہچان لیتے ہیں۔ ایک اعلیٰ معیار کا ٹیکسٹ ٹو اسپیچ پروگرام قدرتی آوازیں اور حقیقی سا اتار چڑھاؤ پیش کرتا ہے۔
ٹیکسٹ ٹو اسپیچ ٹیکنالوجی بصارت سے محروم اور دیگر معذوری والے افراد کو اہم معلومات سننے میں مدد دیتی ہے، تاکہ وہ بہتر کام کر سکیں اور دوسروں سے رابطہ میں رہیں۔ یہ سافٹ ویئر طلبہ اور زیادہ پڑھنے والوں کو بھی آڈیو میں مواد سننے کی سہولت دیتا ہے۔ مصنوعی اسپیچ کم وقت میں زیادہ کام نمٹانے میں مددگار ہے اور ویڈیو گیمز سے لے کر زبان سیکھنے تک کئی جگہوں پر کام آتی ہے۔
1950s اور 60s
1950 کی دہائی کے آخر میں پہلے اسپیچ سنتھیسس سسٹمز بنے، جو کمپیوٹر بیسڈ تھے۔ 1961 میں، جان لاری کیلی جونیئر (بیل لیبز کے ماہر طبیعات) نے IBM کمپیوٹر سے اسپیچ سنتھیسائز کی۔ ان کے ووکوڈر نے گانا ’ڈیزی بیل‘ تخلیق کیا۔
جب کیلی اپنا ووکوڈر بہتر بنا رہے تھے، آرثر سی کلارک نے اپنی کتاب 2001: اے اسپیس اوڈیسی کی اسکرین پلے میں اس کا استعمال کیا۔ یہاں HAL 9000 کمپیوٹر ’ڈیزی بیل‘ گاتا ہے۔
1966 میں لینیئر پرڈکٹیو کوڈنگ متعارف ہوئی۔ اس اسپیچ کوڈنگ کی بنیاد فومیتادا اٹاکورا اور شوزو سائیتو نے رکھی۔ بشنو ایس آٹل اور مینفرڈ آر شروڈر نے بھی اس میں اہم کردار ادا کیا۔
1970s
1975 میں لائن اسپیٹرل پیئرز کا طریقہ اٹاکورا نے پیش کیا، جو ہائی کمپریشن اسپیچ کوڈنگ میں مددگار ثابت ہوا۔ اس سے اسپیچ انالیسز اور سنتھیسس کو مزید مؤثر بنایا گیا۔
اسی سال، MUSA متعارف ہوا۔ یہ خودمختار اسپیچ سنتھیسس سسٹم الگورتھم کے ذریعے اطالوی زبان پڑھتا تھا۔ تین سال بعد نئے ورژن نے اطالوی میں گانے بھی شروع کر دیے۔
70s میں پہلا آرٹیلیٹری سنتھیسائزر انسانی وکل ٹریکٹ پر مبنی تیار ہوا۔ پہلا مشہور سنتھیسائزر ٹام بیئر، پال مرملسٹین اور فلپ روبن نے ہاسکنز لیبارٹریز میں بنایا۔ انہوں نے بیل لیبارٹریز کے وکل ٹریکٹ ماڈلز سے رہنمائی لی۔
1976 میں بینا دیکھنے والوں کے لیے کرزویل ریڈنگ مشین متعارف ہوئی۔ یہ عام افراد کے لیے مہنگی تھیں، مگر لائبریریاں بصارت سے محروم لوگوں کو کتابیں سننے کا موقع دیتی تھیں۔
لینیئر پرڈکٹیو کوڈنگ سنتھیسائزر چِپس کی بنیاد بنی۔ ٹیکساس انسٹرومنٹس LPC اسپیچ چِپس اور اسپیک اینڈ اسپیل سمیت کئی کھلونے اس ٹیکنالوجی سے بنے۔ یہ کھلونے غیر معمولی انداز سے انسان جیسی آواز پیدا کرتے تھے اور روبوٹ جیسی آوازوں سے ہٹ کر تھے۔ اس دہائی میں کئی ہینڈ ہیلڈ الیکٹرانک ڈیوائسز سامنے آئیں، جیسے اسپیک + کیلکولیٹر اور فڈیلیٹی وائس چیس چیلنجر (1979)۔
1980s
1980 کی دہائی میں اسپیچ سنتھیسس ویڈیو گیمز میں خوب دھوم مچانے لگا۔ 1980 میں اسٹراٹو وکس (شوٹنگ آرکیڈ گیم) سن الیکٹرانکس نے ریلیز کیا۔ منبیکی شوؤجو پہلا پرسنل کمپیوٹر گیم تھا جس میں اسپیچ سنتھیسس کی صلاحیت تھی۔ الیکٹرانک گیم ملٹن بھی اسی سال آئی — یہ ملٹن بریڈلے کمپنی کا پہلا الیکٹرانک گیم تھا جس میں مصنوعی انسانی آواز شامل تھی۔
1983 میں ڈی سی ٹاک نامی خودمختار اسپیچ مشین سامنے آئی جو صوتی اور مکینیکل دونوں طرح کام کرتی تھی۔ ڈی سی ٹاک صوتی طلسمات سمجھ سکتی تھی، جس سے نئے الفاظ کی اپنی مرضی کی تلفظ بنائی جا سکتی تھی۔ اس میں ٹون اشارے بھی دیے جا سکتے تھے، جس سے یہ مشین گانا بھی گا سکتی تھی۔
80s کے آخر میں، اسٹیو جابز نے نیکسٹ متعارف کرایا، جو ٹریلیئم ساؤنڈ ریسرچ نے تیار کیا تھا۔ اگرچہ نیکسٹ خود بہت مقبول نہ ہو سکا، لیکن جابز نے بعد میں اس پروگرام کو ایپل کے ساتھ ضم کر لیا۔
1990s
پہلے ٹیکسٹ ٹو اسپیچ سسٹمز کی آواز کافی روبوٹ جیسی تھی، مگر 80s کے آخر اور 90s کے شروع میں یہ بدلنے لگی۔ نرم حروف نے مشینوں کو انسان جیسی آواز دینا شروع کی۔ 1990 میں این سرڈل (اے ٹی اینڈ ٹی بیل لیبز) نے پہلی خاتون اسپیچ سنتھیسائزر وائس تیار کی۔ انجینئرز نے اس دوران آواز کو مزید قدرتی بنانے کی مسلسل کوششیں کیں۔
1999 میں مائیکروسافٹ نے نیریٹر (اسکرین ریڈر) جاری کیا، جو آج ہر ونڈوز کا لازمی حصہ ہے۔
2000s
2000 کی دہائی میں اسپیچ سنتھیسس کو مشکلات کا سامنا رہا، کیونکہ ڈیولپرز کو مشترکہ معیارات طے کرنے میں دقت پیش آتی تھی۔ آواز ہر انسان میں منفرد ہوتی ہے، اس لیے دنیا بھر میں صحیح تلفظ، لہجے، اور پیٹرن پر اتفاق رائے مشکل تھا۔
90s میں فارمنٹ سنتھیسس آڈیو کے معیار پر بھی سوال اٹھے۔ لیب میں استعمال ہونے والے سسٹمز صارف کے آلات سے کہیں زیادہ جدید تھے۔ اسپیچ سنتھیسس کی بات ہو تو اکثر لوگوں کو اسٹیفن ہاکنگ کی روبوٹ جیسی آواز والا سنتھیسائزر یاد آتا ہے۔
2005 میں ریسرچرز نے اتفاق کیا اور ایک مشترکہ اسپیچ ڈیٹاسیٹ استعمال کرنا شروع کیا، جس سے ہائی لیول اسپیچ سنتھیسس سسٹم بنانا آسان ہو گیا۔
2007 میں ایک اسٹڈی سے پتا چلا کہ سننے والا پہچان لیتا ہے کہ بولنے والا شخص مسکرا رہا ہے یا نہیں۔ ریسرچرز اب تک اس معلومات سے مزید قدرتی اسپیچ کے لیے کام کر رہے ہیں۔
2010s
آج اسپیچ سنتھیسس پروڈکٹس ہر جگہ دکھائی دیتے ہیں، جیسے Siri، Alexa۔ یہ نہ صرف زندگی آسان بناتے ہیں بلکہ اسے مزید دلچسپ بھی کر دیتے ہیں۔ چاہے آپ TTS سسٹم سے ناول سنتے ہوں یا کوئی زبان سیکھتے ہوں، آپ روزمرہ کے نیورل نیٹ ورکس کو ایکٹو رکھنے کے لیے ٹیکسٹ ٹو اسپیچ استعمال کرتے ہیں۔
مستقبل
آنے والے برسوں میں، امکان ہے کہ وائس سنتھیسس ٹیکنالوجی دماغ کی نقل پر زور دے گی تاکہ ہم تقریر کو کیسے یاد رکھتے اور سمجھتے ہیں، یہ بہتر طور پر جان سکے۔ اسپیچ ٹیکنالوجی انسان کے جذبات کو بھی بہتر سمجھے گی اور ایسی AI آوازیں بنائے گی جو حقیقت سے تقریباً الگ نہ کی جا سکیں۔
وائس سنتھیسس ٹیکنالوجی میں نیا: اسپینچفائی
پرانے اسپیچ سنتھیسس سسٹم میں آنے والی تبدیلیوں کو دیکھ کر اندازہ ہوتا ہے کہ سائنس کہاں تک پہنچ گئی ہے۔ آج ایپس جیسے Speechify سے کسی بھی ٹیکسٹ کو آڈیو میں بدلنا نہایت آسان ہے۔ بس ایک بٹن (یا ایپ) دبائیں، Speechify ویب سائٹس، ڈاکومنٹس اور امیج ٹیکسٹ کو قدرتی آواز میں تبدیل کر دیتا ہے۔ Speechify کی لائبریری ہر ڈیوائس پر سنک ہوتی ہے، جس سے آپ ہر جگہ سیکھ یا کام کر سکتے ہیں۔ Speechify ایپ Apple کے App Store اور Android Google Play پر دستیاب ہے۔
اکثر پوچھے گئے سوالات
ٹیکسٹ ٹو اسپیچ کس نے ایجاد کیا؟
انگریزی کے لیے ٹیکسٹ ٹو اسپیچ کو نوری کو امیدا نے ایجاد کیا۔ یہ 1968 میں جاپان کے الیکٹرو ٹیکنیکل لیب میں تیار ہوا۔
ٹیکسٹ ٹو اسپیچ کا مقصد کیا ہے؟
بہت سے لوگ ٹیکسٹ ٹو اسپیچ استعمال کرتے ہیں۔ جو لوگ معلومات آڈیو کی صورت میں چاہتے ہیں، ان کے لیے TTS ٹیکنالوجی سیکھنے اور کام میں مدد کرتی ہے، بغیر کتاب کے سامنے گھنٹے گزارے۔ مصروف پروفیشنلز بھی TTS سے اسکرین دیکھے بغیر کام نمٹا لیتے ہیں۔ زیادہ تر TTS بصارت سے محروم افراد کے لیے بنی اور آج بھی یہ انہیں درکار معلومات کی فراہمی کا اہم ذریعہ ہے۔
آپ اسپیچ کیسے سنتھیسائز کرتے ہیں؟
ریکارڈ شدہ آواز کو مختلف یونٹس کی شکل میں ڈیٹا بیس میں محفوظ کیا جاتا ہے۔ سافٹ ویئر یونٹ سلیکشن سے آڈیو تیار کرتا ہے، پھر آواز جڑ کر بنتی ہے۔ جتنا پروگرام کا آؤٹ پٹ رینج زیادہ ہوگی، آواز کی وضاحت کرنا اتنا ہی مشکل ہو سکتا ہے۔

