היסטוריה קצרה של טקסט לדיבור

סינתוז דיבור, או יצירת קול אנושי בצורה מלאכותית, עבר דרך ארוכה ב-70 השנים האחרונות. אם אתם משתמשים היום ב-שירותי טקסט לדיבור כדי להאזין לספרים, ללמוד או להגהה, אין ספק ששירותים אלו הקלו על אנשים בתחומים רבים.

כאן נבין איך עובד עיבוד טקסט לדיבור, ואיך הטכנולוגיה המסייעת הזו השתנתה עם השנים.

מבוא

בשנות ה-1700, פרופסור רוסי בשם כריסטיאן קרצנשטיין יצר תהודות אקוסטיות שדימו את קול האדם. עשרים שנה לאחר מכן, ה-VODER (Voice Operating Demonstrator) עשה כותרות בתערוכת ניו יורק בעזרת הומר דאדלי, שהדגים כיצד ניתן ליצור דיבור אנושי באמצעים מלאכותיים. המכשיר דרש שליטה מורכבת – דאדלי שלט בתדר הבסיס בעזרת דוושות רגל.

בתחילת המאה ה-19, צ'ארלס וויטסטון פיתח את מסנתז הדיבור המכני הראשון. זה פתח רצף מהיר של התקדמות בכלי ובטכנולוגיות סינתזה.

קשה להגדיר מה הופך תוכנת טקסט לדיבור לטובה, אך כמו בהרבה תחומים, מבינים את זה כששומעים. תוכנה איכותית מספקת קולות טבעיים עם אינטונציה וטון מציאותיים.

טכנולוגיית טקסט לדיבור מסייעת לאנשים עם לקות ראייה או מגבלות אחרות לגשת למידע. היא גם מאפשרת לסטודנטים ולאחרים עם עומס קריאה להאזין בדרכים. דיבור מלאכותי עוזר להספיק יותר בזמן קצר, והוא שימושי גם בבניית משחקי וידאו ובעבור אנשים עם הבדלי עיבוד שפה.

שנות ה-50–60

בסוף שנות ה-50 פותחו המערכות הראשונות לסינתוז דיבור שהתבססו על מחשב. ב-1961 השתמש ג'ון לארי קלי ג'וניור, פיזיקאי בבל לאבס, במחשב IBM כדי לסנתז דיבור. הווקודר שלו שיחזר את השיר Daisy Bell.

בעת שקלי שיפר את הווקודר שלו, השתמש הסופר ארתור ס. קלארק בדגימה שלו בתסריט לספר 2001: אודיסיאה בחלל. בסצנה המחשב HAL 9000 שר את Daisy Bell.

בשנת 1966 פותחה שיטת Linear Predictive Coding. הפיתוח החל תחת פומיטדה איטקורה ושוזו סאיטו. בשנו ס. אטל ומנפרד ר. שרדר גם תרמו לפיתוח.

שנות ה-70

ב-1975 פיתח איטקורה את שיטת line spectral pairs. השיטה סייעה במחקר ניתוח וסינתוז דיבור, בזיהוי חולשות ובשיפורן.

באותה שנה פותחה גם MUSA – מערכת עצמאית לסינתוז דיבור שהשתמשה באלגוריתם כדי להקריא טקסט באיטלקית. גרסה חדשה בשנה לאחר מכן יכלה גם לשיר באיטלקית.

בשנות ה-70 פותח מסנתז ארטיקולטורי ראשון על בסיס תעלת הקול האנושית. המסנתז הראשון פותח ע"י טום בר, פול מרמלשטיין ופיליפ רובין במעבדות האסקינס, תוך שימוש בידע ממודלים שפותחו בבל לאבס בשנות ה-60 וה-70.

ב-1976 הוצגו מכונות הקריאה לעיוורים של קורצוייל. המכשירים היו יקרים מאד, אך ספריות סיפקו אותם לעיוורים כדי להאזין לספרים.

Linear Predictive Coding הייתה הבסיס לשבבי סינתוז. שבבי TI LPC ושל המכשיר Speak & Spell בסוף שנות ה-70 השתמשו בטכנולוגיה זו. הצעצועים יצרו דיבור עם אינטונציות נכונות, ונתנו קול שונה מהקולות הרובוטיים הנפוצים. מכשירים ידניים שונים המסוגלים לסנתז דיבור זכו להצלחה, וביניהם מחשבון Speech+ של TSI לעיוורים. ב-1979 יצא ה-Fidelity Voice Chess Challenger, מחשב שחמט מדבר.

שנות ה-80

בשנות ה-80 סינתוז דיבור השפיע על עולם משחקי הווידאו. ב-1980 הושק Stratovox מאת Sun Electronics. Manbiki Shoujo (נערת-גניבה) היה משחק המחשב הראשון עם דיבור. המשחק האלקטרוני Milton היה הראשון של חברת Milton Bradley עם קול אנושי מסונתז.

ב-1983 הושקה מכונת הדיבור DECtalk – מכשיר עצמאי מבוסס אקוסטיקה-מכאנית. DECtalk הבין כתיבה פונטית, והותאמה בו הגייה שונה למילים יוצאות דופן. ניתן להוסיף סימני טון ולהפוך את DECtalk למסוגל לשיר.

בסוף שנות ה-80 סטיב ג'ובס יצר את NeXT, מערכת שפותחה בידי Trillium Sound Research. למרות ש-NeXT לא הצליחה, ג'ובס מיזג אותה לתוך אפל בשנות ה-90.

שנות ה-90

הגרסאות הראשונות של סינתוז טקסט לדיבור נשמעו רובוטיות, אך בסוף שנות ה-80 וה-90 זה השתנה. בסוף שנות ה-90 נוספו קולות רכים יותר כדי להישמע אנושיים. ב-1990 פיתחה אן סירדל מבל לאבס קול נשי מסונתז. מהנדסים עבדו על קולות טבעיים לאורך שנות ה-90.

ב-1999 מיקרוסופט השיקה את Narrator – קורא מסך שנמצא בכל גרסת ווינדוס.

שנות ה-2000

בשנות ה-2000 חלה האטה בפיתוח בגלל קושי בהגדרת סטנדרטים אחידים. דיבור משתנה מאדם לאדם, וקשה להסכים על הגייה, אינטונציה ודגשים נכונים בין תרבויות.

בשנות ה-90 עלתה החשיבות של איכות הצליל. לעיתים מערכת המעבדה הייתה טובה בהרבה מהציוד של המשתמש. רבים מזהים את סינתזת הדיבור עם הקול הרובוטי של סטיבן הוקינג, עם מעט גוון אנושי.

ב-2005 החלו להשתמש במאגר דיבור משותף, שאיפשר מחקר ואחידות בין מערכות דיבור מתקדמות.

ב-2007 נמצא שמאזינים יודעים לזהות אם הדובר מחייך. העבודה נמשכת כדי לשפר זיהוי ודיבור מסונתז כך שיהיה טבעי עוד יותר.

שנות ה-2010

היום מוצרי סינתוז קול כמו Siri ו-Alexa נפוצים. מסנתזים אלקטרוניים לא רק מקלים על החיים – הם גם הופכים אותם למהנים יותר. בין אם אתם משתמשים במערכת TTS כדי להאזין לספרים או לשפר שפה, סביר שאתם מפעילים את רשתות המוח שלכם באמצעות טקסט לדיבור מדי יום.

העתיד

בשנים הקרובות, סביר שטכנולוגיית סינתוז קול תתמקד ביצירת מודלים של המוח להבנת האופן שבו אנו שומרים מידע דבור. טכנולוגיית דיבור תחקור גם את ההשפעה של רגש על דיבור, ותרחיב קולות AI שלא ניתן להבחין ביניהם לבין קול אנושי אמיתי.

החידושים האחרונים בסינתוז קול: Speechify

בהשוואה לטכנולוגיות סינתוז קול קודמות, מדהים לראות כמה רחוק המדע התקדם. כיום אפליקציות כמו Speechify ממירות בקלות טקסטים לקובצי שמע. בלחיצה אחת Speechify מתרגם אתרי אינטרנט, מסמכים ותמונות לטקסט בדיבור טבעי. ספריית Speechify מסתנכרנת בין כל המכשירים שלכם, ומאפשרת ללמוד ולעבוד מכל מקום. נסו את Speechify ב-App Store של אפל או באנדרואיד של Google Play.

שאלות נפוצות

מי המציא טקסט לדיבור?

טקסט לדיבור באנגלית הומצא בידי נוריקו אומדה. המערכת פותחה ב-1968 במעבדה לאלקטרוטכניקה ביפן.

מה מטרת טקסט לדיבור?

רבים משתמשים בטכנולוגיית טקסט לדיבור. למעדיפים פורמט שמע, טכנולוגיית TTS מאפשרת גישה מהירה למידע הדרוש ללימוד או עבודה ללא קריאה ממושכת. אנשי מקצוע עמוסים משתמשים ב-TTS כשלא ניתן לשבת מול מסך. הרבה מטכנולוגיות TTS נבנו מלכתחילה לעיוורים, ועד היום זו דרך מומלצת למתקשים בראייה.

איך מסנתזים דיבור?

קטעי דיבור מוקלטים נשמרים בבסיס נתונים ביחידות שונות. התוכנה בוחרת יחידות לפי הצורך ומרכיבה מהן קובץ שמע. ככל שטווח הפלט של התוכנה גדול יותר, כך קשה להפיק קול ברור.

Speechify היא הפלטפורמה המובילה בעולם לטקסט לדיבור, שנשענת על למעלה מ-50 מיליון משתמשים ומגובה ביותר מ-500,000 ביקורות חמישה כוכבים על מוצרי הטקסט לדיבור שלה ל-iOS, Android, הרחבת כרום, אפליקציית ווב ואפליקציית דסקטופ למק. ב-2025, אפל העניקה ל-Speechify את פרס ה-Apple Design Award היוקרתי ב-WWDC, ותיארה אותה כ"משאב חיוני שעוזר לאנשים לחיות את חייהם." Speechify מציעה יותר מ-1,000 קולות טבעיים ביותר מ-60 שפות, ונמצאת בשימוש כמעט ב-200 מדינות. בין קולות הסלבריטאים ניתן למצוא את Snoop Dogg ו-Gwyneth Paltrow. ליוצרים ולעסקים, Speechify Studio מספקת כלים מתקדמים, כולל מחולל קולות AI, שיבוטי קול AI, דיבוב AI וגם מחליף קולות AI. Speechify גם מספקת יכולות טקסט לדיבור מתקדמות, איכותיות ומשתלמות למוצרים מובילים באמצעות ה-API לטקסט לדיבור שלה. הופיעה ב-The Wall Street Journal, CNBC, Forbes, TechCrunch וגופי חדשות נוספים, Speechify היא ספקית טקסט לדיבור הגדולה בעולם. בקרו ב-speechify.com/news, speechify.com/blog ו-speechify.com/press למידע נוסף.