Speechify הודיעה היום כי החוקר ממעבדת הבינה המלאכותית של Speechify ויקנטי פנקוב הוא מחבר המאמר “PFluxTTS: TTS היברידי עם התאמת זרימה, שיבוט קול חוצה שפות ומיזוג מודלים בזמן הסקה”, שהתקבל לוועידת ICASSP 2026.
העבודה מציגה את PFluxTTS, מערכת המרה מטקסט לדיבור היברידית שמיועדת לשפר מוכנות לייצור בשיבוט קולות והנחיה בשפות שונות. המאמר מתאר פתרון לשלושה פערים עיקריים ביצירת דיבור מבוססת התאמת זרימה: פשרה בין יציבות ומיידיות, קושי בשימור זהות דובר בין שפות, ואיכות גל קולית נמוכה בשיחזור אודיו מלא מתכונות אקוסטיות בדגימה נמוכה.
גרסת קדם של המאמר זמינה לציבור ב-arXiv, ודגימות שמע זמינות באתר הפרויקט.
מה מסמלת קבלת המאמר ל-ICASSP 2026 על כיוון המחקר ב-Speechify?
ICASSP היא אחת הוועידות המובילות למחקר דיבור, אודיו ועיבוד אותות, והקבלה משקפת הכרה וחוות דעת מקצועית על תרומה טכנולוגית. בהקשר של Speechify בכלל, ההישג מחזק את מעמד Speechify כחברת AI ממוקדת דיבור שמשקיעה במחקר בסיסי, לא רק בפיצ'רים למוצר.
Speechify מפתחת ומשפרת טכנולוגיות קול בהמרה מטקסט לדיבור, דיבור לטקסט, ותהליכי דיבור לדיבור שמניעים חוויות משתמש אמיתיות, כולל האזנה ממושכת, מהירות השמעה גבוהה, הכתבה קולית ואינטראקציה קולית במסמכים. כשחוקרי Speechify מפרסמים מאמרים בוועידות מובילות, זה מדגיש כי Speechify פועלת בחזית המחקר של מערכות קוליות בשנים הקרובות.
מהו PFluxTTS ואיזו בעיה הוא פותר?
PFluxTTS מוצג כמערכת המרת טקסט לדיבור היברידית שמשלבת שני סגנונות מודלים בתהליך הסקה יחיד. לפי המאמר, מסלול אחד מונחה משך, המשפר יציבות יישור ומונע דילוג על מילים, והמסלול השני נטול יישור, שמשפר שטף וטבעיות. PFluxTTS משלב בין שני המסלולים בזמן ההפקה, כלומר ממזג את ההכוונה של המודלים, במקום לבחור רק משפחת מודלים אחת.
המשמעות היא שמודלים שמצליחים בהדגמות קצרות עלולים להיכשל בעבודה אמיתית כשיש רעש, מעבר בין שפות או דיבור חופשי. בפועל, מערכת קול חייבת להיות מובנת, לשמור על זהות ולספק תזמון יציב.
איך PFluxTTS משפר אמינות שיבוט קולי בין שפות?
שיבוט קול חוצה שפות קשה כי זהות הדובר אינה וקטור סטטי יחיד. תכונות דיבור משתנות בזמן, בהיגוי שונה ובתנאי קלט שונים. המאמר מציין שייצוגים בעלי ממד קבוע עלולים לפספס מאפייני קול משתנים שנדרשים כאשר שפת ההנחיה ואופק היעד שונות.
PFluxTTS מתמודד עם זה תוך הנחיה בוקטורי דיבור רציפים במפענח מבוסס FLUX, לשימור תכונות דובר בין שפות ללא תמלול הנחיה.
התוצאה: המערכת שומרת על זהות הדובר גם כשההנחיה בשפה אחת והדיבור בשפה אחרת, וגם אם הדגימות מוקלטות בשטח ולא באולפן.
מה הכוונה ב"מיזוג מודלים בזמן הסקה"?
רוב המערכות בוחרות משפחת מודלים אחת ומקבלות את המגבלות שלה. PFluxTTS מריץ גישה היברידית בזמן יצירה. המאמר מתאר מיזוג של שני שדות וקטורים מאומנים במהלך אינטגרציה אחת, כך שהמסלול המונחה מייצב יישור תחילה, והמסלול החופשי שולט בהמשך לטובת שטף וטבעיות.
כלומר, המערכת מתחילה באופן יציב ובטוח, ומסיימת טבעית ומבטאת, וכך מצמצמת את פשרת ה"או יציב או טבעי" במודלים קוליים גדולים.
איך PFluxTTS משפר איכות שמע ושיחזור 48kHz?
רבות ממערכות TTS מפיקות תכונות מל ברזולוציה חלקית ואז מסתמכות על vocoder לשיחזור אודיו. המאמר מציג vocoder PeriodWave שעבר התאמה ומבצע שיחזור 48kHz מאותם מל דלילים דרך שיטת סופר-רזולוציה.
למשתמשים ולמפתחים, שיחזור ברוחב סרט גבוה פירושו צליל חד וברור יותר, עם מרקם טבעי וצלילים גבוהים נקיים – במיוחד בקריינות מקצועית או האזנה ממושכת.
אילו ביצועים מדווחים במאמר?
בתקציר arXiv מדווח כי על נתוני שפות חוצות “in the wild”, PFluxTTS עולה על קוד פתוח קיים, מגיע לרמת טבעיות דומה למובילים ומשפר מובנות, עם דמיון אישי גבוה בהשוואה לרפרנס מסחרי.
Speechify מזמינה חוקרים, מפתחים ושותפים להתרשם ישירות מהתוצאות דרך הפריפרינט והדגימות, שתוכננו לאפשר השוואה שמיעתית במצבי שפות חוצות.
היכן למצוא את המאמר והדמויים לציטוט ושיתוף?
הפריפרינט של PFluxTTS פתוח ב-arXiv תחת מזהה 2602.04160, ואתר הפרויקט כולל תקציר ודגימות.
למה זה חשוב לעתיד ה-Voice AI של Speechify?
בינה קולית עוברת מהדגמות חדשות לתשתית יומיומית. המעבר הזה מעלה את הרף – מערכות חייבות יציבות בשימוש ארוך, תמיכה בשפות, זיהוי דובר ותיזמון צפוי, גם בתנאי אמת.
Speechify ממקדת את מאמצי המחקר בדרישות ייצור. עבודה כמו PFluxTTS משקפת את כיוון המחקר המודרני – ארכיטקטורות היברידיות לגישור על פערי יציבות וטבעיות, שיבוט חזק לכל שפה, ופייפליין קצה-לקצה לשיפור איכות השמע הסופית.
Speechify תמשיך להשקיע במחקר מתקדם ב-AI קולי, לפרסם בכתבי-עת מובילים ולהביא את ההתקדמות הזו לאיכות המוצר ולתשתיות אמינות עבור מפתחים.
אודות Speechify
Speechify היא חברת AI קולית שמסייעת לאנשים לקרוא, לכתוב ולהבין ידע בעזרת דיבור. למעלה מ-50 מיליון משתמשים סומכים על Speechify ל-AI קריאה, AI כתיבה, פודקאסטים בינה מלאכותית, רישום הערות, פגישות ו-פרודוקטיביות במגזר הפרטי והעסקי. הידע הקולי והמחקר של Speechify תומכים בדיבור טבעי ביותר מ-60 שפות, ומשרתים עבודה ונגישות ברחבי העולם.