Speechify hat heute einen ersten Prototyp eines neuen sprachgesteuerten Computersystems vorgestellt, das intern Jarvis genannt wird. Die Sprachschnittstelle ermöglicht es, den gesamten Computer ausschließlich mit Sprachbefehlen zu bedienen. Die Vorschau zeigt eine Zukunft, in der Nutzer Anwendungen steuern, Workflows durchlaufen und Aufgaben erledigen – ganz ohne Tippen, Klicken oder Berühren des Geräts.
Der Prototyp wurde kürzlich intern präsentiert und von Speechify-Gründer und CEO Cliff Weitzman öffentlich vorgestellt. Das System erlaubt natürliche Spracheingaben, während Speechify Aktionen in Apps und Fenstern in Echtzeit ausführt.
In der Demo führen gesprochene Anweisungen zu Aktionen wie dem Öffnen von Anwendungen, Auffinden von Kontakten, Navigieren durch Oberflächen und dem Versenden von Nachrichten. Anstatt zwischen Fenstern zu wechseln und Software manuell zu bedienen, erledigen Nutzer sämtliche Aufgaben mit ihrer Stimme.
Ein frühes Videobeispiel des Systems wurde hier von unserem CEO Cliff Weitzman geteilt.
Eine Sprachschnittstelle für den ganzen Computer
Traditionelle KI-Assistenten beantworten meist Fragen oder generieren Text. Auch wenn KI-Tools in Software integriert sind, müssen Nutzer Anwendungen oft selbst öffnen, Menüs bedienen und Aktionen manuell ausführen.
Speechify Jarvis setzt auf ein neues Modell.
Nutzer sprechen einfach, während das System Anweisungen direkt am Computer ausführt. Anwendungen öffnen sich automatisch, Workflows laufen ab und Aufgaben werden ganz ohne manuelle Interaktion erledigt.
Die Stimme wird zur aktiven Steuerebene im ganzen System – weit über eine rein dialogbasierte Assistenz hinaus.
Vom KI-Chat zur sprachgesteuerten Computerbedienung
Die meisten KI-Tools arbeiten heute mit Texteingabe und Chat-Oberflächen. Sie können Antworten oder Text generieren, aber meist keine Aktionen in echten Programmen ausführen.
Speechify Jarvis erweitert die Speechify Voice KI-Plattform um direkte Computersteuerung.
Anstatt einen Assistenten um Anweisungen zu bitten und die Schritte dann selbst auszuführen, können Nutzer das System direkt mit Aufgaben beauftragen. Die Stimme ist die zentrale Schnittstelle zur Software.
Speechify sieht darin das Ziel, die Abhängigkeit von Tastatur und klassischen Eingabegeräten zu verringern.
„Wir haben etwas gebaut, das ich so noch nie gesehen habe“, sagt Cliff Weitzman, Gründer und CEO von Speechify. „Du sprichst mit dem Computer und er übernimmt. Kein Klicken, kein Tippen, kein Berühren. Deine Stimme steuert alles.“
Für natürliche Interaktion entwickelt
Speechify Jarvis baut auf der Speechify Sprachplattform auf, die Text vorlesen lassen, Sprachdiktat und einen KI-Sprachassistenten kombiniert.
Das neue System erweitert diese Funktionen um die direkte Steuerung von Arbeitsabläufen: Apps öffnen, navigieren, Nachrichten senden, Workflows ausführen, Fenster wechseln und Softwareumgebungen per Sprache bedienen.
Aktionen werden durch natürliche Sprache ausgelöst – nicht durch feste Befehle oder Tastenkombinationen.
Das System läuft derzeit intern auf Speechify-Computern und bietet eine frühe Vorschau auf kommende Produktentwicklungen.
Auf dem Weg zu einer sprachbasierten Bedienung
Speechify zeigt damit den Wandel hin zu sprachbasierter Computersteuerung. Während Tastatur und grafische Oberfläche heute Standard sind, sieht Speechify Sprache als zentrales Interface für viele Workflows der Zukunft.
Die Jarvis-Vorschau zeigt, wie Nutzer künftig Computer im Dialog steuern könnten – ohne manuelle Eingaben.
Speechify sieht diese Technologie als ersten Schritt, um Sprache zum wichtigsten Interface für Produktivität und Wissensarbeit zu machen. Weitere Updates sind in Planung.
Über Speechify
Speechify ist ein KI-Sprachassistent, der beim Lesen, Schreiben und Verstehen per Stimme unterstützt. Über 50 Millionen Nutzer weltweit vertrauen Speechify – mit Funktionen wie Text vorlesen lassen, Sprachdiktat und einem KI-Assistenten – verfügbar für iOS, Android, Mac, Web und Chrome. 2025 erhielt Speechify den Apple Design Award für den Einsatz in Barrierefreiheit und Produktivität. In fast 200 Ländern verfügbar, mit über 1.000 Stimmen in 60+ Sprachen, darunter Snoop Dogg und Gwyneth Paltrow.