1. ホーム
  2. ニュース
  3. Speechify、音声コンピューター操作システム「Jarvis」を発表
2026年2月16日

Speechify、音声コンピューター操作システム「Jarvis」を発表

Speechifyが「Jarvis」音声コンピューター操作システムを先行公開

Speechifyは本日、社内で「Jarvis」と呼ばれる新しい音声操作型コンピューターシステムの初期バージョンを先行公開しました。これは、音声コマンドだけでパソコン全体を操作できる音声インターフェイスです。この先行デモでは、ユーザーが入力やクリック、デバイスに触れることなくアプリ操作やタスク遂行、ワークフロー管理が可能となる未来の姿を示しています。

この試作システムは最近、社内向けにデモが行われ、その様子をSpeechify創業者兼CEOのCliff Weitzmanが公開でシェアしました。Speechifyは、ユーザーが自然に話すだけで様々なアプリやウィンドウをリアルタイムで操作します。

デモでは、声をかけるだけでアプリ起動、連絡先検索、インターフェイス操作、メッセージ送信などのアクションが自動で実行されます。ウィンドウの切替や手動操作の必要もなく、すべてを音声だけで完結できます。

本システムの初期映像プレビューを、CEO Cliff Weitzmanがこちらで公開しています。

パソコン全体を操れる音声インターフェイス

これまでのAIアシスタントは、質問応答やテキスト生成が主な役割でした。AIツールがソフトに組み込まれていても、アプリ起動やメニュー操作は結局手作業が必要でした。

Speechify Jarvisは、そこに全く新しいモデルを提示します。

ユーザーが自然に話すと、システムがPC上で直接指示を実行します。アプリが自動で立ち上がり、ワークフローがどんどん進み、手での操作なしでタスクが完了します。

音声は単なる会話用の補助ではなく、PC全体を操作する本格的なコントロールレイヤーになります。

AIチャットから音声制御PCへ

現在、多くのAIツールはテキスト入力やチャットインターフェイスが中心です。こうしたシステムはコンテンツ生成は得意ですが、実際のアプリを操作することはほとんどできません。

Speechify Jarvisは、SpeechifyのVoice AIプラットフォームをPCの直接操作へと拡張します。

従来はAIアシスタントに指示したあと、自分で操作を引き継ぐ必要がありましたが、Jarvisなら音声ですぐに実行が可能。ソフトとのやりとりの主役が音声になります。

Speechifyは、キーボードや従来の入力機器への依存を減らすという大きな目標の一環として、この方向性を掲げています。

「これまで誰も作ったことがないものを作りました」とSpeechifyの創業者兼CEO、Cliff Weitzmanは語ります。「PCに話しかけるだけで全て動作します。クリックもしない、タイピングもしない、触れる必要もない。声だけで全て操作できます。」

自然な操作体験を前提に設計

Speechify Jarvisは、Speechifyの音声中心プラットフォームをベースに、テキスト読み上げ音声入力、会話型のVoice AIアシスタントなど複数の要素を組み合わせています。

新システムは、読み書きだけでなく、ワークフロー全体の音声制御へと進化しました。アプリの起動・移動、メッセージ送信、ワークフロー実行、ウィンドウの切替などを、自然な話し言葉だけで操作できます。

会話するような言葉で操作でき、定型コマンドやショートカットは不要です。

現時点でこのシステムはSpeechify社内PCで稼働しており、今後展開する製品の初期プレビューとなっています。

音声ネイティブなOSモデルへ

Speechifyのプレビューは、音声ネイティブなPC時代への転換を示しています。キーボードや画面操作が今は当たり前ですが、Speechifyは音声が多くのワークフローの主要インターフェイスになると考えています。

Jarvisのデモは、手動入力ではなく会話でPCを操作する未来像を描いています。

Speechifyによれば、これは「声」を生産性や知的作業の中核インターフェイスとする第一歩であり、今後も新たなアップデートを予定しています。

Speechifyについて

Speechifyは、Voice AIアシスタントで読み書きや情報理解をサポートします。世界5,000万人以上に利用され、テキスト読み上げ音声入力、会話型AIアシスタントiOS、Android、Mac、ウェブ、Chromeで提供しています。2025年には、Speechifyアクセシビリティ生産性への貢献でAppleデザイン賞を受賞。約200ヵ国で使われ、スヌープ・ドッグやグウィネス・パルトロウを含む60以上の言語、1,000種超の自然音声を備えます。