1. ホーム
  2. 音声エージェント
  3. AI音声エージェントはいくらかかる?2026年リアル料金徹底解説
Published on 音声エージェント

AI音声エージェントはいくらかかる?2026年リアル料金徹底解説

Cliff Weitzman

クリフ・ワイツマン

SpeechifyのCEO兼創業者

Speechifyは、あなたの Voice AI アシスタント。
テキスト読み上げ音声入力高速応答がすべてこれひとつで。

apple logo2025年 Apple デザインアワード受賞
5,000万以上のユーザー

ここ半年でAI音声エージェントを探した方なら、「1分あたり0.05ドル」と大きく書かれたサイトを見たのに、実際の請求額はその3~6倍になった…という経験があるかもしれません。AI音声エージェントの料金体系は非常にわかりにくく、1分ごとの料金に見えても、実は複数のコストが積み重なっています。本ガイドではコストの内訳、主要プラットフォームの比較、実際の利用シナリオ、そしてSIMBAの料金が他社とどう違うのかを、できるだけシンプルに解説します。

AI音声エージェント料金

音声AIの「1分あたり料金」は何で決まる?

AI音声エージェントの1通話には、秒単位で次の4つのサービス料金が発生します:

  1. STT(音声→テキスト):通話者の声を文字起こし。最も一般的なDeepgram Nova-2の場合、約$0.0043/分。
  2. LLM(エージェントの頭脳):応答生成。ここが最も価格差が大きく、GPT-4oは$0.08~$0.20/分。小型モデル(GPT-4o mini、Claude 3.5 Haiku、Gemini Flash)なら$0.05/分未満も可能。
  3. TTS(テキスト→音声):通話者が実際に聞く声。高品質なElevenLabsは約$0.036/分、低価格帯のDeepgramやAzure TTSは$0.011/分前後。
  4. テレフォニー:実際の電話接続(Twilio等)。公衆電話網接続は約$0.015/分。着信中や保留、無音時間も課金対象です。

最後のテレフォニーが、多くの見積もりで抜け落ちている本当の通話コストです。電話回線の利用はもちろん、無音時間や無駄な待ち時間もすべて料金に含まれています。

主要AI音声エージェント比較:ElevenLabs/Retell/Vapi/SIMBA

AI音声エージェント料金モデル比較を踏まえると、2026年時点の実態はだいたい次の通りです。

プラットフォーム

表記料金

実際の全込みコスト/分

料金モデル

ElevenLabs Agents

$0.08~$0.12/分

$0.08~$0.12

全込み(TTS+LLM込み)

Retell AI

$0.07/分+オプション

$0.13~$0.31

モジュール型(音声+LLM+電話)

Vapi

$0.05/分(プラットフォーム)

$0.18~$0.33

BYOK(各層で分割支払い)

SIMBA Pro

$0.06/分

$0.06

全込み

SIMBA Scale

$0.04/分

$0.04

全込み

SIMBA Enterprise

$0.03/分

$0.03

全込み

ElevenLabs Agents料金の内訳

ElevenLabs Agentsはモデル別に$0.08~$0.12/分。Standardは$0.08、Turboは$0.10、Premium(gpt-4o+Flash v2.5)は$0.12。TTS文字数は別途課金です。最近$0.10→$0.08に値下げされ、約20%安くなりました。

Retell AI Agents料金の内訳

見出しの$0.07/分はあくまで音声エンジンだけの価格。ここにLLM($0.003~$0.08)、電話($0.015/分)、海外通話などが加わり、合計$0.085~$0.19/分に。実際には全込みで$0.13~$0.31/分になるケースが一般的です。エンタープライズ契約では$3,000+/月で$0.05/分まで下げられます。

Vapi AI Agents料金の内訳

一見すると最安に見えて、実は割高になりがちなのがVapiです。訴求は$0.05/分ですが、全要素込みの実勢は$0.15~$0.36/分ほど。請求元も複数に分かれ、最大で5つのベンダーから請求書が届くこともあります。

SIMBA Voice Agents料金の内訳

SIMBAはBYOKとは真逆のモデルで、1分あたりの単価にすべての費用をまとめています。LLM、TTS、STT、電話までフルセットで一括。追加料金や高額なHIPAAアドオンもありません。パイロットから本番運用まで、用途に応じた3つのプランを用意しています。

  • Pro — $0.06/分。月1,000~10,000分程度の運用向け。ElevenLabs Standard($0.08)より低価格。
  • Scale — $0.04/分。中規模(10K〜50K分)向け。ElevenLabsと同等品質で約半額クラス。
  • Enterprise — $0.03/分。月10万分超の大規模運用向け。Retell交渉価格($0.05)より安く、最低$3,000/月といった縛りも不要です。

SIMBAは「表示されている単価=実際の支払額」です。例えば3分通話なら、毎回きっちり$0.12で変動なし。LLMの内容や保留時間に左右されず、見積もり作成もコスト管理もシンプルです。通話数が増えるほど差額はどんどん大きくなります。

プラットフォーム別の想定コストシナリオ

平均通話時間3.5分(業界標準)を前提に試算します。

シナリオA — 5,000分/月(小規模:約1,400件)

プラットフォーム

月額コスト

Vapi(実質$0.25/分)

約$1,250

Retell(実質$0.20/分)

約$1,000

ElevenLabs($0.10/分)

約$500

SIMBA Pro($0.06/分)

$300

シナリオB — 25,000分/月(中規模サポートチーム)


プラットフォーム

月額コスト

Vapi

約$6,250

Retell

約$5,000

ElevenLabs

約$2,500

SIMBA Scale($0.04/分)

$1,000

シナリオC — 100,000分/月(大規模/BPO代替)


プラットフォーム

月額コスト

Vapi

約$25,000

Retell(エンタープライズ実質$0.10+)

約$10,000+

ElevenLabs($0.08/分)

約$8,000

SIMBA Enterprise($0.03/分)

$3,000

エンタープライズ規模では、AI音声エージェントの経済性は無視できません。SIMBA EnterpriseとElevenLabsの差だけでも月$5,000=年$60,000と、人件費1名分クラスの開きになります。

SIMBAとElevenLabsの料金比較

SIMBAとElevenLabsは、どちらも全込みモデルで比較しやすい組み合わせです。大量運用で見ると、SIMBAは約60~75%のコスト削減が見込めます。

SIMBAとRetellの料金比較

SIMBAとRetellでは、Retellがモジュール課金のため構成次第で$0.13~$0.31/分に。SIMBA Scale($0.04/分)はRetellの交渉後単価を上回る水準で、最低$3,000/月といった月額縛りもありません。

SIMBAとVapiの料金比較

SIMBAとVapiの場合、Vapiの$0.05/分はあくまで一部コンポーネントの料金で、実際は4~6種類のサービス利用となり実質コストが膨らみます。SIMBAは全て一括料金なので、請求管理も含めて運用がぐっと楽になります。

音声AIエージェントの「見えないコスト」とは?

カタログに載っている料金は、あくまで「スタート地点」にすぎません。チェックすべき代表的なポイントは次の通りです。

  • 同時通話料金:Retell、Vapiは20通話までは無料ですが、それ以上は$8/月/回線+$0.10/分の超過料金が発生。ElevenLabsはバースト時に3倍まで許容しますが、上限超過分は二重課金になります。
  • HIPAAアドオン:医療向けにBAAが必要な場合、Vapiなどでは$1,000/月が一般的な水準です。
  • ユーザー単位の席料金:一部の「音声AI」ツールは、分単価に加えてユーザーごとのライセンス料も必要です。
  • 初期費用&発信者番号管理:大量発信時に、番号ごと$0.005、ブランド表示付き通話ごと$0.10といった追加費用が付くケースもあります。
  • 無音時課金:通話中の分単価は、会話していない無音・保留時間でも発生します。
  • 超過料金:ElevenLabsの下位プランでは、プラン分数を超えた部分が$0.60/分(SIMBA Proの10倍)になることがあります。

受付スタッフとAIの費用をざっくり比較

米国の受付スタッフは、年間およそ$35,000~$50,000(週40時間勤務、休暇あり)が相場です。人間とAIのコスト比較をざっと見ると:

  • 人間の受付(1名・営業時間のみ):約$3,500/月
  • SIMBA Pro(5,000分・24時間対応):$300/月

AIなら夜間・週末・ピーク時の同時応答にも対応でき、コストは約11分の1。ROIの簡易計算は、「現状の人件費 ÷ 月間想定分数 × $0.04」。多くのチームで、初月からAIの方が安くなるケースが少なくありません。

最適な音声エージェント料金モデルを選ぶには?

月1,000件以上の発信があると、料金モデルの差がボディーブローのように効いてきます。1,000件未満なら、差額は数百ドル程度なので、音質や開発体験を重視して選ぶのも一案です。一方で1,000件を超えると、1分あたり$0.10の違いが毎月$5,000、エンタープライズ規模では$25,000以上の差につながります。

2026年AI音声エージェント料金のまとめ

音声AI市場の料金モデルは大きく2種類。BYOK型(Vapi、Retell)は見出し価格こそ安く見えますが、実際は複数ベンダーからの請求が積み上がる構造です。全込み型(ElevenLabs、SIMBA)は単価がわかりやすく一律で、予算を読みやすいのがメリット。コストをしっかり把握したいなら、「全込み型でどこまで安く押さえられるか」が選定のポイントになります。Pro・Scale・Enterprise($0.06/$0.04/$0.03)の各プランは業界でも最安クラスで、ElevenLabsとの比較だけでも、規模によってはエンジニア1人分の採用コストを捻出できるインパクトがあります。月1,000件以上の発信があるチームなら、その効果を最初の四半期内に体感しやすいでしょう。

よくある質問

2026年AI音声エージェントの1分単価はいくら?

AI音声エージェントの実勢価格は、おおよそ$0.05~$0.33/分です。この中でSIMBA Voice Agentsは、Pro$0.06、Scale$0.04、Enterprise$0.03/分と、最安クラスの全込み料金を提供しています。

AI音声エージェントの1分料金には何が含まれる?

一般的に、1分あたりの料金にはLLM・TTS・STT・テレフォニーが含まれます。SIMBAはこれらすべてを1つの単価にまとめ、あとから追加請求が発生しないように設計されています。

SIMBAの価格はElevenLabs Agentsとどう違う?

ElevenLabs Agentsが1分$0.08~$0.12なのに対し、SIMBAは$0.06から始まり、エンタープライズでは$0.03まで下がります。同等品質で最大約75%までコストを圧縮できます。

Vapiは本当に$0.05/分?

いいえ。Vapiの$0.05はあくまでプラットフォーム基本料にあたる部分です。実際にはLLM、TTS、STT、電話回線などをすべて含めると$0.15~$0.36/分となりがちで、SIMBAはこれらを一本化した明朗会計のモデルです。

大量発信向けで最安のAI音声エージェントは?

月10万分以上の大量利用なら、SIMBA Voice Agents Enterprise($0.03/分)が最安水準です。RetellVapiElevenLabsと比べても、おおよそ60~80%安く抑えられます。

Retell AIの実際の1分料金は?

Retellの掲示価格$0.07/分は、LLMや電話料金を含まないベース価格です。すべてを足すと$0.13~$0.31/分が現実的なレンジになります。一方、SIMBAはScaleプランで$0.04/分、追加費用も不要です。

AI音声エージェントは受付を雇うより安い?

はい。人間の受付は営業時間のみ対応で約$3,500/月かかりますが、SIMBA Voice Agentsなら24時間・5,000分分をさばいても月$300(Proプラン)に収まります。

AI音声エージェント料金の隠れコストは?

代表的な隠れコストとして、同時通話料、HIPAAアドオン($1,000+/月)、無音時の課金、超過料金などがあります。SIMBAは全込み設計で、こうした追加費用が発生しないようになっています。

何件以上でAI音声エージェント料金差が大きくなる?

月1,000件を超えるあたりから、分単価の違いが一気に数千ドル規模の差になります。このレンジでは、SIMBA Voice Agents($0.04~$0.06/分)の料金が非常に優位です。

AI音声エージェントROIの計算方法は?

現在の対応にかかっている人件費を、「月間予定通話分数 × 分単価」で割り返せば、おおまかなROIが算出できます。SIMBA Voice AgentsのScale($0.04/分)で試算すると、多くのチームが初月から投資回収できる水準です。


最先端のAI音声、無制限のファイル、24時間365日のサポートを思う存分ご利用ください

無料で試してみる
tts banner for blog

この記事をシェアする

Cliff Weitzman

クリフ・ワイツマン

SpeechifyのCEO兼創業者

クリフ・ワイツマンはディスレクシア支援の提唱者であり、世界で最も人気のテキスト読み上げアプリ、SpeechifyのCEO兼創業者です。Speechifyは、5つ星レビューが10万件以上寄せられ、App Storeの「ニュース&雑誌」カテゴリで1位を獲得しています。2017年には、学習障害のある方々がインターネットをより使いやすくなるよう尽力した功績が評価され、Forbesの「30 Under 30」に選出されました。クリフ・ワイツマンは、EdSurge、Inc.、PC Mag、Entrepreneur、Mashableなどの主要メディアで取り上げられています。

speechify logo

Speechifyについて

No.1 テキスト読み上げリーダー

Speechify は、世界をリードする テキスト読み上げ プラットフォームであり、5,000万を超えるユーザーに利用され、iOSiOSAndroidChrome拡張機能Webアプリ、そしてMacデスクトップアプリで50万件以上の5つ星レビューを獲得しています。2025年には、Appleから権威あるApple デザインアワードWWDCで受賞し、「人々の暮らしを支える重要なリソース」と評されました。Speechifyは、60言語以上・1,000以上の自然な音声を提供し、ほぼ200か国で利用されています。有名人の音声にはSnoop Doggグウィネス・パルトロウなども含まれます。クリエイターや企業向けに、Speechify Studio では高度なツールを提供し、AIボイスジェネレーターAIボイスクローンAI吹き替え、そしてAIボイスチェンジャーも利用できます。また、Speechifyは高品質でコストパフォーマンスに優れたテキスト読み上げAPIで、主要なプロダクトも支えています。これまでにウォール・ストリート・ジャーナルCNBCForbesTechCrunchなどの主要メディアにも取り上げられています。Speechifyは世界最大のテキスト読み上げプロバイダーです。詳しくはspeechify.com/newsspeechify.com/blogspeechify.com/pressをご覧ください。