1. Inici
  2. Agents de veu
  3. Quant costa un agent de veu amb IA? Desglossament real de preus per al 2026
Publicat el Agents de veu

Quant costa un agent de veu amb IA? Desglossament real de preus per al 2026

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

Si has buscat un agent de veu amb IA en els darrers sis mesos, segurament has vist el mateix truc: un enorme «0,05 $/min» a la portada però una factura tres o sis vegades més gran a final de mes. Els preus dels agents de veu IA són dels més opacs del SaaS modern: el que sembla una sola tarifa per minut en realitat amaga quatre o cinc tarifes apilades. Aquesta guia t’ensenya què estàs pagant realment, compara les plataformes principals, mostra escenaris reals i explica on se situa la tarifa de SIMBA respecte la resta.

Preus d'Agents de Veu IA

Què inclou realment la tarifa per minut d'un agent de veu IA?

Cada trucada d'agent de veu combina quatre serveis facturats per segon:

  1. STT (Speech-to-Text), que transcriu la trucada. Deepgram Nova-2 (opció habitual) ronda $0,0043/minut per la transcripció en temps real.
  2. LLM (el “cervell”), que genera les respostes de l’agent. Aquest cost és el més variable: GPT-4o pot costar $0,08–$0,20/minut segons llargada del prompt i ús de tokens; models petits com GPT-4o mini, Claude 3.5 Haiku o Gemini Flash poden baixar-ho a menys de $0,05/min.
  3. TTS (Text-to-Speech), la veu que sent la persona que truca. Proveïdors Premium com ElevenLabs amb veu molt natural costen ~$0,036/min, i opcions low cost (Deepgram/Azure TTS) ~$0,011/min.
  4. Telefonia: la connexió de telèfon pròpiament dita, habitualment via Twilio. Connectar amb la xarxa pública té un cost d’uns $0,015/minut. Es paga mentre tens la trucada activa (fins i tot si sona, en espera o silenci).

Aquest últim punt és el cost real d’una conversa amb agent de veu que molts fulls de càlcul ignoren: la telefonia, el silenci i les pauses també es cobren.

Comparativa de mercat: ElevenLabs vs Retell vs Vapi vs SIMBA

Aquí és on els models de preus d’agent de veu reals es troben el 2026:

Plataforma

Tarifa principal

Cost real total/min

Model de preus

ElevenLabs Agents

$0,08–$0,12/min

$0,08–$0,12

Tots inclòs (TTS + LLM junts)

Retell AI

$0,07/min + extres

$0,13–$0,31

Modular (veu + LLM + telefonia)

Vapi

$0,05/min plataforma

$0,18–$0,33

BYOK (pagues cada capa per separat)

SIMBA Pro

$0,06/min

$0,06

Tots inclòs

SIMBA Scale

$0,04/min

$0,04

Tots inclòs

SIMBA Enterprise

$0,03/min

$0,03

Tots inclòs

Què inclou el preu dels Agents d’ElevenLabs?

Els Agents d’ElevenLabs costen $0,08–$0,12/minut segons el model. Standard és $0,08/min, Turbo $0,10/min i Premium (gpt-4o + Flash v2.5 voice) $0,12/min. Es factura a part d’altres quotes TTS. L’empresa ha baixat la tarifa a $0,08/min, un estalvi del 20%.

Què inclou el preu dels agents de Retell AI?

El titular de $0,07/min és només veu. Aquesta tarifa cobreix només el motor de veu. Hi has d’afegir LLM ($0,003-$0,08/min), telefonia ($0,015/min) i trucades internacionals, i el cost va de $0,085 a $0,19/minut segons la configuració. Per una solució completa, el cost total sol ser $0,13–$0,31/min. El contracte enterprise pot baixar a $0,05/min, però només amb compromís mensual de +$3.000.

Què inclou el preu dels agents de Vapi AI?

Etiqueta barata, realitat cara. Vapi anuncia $0,05/min però el cost final real és $0,15–$0,36/min (afegint LLM, TTS, STT i telefonia). Aquesta estructura implica 4–5 factures a final de mes per l’agent de veu.

Què inclou el preu dels Agents de SIMBA Voice?

SIMBA capgira el model BYOK: una sola tarifa, totes les capes incloses (LLM, TTS, STT, telefonia). Sense vendors apilats, ni sorpreses, ni afegits HIPAA de $1.000/mes. Tenen tres nivells, des de pilots fins producció:

  • Pro — $0,06/min. El nivell d’entrada, equips de 1.000–10.000 min/mes. Ja més barat que ElevenLabs Standard ($0,08), sense comptar concurrència o estalvi per excés.
  • Scale — $0,04/min. Pensat per equips de suport i sortints mitjans (10K–50K min). Gairebé la meitat de cost d’ElevenLabs amb la mateixa qualitat de veu.
  • Enterprise — $0,03/min. Alt volum (100K+ min/mes). Inferior fins i tot al preu negociat per empresa de Retell i sense compromís mínim de $3.000/mes.

El preu de SIMBA és transparent: pagues sempre el que veus. Una trucada de 3 min a SIMBA Scale són $0,12, sempre, sense importar el LLM actiu ni el temps d’espera. Aquesta previsibilitat fa que SIMBA sigui el referent clar respecte a la competència i amb més estalvi com més volum de trucades.

Com són els escenaris de cost: ElevenLabs vs Retell vs Vapi vs SIMBA?

Durada mitjana de trucada: ~3,5 min (estàndard del sector).

Escenari A — 5.000 min/mes (petit negoci, ~1.400 trucades)

Plataforma

Cost mensual

Vapi (tot inclòs $0,25 de mitjana)

~$1.250

Retell (tot inclòs $0,20 de mitjana)

~$1.000

ElevenLabs ($0,10 de mitjana)

~$500

SIMBA Pro ($0,06)

$300

Escenari B — 25.000 min/mes (equip de suport mitjà)


Plataforma

Cost mensual

Vapi

~$6.250

Retell

~$5.000

ElevenLabs

~$2.500

SIMBA Scale ($0,04)

$1.000

Escenari C — 100.000 min/mes (gran empresa/substitució BPO)


Plataforma

Cost mensual

Vapi

~$25.000

Retell (empresa $0,10+ efectiu)

~$10.000+

ElevenLabs ($0,08 estàndard)

~$8.000

SIMBA Enterprise ($0,03)

$3.000

A alt volum, la diferència econòmica d'agents de veu IA a escala ja no és irrellevant. Entre SIMBA Enterprise i ElevenLabs t’estalvies $5.000/mes — $60.000/any per la mateixa quantitat de trucades.

Com es comparen directament els preus de SIMBA vs ElevenLabs?

La comparació SIMBA vs ElevenLabs és la més directa, ja que ambdues són plataformes tot inclòs. SIMBA vs ElevenLabs a escala implica una reducció de cost del 60–75% amb la mateixa qualitat de veu.

Com es compara SIMBA vs Retell directament?

Si compares SIMBA i Retell, la tarifa modular de Retell fa que puguis pagar $0,13–$0,31/min segons el LLM i la veu triats. La tarifa SIMBA Scale ($0,04) supera fins i tot el preu negociat de Retell ($0,05 enterprise), sense el mínim de $3.000/mes.

Com es compara SIMBA vs Vapi directament?

Amb SIMBA vs Vapi, la tarifa de Vapi ($0,05/min) és enganyosa: la majoria acaben pagant 4–6 proveïdors, entre transcripció, LLM, veu i trucades. SIMBA ho reuneix tot en una única tarifa sense reconciliacions.

Quins són els costos ocults dels agents de veu amb IA que no surten als preus?

La tarifa visible només és el principi. Vigila:

  • Costos de concurrència: Retell i Vapi inclouen 20 línies en paral·lel gratis. Les places addicionals costen $8/mes cadascuna i les trucades fora de límit $0,10/min. ElevenLabs permet trucades per sobre del límit amb sobrecost x2.
  • Extres HIPAA: Si ets salut i necessites BAA, Vapi cobra $1.000/mes extra. El mateix passa en quasi tots els BYOK.
  • Preu per llicència: Algunes eines de “veu IA” cobren per usuari a més del minut. Llegeix el contracte.
  • Quotes d’alta i trucades de marca: Campanyes sortints grans tenen cost per número ($0,005) i per trucada amb ID de marca ($0,10).
  • Facturació per silenci: Els agents cobren pel minut parlat, no pel temps de computació. Pausa o espera també es paga.
  • Tarifes per excés: ElevenLabs pot arribar a $0,60/min als plans bàsics si et passes, 10x més car que SIMBA Pro.

Quant costa contractar una recepcionista versus IA?

Una recepcionista als EUA costa $35.000–$50.000/any, cobreix 40h/setmana, descansa i fa vacances. El cost de recepcionista vs IA per la mateixa cobertura:

  • Recepcionista (1 FTE, només horari comercial): ~$3.500/mes
  • SIMBA Pro amb 5.000 min/mes, 24/7: $300/mes

Això redueix el cost 11x, sense comptar que la IA cobreix nits, caps de setmana i trucades il·limitades. Per veure el ROI amb IA: multiplica caps de suport × cost, divideix per minuts/mes × $0,04; la majoria ja s’amortitzen el primer mes.

Recomanació per escollir model de tarifació d'agent de veu IA

Si fas més de 1.000 trucades/mes, la diferència de tarifa es nota. Per sota, totes les plataformes costen semblant: tria per qualitat de veu i experiència tècnica. Per sobre de 1.000, la diferència per minut es multiplica i 0,10$ són $5.000/mes a escala mitjana i $25.000+/mes a escala gran.

Conclusió: Preu agent de veu IA el 2026

Hi ha dos enfocaments: BYOK (Vapi, Retell) anuncia preus molt baixos però comporta 4 factures. Plataformes tot inclòs (ElevenLabs, SIMBA) facturen en una sola quota. Si vols previsibilitat, només falta escollir quina plataforma tot inclòs et dóna millor preu/min. Amb $0,06 / $0,04 / $0,03 (Pro, Scale, Enterprise), la tarifa SIMBA és la més baixa i l’estalvi davant d’ElevenLabs ja permetria contractar un/a enginyer/a addicional. Calcula-ho amb el teu volum de trucades. Si superes 1.000 trucades/mes, l’estalvi es nota abans del primer trimestre.

Preguntes freqüents

Quant costa per minut un agent de veu IA el 2026?

El preu d’un agent de veu IA va de $0,05–$0,33/min segons la plataforma. SIMBA Voice Agents té les tarifes més baixes: $0,06 (Pro), $0,04 (Scale) i $0,03 (Enterprise).

Què inclou la tarifa per minut d'un agent de veu IA?

La tarifa per minut sol incloure LLM, TTS, STT i telefonia, tot agrupat en la tarifa única i transparent de SIMBA, sense factures per separat.

Com es compara el preu de SIMBA amb ElevenLabs Agents?

ElevenLabs Agents cobren $0,08–$0,12/min i SIMBA comença a $0,06/min fins a $0,03/min a escala enterprise; pots estalviar fins a un 75% amb qualitat equivalent.

Vapi realment costa $0,05 per minut?

No. Els $0,05 de Vapi són només quota de plataforma; la realitat és $0,15–$0,36/min sumant LLM, TTS, STT i telefonia. SIMBA ho agrupa tot en una tarifa previsible.

Quina plataforma d'agent de veu IA és més barata per grans volums?

A 100.000+ min/mes, SIMBA Enterprise a $0,03/min és el tot inclòs més econòmic, superant Retell, Vapi i ElevenLabs en un 60–80%.

Quant costa de debò Retell AI per minut?

Els $0,07/min de Retell acaben sent $0,13–$0,31/min sumant LLM i telefonia. SIMBA té tarifa plana de $0,04/min a Scale sense recàrrecs.

Resulta més barat un agent de veu IA que contractar recepcionista?

Sí. Una recepcionista costa uns $3.500/mes només per horari d’oficina, mentre SIMBA Voice Agents cobreix 5.000 minuts 24/7 per només $300/mes al pla Pro.

Quins costos ocults cal vigilar en agents de veu IA?

Vigila les tarifes per concurrència, extres HIPAA ($1.000+/mes d’extres), facturació per silenci i sobrecostos per excés, tot eliminat amb SIMBA (tot inclòs).

Amb quin volum de trucades importa realment el preu d'agent de veu IA?

Amb més de 1.000 trucades/mes, les diferències per minut es converteixen en milers d’euros. Les tarifes SIMBA $0,04–$0,06/min són molt més competitives que la resta.

Com calculo l’ROI d’un agent de veu IA?

Divideix el cost actual del teu equip de suport per minuts/mes × tarifa. Amb SIMBA Voice Agents a $0,04/min (Scale) la majoria recuperen la inversió el primer mes.


Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.