Deepgram Reseña
Deepgram es una plataforma de API de voz con IA que ofrece reconocimiento de voz, síntesis de texto a voz y APIs de agentes de voz en tiempo real con latencia inferior a 300 ms, utilizada por más de 200.000 desarrolladores e IBM como su socio oficial de voz IA.
78
Actualizado hace 36dPlan gratuito
Ideal para
- Desarrolladores que construyen aplicaciones habilitadas por voz, automatización de call centers o pipelines de transcripción
- Equipos de IA que construyen agentes de voz que necesitan STT y TTS confiables en una sola API
- Equipos de producto que añaden transcripción en tiempo real a herramientas de videoconferencia
- Empresas que requieren despliegue en las instalaciones o nube privada con cumplimiento HIPAA
Omita esto si…
- Usuarios no técnicos que necesitan una app de transcripción para consumidores en lugar de una API
- Equipos que construyen flujos de trabajo de voz donde una herramienta todo-en-uno como Otter.ai es suficiente
- Proyectos que requieren reconocimiento de voz en más de 50 idiomas donde Google o Azure pueden tener mejor cobertura
What is Deepgram?
Deepgram is an API platform for voice AI. It offers three core products: speech-to-text that converts audio to text with industry-leading accuracy, text-to-speech that generates natural-sounding voices from text, and a Voice Agent API that combines STT, TTS, and LLM inference into a single endpoint for building conversational voice agents.
Founded in 2015 and headquartered in San Francisco, Deepgram built its own end-to-end deep learning models rather than relying on traditional speech recognition pipelines. The result is significantly lower latency and better accuracy than legacy providers, particularly on noisy audio and accented speech. In February 2026, IBM named Deepgram as its first voice AI partner, integrating Deepgram's APIs into IBM's enterprise AI stack.
Nova-3 and accuracy benchmarks
Deepgram's Nova-3 model consistently ranks first or second in word error rate benchmarks across English audio types. On typical business audio (meetings, phone calls, podcasts), Nova-3 outperforms Google Speech-to-Text v2, AWS Transcribe, and OpenAI Whisper on both accuracy and latency.
The latency story is what separates Deepgram for real-time applications. Sub-300ms round-trip latency makes it viable for live conversation, whereas many competing services introduce delays that make voice agents feel unresponsive. For synchronous voice agent use cases, this is the most important technical differentiator.
Pricing and the Voice Agent API
The free tier provides $200 in API credits, which translates to roughly 46 hours of Nova-3 transcription or 45 minutes of Voice Agent API usage. Pay-as-you-go rates start at $0.0043 per minute for Nova-3 speech-to-text and $0.015 per 1000 characters for text-to-speech.
The Voice Agent API is priced at $4.50 per hour and bundles STT, TTS, and LLM inference together. For teams building voice agents, this simplifies pricing to a single per-conversation cost rather than managing three separate API bills. Volume discounts are negotiable for enterprise workloads above a certain monthly spend.
Comunidad y tutoriales
Lo que creadores y desarrolladores dicen sobre Deepgram.
Building a Real-Time Voice Agent with Deepgram in 15 Minutes
Deepgram DevRel · tutorial
Precios
- Nivel gratuito incluye $200 en créditos de API (aproximadamente 46+ horas de audio)$200
- Pago por uso desde $0.0043/min para Nova-3 STT$0.0043/min
- API de agente de voz a $4.50/hora incluye costos de LLM$4.50/hora
Free And PaidPlan gratuito disponible
Ventajas
- Tasa de error de palabras líder en la industria con el modelo Nova-3, superando a Google y AWS
- Latencia extremo a extremo inferior a 300 ms, ideal para aplicaciones conversacionales en tiempo real
- API de agente de voz combina STT, TTS y costos de LLM a $4.50/hora
- Más de 200.000 desarrolladores y $200 en créditos gratuitos reducen la barrera de entrada
- Asociación con IBM (febrero 2026) valida la fiabilidad de nivel empresarial
Desventajas
- Solo producto API, sin app orientada al consumidor para transcripción simple de archivos
- El soporte de idiomas es más limitado que Google Speech-to-Text o Azure
- El pago por uso puede volverse impredecible para aplicaciones con picos de tráfico variables
Plataformas
webapi
Última verificación: 2 de abril de 2026
Podemos recibir una comisión sin costo adicional para usted. Más información