Deepgram مراجعة
Deepgram منصة API للذكاء الاصطناعي الصوتي تقدم تحويل الكلام إلى نص ونص إلى كلام وواجهات برمجية لوكلاء الصوت في الوقت الفعلي بكمون أقل من 300 ميلي ثانية، يستخدمها أكثر من 200,000 مطور ويعتمدها IBM شريكاً رسمياً للذكاء الاصطناعي الصوتي.
78
مُحدَث منذ 36 يومخطة مجانية
الأفضل لـ
- المطورون الذين يبنون تطبيقات صوتية أو أتمتة مراكز الاتصال أو خطوط النسخ
- فرق الذكاء الاصطناعي التي تبني وكلاء صوتيين يحتاجون إلى STT و TTS موثوقين في واجهة برمجية واحدة
- فرق المنتج التي تضيف نسخاً فورياً لأدوات مؤتمرات الفيديو
- الشركات التي تتطلب نشراً في المنشآت أو السحابة الخاصة متوافقة مع HIPAA
تجاوز هذا إذا…
- المستخدمون غير التقنيين الذين يحتاجون إلى تطبيق نسخ للمستهلكين بدلاً من واجهة برمجية
- الفرق التي تبني سير عمل صوتية حيث تكفي أداة متكاملة مثل Otter.ai
- المشاريع التي تتطلب تحويل الكلام إلى نص بأكثر من 50 لغة حيث قد يكون Google أو Azure أفضل تغطية
What is Deepgram?
Deepgram is an API platform for voice AI. It offers three core products: speech-to-text that converts audio to text with industry-leading accuracy, text-to-speech that generates natural-sounding voices from text, and a Voice Agent API that combines STT, TTS, and LLM inference into a single endpoint for building conversational voice agents.
Founded in 2015 and headquartered in San Francisco, Deepgram built its own end-to-end deep learning models rather than relying on traditional speech recognition pipelines. The result is significantly lower latency and better accuracy than legacy providers, particularly on noisy audio and accented speech. In February 2026, IBM named Deepgram as its first voice AI partner, integrating Deepgram's APIs into IBM's enterprise AI stack.
Nova-3 and accuracy benchmarks
Deepgram's Nova-3 model consistently ranks first or second in word error rate benchmarks across English audio types. On typical business audio (meetings, phone calls, podcasts), Nova-3 outperforms Google Speech-to-Text v2, AWS Transcribe, and OpenAI Whisper on both accuracy and latency.
The latency story is what separates Deepgram for real-time applications. Sub-300ms round-trip latency makes it viable for live conversation, whereas many competing services introduce delays that make voice agents feel unresponsive. For synchronous voice agent use cases, this is the most important technical differentiator.
Pricing and the Voice Agent API
The free tier provides $200 in API credits, which translates to roughly 46 hours of Nova-3 transcription or 45 minutes of Voice Agent API usage. Pay-as-you-go rates start at $0.0043 per minute for Nova-3 speech-to-text and $0.015 per 1000 characters for text-to-speech.
The Voice Agent API is priced at $4.50 per hour and bundles STT, TTS, and LLM inference together. For teams building voice agents, this simplifies pricing to a single per-conversation cost rather than managing three separate API bills. Volume discounts are negotiable for enterprise workloads above a certain monthly spend.
المجتمع والدروس
ما يقوله المطورون وصناع المحتوى عن Deepgram.
Building a Real-Time Voice Agent with Deepgram in 15 Minutes
Deepgram DevRel · tutorial
الأسعار
الطبقة المجانية تتضمن 200 دولار من أرصدة API (ما يعادل 46+ ساعة صوتية). الدفع حسب الاستخدام من 0.0043 دولار/دقيقة لـ Nova-3 STT. واجهة وكيل الصوت بـ 4.50 دولار/ساعة تشمل تكاليف LLM.
Free And Paidخطة مجانية متاحة
المزايا
- معدل خطأ كلمات رائد في الصناعة مع نموذج Nova-3 يتفوق على Google و AWS
- كمون أقل من 300 ميلي ثانية من طرف إلى طرف يجعله عملياً لتطبيقات المحادثة الصوتية الفورية
- واجهة وكيل الصوت تجمع STT و TTS وتكاليف LLM بـ 4.50 دولار/ساعة
- أكثر من 200,000 مطور و200 دولار أرصدة مجانية تخفض حاجز الدخول
- شراكة IBM (فبراير 2026) تؤكد الموثوقية على مستوى المؤسسات
العيوب
- منتج API فقط، لا يوجد تطبيق موجه للمستهلكين لنسخ الملفات البسيطة
- دعم اللغات أضيق مما تقدمه Google Speech-to-Text أو Azure
- الدفع حسب الاستخدام قد يصبح غير متوقع للتطبيقات ذات حركة المرور المتغيرة
المنصات
webapi
آخر تحقق: ٢ أبريل ٢٠٢٦
قد نكسب عمولة دون تكلفة إضافية عليك. اعرف المزيد