ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

By Spark Maverick · April 2, 2026 · 1 min read

ملخص VibeVoice هي عائلة من نماذج الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft، وتضم ثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، VibeVoice-Realtime-0.5B للبث الصوتي الفوري، وVibeVoice-ASR للتعرف على الكلام (حتى 60 دقيقة، أكثر من 50 لغة، WER 7.77%). جميع النماذج مرخصة MIT وتعمل محليًا. هذا الدليل يركز على خطوات التثبيت، الاستخدام العملي، وتكامل واجهات البرمجة (API). جرّب Apidog اليوم مقدمة أصدرت Microsoft VibeVoice كإطار عمل صوتي مفتوح المصدر في أوائل عام 2026. يوفر نماذج توليد الصوت (TTS) والتعرف على الكلام (ASR) تعمل بالكامل على جهازك دون الحاجة للسحابة. يتكون الإطار من ثلاث نماذج رئيسية: VibeVoice-1.5B: تحويل النص إلى كلام محادثي معبر، حتى 90 دقيقة، دعم 4 متحدثين. VibeVoice-Realtime-0.5B: بث صوتي بزمن استجابة منخفض (~300ms). VibeVoice-ASR: نسخ الصوت مع تحديد المتحدث والطوابع الزمنية، لأكثر من 50 لغة. بعد الإطلاق حدثت جدالات حول استنساخ الصوت. أوقفت Microsoft المستودع مؤقتًا، ثم أضافت ضمانات: رسالة صوتية تلقائية ضمن المخرجات وعلامة مائية غير محسوسة

ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

Related Posts

Trending on ShareHub

Latest on ShareHub

Browse Topics

Around the Network