ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر
ملخص VibeVoice هي عائلة من نماذج الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft، وتضم ثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، VibeVoice-Realtime-0.5B للبث ال...

Source: DEV Community
ملخص VibeVoice هي عائلة من نماذج الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft، وتضم ثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، VibeVoice-Realtime-0.5B للبث الصوتي الفوري، وVibeVoice-ASR للتعرف على الكلام (حتى 60 دقيقة، أكثر من 50 لغة، WER 7.77%). جميع النماذج مرخصة MIT وتعمل محليًا. هذا الدليل يركز على خطوات التثبيت، الاستخدام العملي، وتكامل واجهات البرمجة (API). جرّب Apidog اليوم مقدمة أصدرت Microsoft VibeVoice كإطار عمل صوتي مفتوح المصدر في أوائل عام 2026. يوفر نماذج توليد الصوت (TTS) والتعرف على الكلام (ASR) تعمل بالكامل على جهازك دون الحاجة للسحابة. يتكون الإطار من ثلاث نماذج رئيسية: VibeVoice-1.5B: تحويل النص إلى كلام محادثي معبر، حتى 90 دقيقة، دعم 4 متحدثين. VibeVoice-Realtime-0.5B: بث صوتي بزمن استجابة منخفض (~300ms). VibeVoice-ASR: نسخ الصوت مع تحديد المتحدث والطوابع الزمنية، لأكثر من 50 لغة. بعد الإطلاق حدثت جدالات حول استنساخ الصوت. أوقفت Microsoft المستودع مؤقتًا، ثم أضافت ضمانات: رسالة صوتية تلقائية ضمن المخرجات وعلامة مائية غير محسوسة