Alibaba logo displayed on a phone screen and Tongyi Qianwen website displayed on a laptop screen in the background are seen in this illustration photo taken in Krakow, Poland on April 11, 2023. (Photo by Jakub Porzycki/NurPhoto via Getty Images)
أطلقت شركة علي بابا كلاود نموذجين جديدين من عائلة Qwen3 للذكاء الاصطناعي مخصصين لتوليد الأصوات واستنساخها، مع استهداف تطبيقات الصوت الاحترافية وصناعة المحتوى.
ما النماذج الجديدة؟
نموذج Qwen3-TTS-VD-Flash مخصص لتوليد أصوات من أوصاف نصية تفصيلية، مع إمكانية التحكم في المشاعر ونبرة الصوت وسرعة الإلقاء، بل وحتى العمر ونوع الصوت والأسلوب المطلوب.
نموذج Qwen3-TTS-VC-Flash يركز على استنساخ الأصوات من مقطع لا يتجاوز ثلاث ثوانٍ، مع إعادة إنتاج الصوت بعشر لغات مختلفة وبمعدل أخطاء أقل من منافسين مثل ElevenLabs وMiniMax وفقًا لعلي بابا.
القدرات والاستخدامات
النماذج قادرة على التعامل مع نصوص معقدة، وتقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات الصوتية، مع إتاحتها عبر واجهات برمجة تطبيقات علي بابا كلاود ونسخ تجريبية على منصة Hugging Face.
تتيح هذه الأدوات استخدامات متعددة تشمل الإعلانات الصوتية، الدبلجة متعددة اللغات، إنشاء شخصيات صوتية للألعاب، دعم التعليم الإلكتروني ومراكز الاتصال مع تقليل الوقت والتكلفة مقارنة بالتسجيل التقليدي.
سياق السوق والمنافسة
تؤكد علي بابا أن أداء نموذج توليد الصوت يتفوق على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts الذي أُطلق سابقًا هذا العام، في مؤشر على تصاعد المنافسة في سوق توليد الأصوات بالذكاء الاصطناعي.
يأتي إطلاق هذه النماذج في ظل نمو الطلب من قطاعات الإعلان والألعاب والفيديو، ما يعزز حضور علي بابا في سوق تقنيات الصوت القائمة على الذكاء الاصطناعي.