اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

 

WaveNet هي شبكة عصبية عميقة لتوليد الصوت الخام. تم إنشاؤه من قبل باحثين في شركة الذكاء الاصطناعي DeepMind ومقرها لندن. هذه التقنية ، الموضحة في ورقة بحثية في سبتمبر 2016 ، قادرة على توليد أصوات تشبه الإنسان تبدو واقعية نسبيًا عن طريق نمذجة أشكال الموجة مباشرة باستخدام طريقة الشبكة العصبية المدربة على تسجيلات الكلام الحقيقي. أظهرت الاختبارات باللغة الإنجليزية الأمريكية والماندرين أن النظام يتفوق في الأداء على أفضل أنظمة تحويل النص إلى كلام (TTS) الموجودة في Google ، على الرغم من أنه اعتبارًا من عام 2016 كان توليف تحويل النص إلى كلام أقل إقناعًا من الكلام البشري الفعلي.  إن قدرة WaveNet على إنشاء أشكال موجية خام تعني أنه يمكنها نمذجة أي نوع من الصوت ، بما في ذلك الموسيقى. 

  • 0
نشر

ـ WaveNet هي شبكة عصبية، يتم تدريبها على الأصوات وبعد ذلك يتم إستخدامها لتوليد أصوات مشابهة لما تم التدريب عليه.

وتقوم الشبكة بتعلم الأصوات عن طريق تحويل الصوت إلى ما يسمى بmel spectrograms، وهي طريقة لتحويل الصوت من موجات إلى صورة ثنائية الأبعاد.

على سبيل المثال في هذا التطبيق لشبكة WaveNet من شركة Nvidia، يتم تدريب الشبكة على أصوات من dataset تسمى arctic data، وبعد إنتهاء التدريب تكون الشبكة قد استوعبت طريقة الكلام، على الرغم من عدم توليدها كلام مفهوم، لكنها تكون قد استوعبت الأصوات ومخارج الحروف والتغيرات في نبرات الصوت.

ويمكن إستخدام ما تم تعلمه في الشبكة كخطوة وسيطة في تحويل الكتابة إلى أصوات.

يمكنك تدريب الWaveNet على google colab من هنا.

بالتوفيق

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...