اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

وعليكم السلام ورحمة الله تعالى وبركاته،

المحولات (Transformers) هي عبارة عن بنية شبكات عصبية تستخدم آلية تسمى "الانتباه الذاتي" أو self-attention لفهم العلاقات بين أجزاء مختلفة من البيانات وقد تم تصميمها في الأصل لمعالجة اللغة، ثم تم تكييفها للرؤية الحاسوبية من خلال نماذج مثل محول الرؤية (Vision Transformer - ViT)، الذي يتعامل مع الصور كمجموعة من الرقع المشابهة للكلمات في الجملة.

وعلى عكس الشبكات العصبية التلافيفية التقليدية (CNNs) التي تعالج الصور بشكل هرمي وتركز على الأنماط المحلية، يمكن للمحولات النظر فورا في العلاقات بين الأجزاء البعيدة من الصورة، مما يتيح لها التقاط السياق العالمي بشكل أكثر فعالية.

هذه القدرة جعلت المحولات مهيمنة بشكل متزايد في مهام الرؤية الحاسوبية بما في ذلك تصنيف الصور، واكتشاف الأشياء، وتجزئة الصور، متفوقة غالبا على البنيات السابقة.

وبالإضافة إلى نموذج ViT، تم دمج تقنيات المحولات مع شبكات الالتفاف لإنشاء نماذج هجينة، وتم تطبيقها في مهام مثل الكشف عن الأجسام على سبيل المثال، DETR والتجزئة، وحتى تحليل الفيديو.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...