هي تقنيات المحولات (Transformers) واي علافتها بالcomputer vision ؟

Ali Ahmed55 · 30 مارس

السلام عليكم

ياسر مسكين · 30 مارس

وعليكم السلام ورحمة الله تعالى وبركاته،

المحولات (Transformers) هي عبارة عن بنية شبكات عصبية تستخدم آلية تسمى "الانتباه الذاتي" أو self-attention لفهم العلاقات بين أجزاء مختلفة من البيانات وقد تم تصميمها في الأصل لمعالجة اللغة، ثم تم تكييفها للرؤية الحاسوبية من خلال نماذج مثل محول الرؤية (Vision Transformer - ViT)، الذي يتعامل مع الصور كمجموعة من الرقع المشابهة للكلمات في الجملة.

وعلى عكس الشبكات العصبية التلافيفية التقليدية (CNNs) التي تعالج الصور بشكل هرمي وتركز على الأنماط المحلية، يمكن للمحولات النظر فورا في العلاقات بين الأجزاء البعيدة من الصورة، مما يتيح لها التقاط السياق العالمي بشكل أكثر فعالية.

هذه القدرة جعلت المحولات مهيمنة بشكل متزايد في مهام الرؤية الحاسوبية بما في ذلك تصنيف الصور، واكتشاف الأشياء، وتجزئة الصور، متفوقة غالبا على البنيات السابقة.

وبالإضافة إلى نموذج ViT، تم دمج تقنيات المحولات مع شبكات الالتفاف لإنشاء نماذج هجينة، وتم تطبيقها في مهام مثل الكشف عن الأجسام على سبيل المثال، DETR والتجزئة، وحتى تحليل الفيديو.

Ali Ahmed55 · 30 مارس

تمام جدا

الف شكراا جدا لحضرتك

جزاك الله كل خير

هي تقنيات المحولات (Transformers) واي علافتها بالcomputer vision ؟

السؤال

Ali Ahmed55

2 أجوبة على هذا السؤال

Recommended Posts

ياسر مسكين

Ali Ahmed55

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية