اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

لنبدأ اولا بشرح المميزات (Features) هي عبارة عن قيم قد تكون مستمرة أو متصلة (Continuous) أو متقطعة (Discrete)، وتستخدم هذه المميزات لوصف شيء ما (Object). فمثلا مميزات الشخص هي طوله وزنه عمره لونه ألخ. ومميزات النص هي الكلمات التي يتكون منها هذا النص. ومميزات الصورة على سبيل المثال هي قيمة شدة سطوع كل بكسل في تلك الصورة. الأن بمعرفة ذلك، فأن عملية استخراج المميزات (Features Extraction) تتمثل بقدرة الخوارزمية على تحديد هذه المميزات التي تمثل الشكل الذي يتم فيه تخزين الشيء في الحاسوب. فعندما نعطيها الصورة فأنها تحللها إلى (Pixels) ولكل بكسل قيمة معينة، ونفس الشيء بالنسبة إلى النص فأنه يتحلل إلى كلمات ولكل كلمة قيمة معينة وهذه القيم تعكس بدورها معلومات تستفيد منها خوارزمية التعلم في عملية التعلم.

 في حالات كثيرة يكون عدد المميزات كبير جدا وخصوصا في حالة النصوص وغيرها. وبطبيعة الحال ليست كل هذه المميزات تتضمن معلومات قد تستفيد منها خوارزمية التعلم. فمثلا كلمات مثل (في، إذا، لا، لكن) لا تحمل معلومات قد تساعد خوارزمية التعلم لتصنيف نص ما في حال كان رياضي أو سياسي، فهذه الكلمات قد تتواجد في جميع النصوص بمختلف أصنافها. هنا يبرز دور عملية اختيار المميزات (Features Selection) والتي من خلالها نستخدم خوارزميات معينة لتحديد مدى أهمية كل مميز ومدى المعلومات التي ممكن أن يخبرنا به هذا المميز، وبناء على عتبة ما (Threshold) يتم اتخاذ القرار في ابقاءه أو الاستغناء عنه. والفائدة من هذه العملية قد تنعكس على كل من نتائج التوقع أو التصنيف وأداء الحاسب بشكل إيجابي.

أهم الطرق التي يتم من خلالها اختيار المميزات (Features Selection)، هناك طريقتان رئيستان:

أولا: طريقة التغليف (Wrapper Method): في هذه الطريقة يتم الاعتماد على النتائج التي نحصل عليها من نموذج تعلم (Learning Model) كمعيار في عملية اتخاذ القرار في أي مجموعة جزئية (Features subset) من المميزات يجب الإبقاء عليها. وفي هذه الحالة نحتاج إلى نموذج تعلم ما (مثلا SVM) وننفذ عملية التصنيف (في حال كانت العملية Classification) وذلك باختيار مجموعة جزئية من المجموعة الكلية للمميزات، ومن ثم نفحص النتائج. وتستمر هذه العملية بالتجريب مع أكثر من مجموعة جزئية حتى نحصل على أفضل نتيجة والتي يكون معها نسبة الخطأ أقل ما يمكن وبالتالي يتم اعتماد هذه المجموعة الجزئية من المميزات. إذا يمكن النظر إلى هذه العملية كعملية (Optimization) والهدف هو تقليل (Minimize) نسبة الخطأ للمصنف (Classifier). فبالتالي فأن هذه الطريقة تحتاج في البداية إلى نموذج تصنيف ما، ليتم تغليف داخله خوارزمية بحث (search-based optimization algorithm) تقوم بإيجاد جميع المجموعات الجزئية الممكنة وتختبر نتائجها حتى بالنهاية تصل إلى قرارها. ولك أن تتخيل إذا كان عدد المميزات في هذه المشكلة كان كبير جدا، كم من الاحتمالات الممكنة للمجموعات الجزئية التي ستتكون، وهذا بدوره سيكون مكلف جدا من ناحية المعالجة ويستغرق وقت طويل. وأضف إلى ذلك أن المجموعة الجزئية من المميزات، تم اختيارها بناء على خوارزمية التصنيف المستخدمة، ونحن نعرف أن كل خوارزمية لها مشاكلها ومحدداتها، فبالنتيجة المجموعة الجزئية الناتجة مع استخدام (SVM) مثلا، لن تكون نفسها الناتجة مع (Naïve Bayes).

ومن (search-based optimization algorithm) المستخدمة في عملية اختيار المميزات:

  •  Genetic algorithm
  • Hill Climbing
  • Simulated Annealing
  • Ant Colony
  • Particle Swarm Optimization (PSO)

ثانيا: طريقة الفلترة (Filter Method): في هذه الطريقة لا نحتاج إلى نموذج تعلم (Learning Model) لإيجاد المجموعة الجزئية من المميزات التي معها قد نحصل على أداء أفضل ونسبة خطأ أقل. بل هنا الاعتماد على البيانات نفسها وذلك من خلال تحليل خصائصها الذاتية باستخدام بعض الطرق الاحصائية. أي بمعنى يتم تحليل البيانات وإيجاد المجموعة الجزئية من المميزات قبل تزويدها لـخوارزمية التصنيف. وتشمل عملية تحليل البيانات حساب بعض الخصائص مثل الارتباط (Correlation) والاعتمادية (Dependence) والمسافة (Distance) بين هذه المميزات، ومن ثم اعتماد عتبة معينة (Threshold) لاختيار أفضل مجموعة جزئية من المميزات. وعلى عكس طريقة التغليف، فأن طريقة الفلترة تعتبر أسرع وأقل تكلفة من ناحية المعالجة وخصوصا مع البيانات كبيرة الحجم. ومن الطرق الإحصائية المستخدمة:

  • Information Gain
  • Correlation
  • Chi-Square
  • Gini-Index
  • Relief

وهذه الصوره قد توضح لك اكثر الفرق بينهم

Difference-between-feature-extraction-and-feature-selection.png.58d1c4154b6a305fc4b461ce792b92a3.png

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...