اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

كلاهما دالتين لاختيار الميزات feature selection في التعلم الآلي، لكنهما يختلفان في  نوع البيانات التي تعمل عليها:

  • chi2 (chi-squared) هي لاختبار استقلالية المتغيرات الفئوية categorical variables.

مثل هل هناك علاقة بين لون السيارة (أحمر، أزرق، أخضر) ونوع الوقود (بنزين، ديزل)؟

  • بينما f_classif (ANOVA F-value) تستخدم لاختبار استقلالية متغير مستمر continuous variable ومتغير فئوي.

وكمثال، هل هناك علاقة بين عمر السيارة (متغير مستمر) ونوع الوقود (بنزين، ديزل)؟

أيضًا بخصوص الافتراضات الإحصائية، حيث chi2 تفترض أن البيانات عشوائية وأن التوزيع الطبيعي غير مطلوب، في حين f_classif تفترض أن البيانات عشوائية وأن التوزيع الطبيعي للمتغير المستمر في كل فئة من فئات المتغير الفئوي.

ومن حيث مخرجات الدالة، فكلاهما يعيدان قيمة إحصائية (chi-squared statistic أو F-statistic) وقيمة p-value لكل ميزة.

بالتالي استخدم chi2 في حال لديك categorical variables فقط، وتريد اختبار استقلالية المتغيرات الفئوية.

واستخدم f_classif عندما يكون لديك continuous variable ومتغير فئوي categorical variable، وتريد اختبار استقلالية المتغير المستمر والمتغير الفئوي، وتتحقق افتراضات ANOVA (التوزيع الطبيعي، تجانس التباين).

وهناك تقنيات أخرى لاختيار الميزات مثل mutual information و feature importance.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...