هل من الأفضل دائمًا تعويض (ملء) القيم المفقودة، أم أن حذف القيم المفقودة يكون أحيانًا الخيار الأفضل، حتى لو كانت البيانات قليلة جدًا؟

Ali Ahmed55 · 20 يونيو

السلام عليكم

هل يوجد فرق بين بيانات التدريب وبيانات الاختبار في التعامل مع القيم المفقودة؟

تم التعديل في 20 يونيو بواسطة Ali Ahmed55

Abdulrahman Muhammad · 20 يونيو

تحديد أي من الخيارين تعويض (ملء) القيم المفقودة، أم حذف القيم المفقودة يعتمد على طبيعة البيانات والمشكلة اللي تحاول تحلها.

إذا كانت القيم المفقودة قليلة جدًا (مثلاً أقل من 5%)، ففي بعض الحالات يكون الحذف أفضل وأسهل، خاصة لو كانت الصفوف المفقودة غير مهمة أو عشوائية.

لكن إذا كانت القيم المفقودة كثيرة، فالحذف ممكن يسبب خسارة في البيانات ويأثر على دقة النموذج، وهنا التعويض (مثل المتوسط أو التكرار) يكون أفضل.

بخصوص الفرق بين بيانات التدريب والاختبار: نعم يوجد فرق بينهما

في بيانات التدريب: تقوم بتحليل البيانات وتعويض القيم المفقودة.

في بيانات الاختبار: تستخدم نفس طريقة التعويض التي تم استخدامها في التدريب (نفس المتوسط أو القيمة).

محمد_عاطف · 20 يونيو

وعليكم السلام ورحمة الله وبركاته.

لا يوجد خيار أفضل دائما بين إن تعويض القيم المفقودة أو حذفها ويعتمد هذا الأمر على عدة عوامل:

فالتعويض أفضل :

عندما تكون البيانات قليلة فإذا كانت مجموعة البيانات صغيرة فإن حذف القيم المفقودة قد يؤدي إلى فقدان كبير للمعلومات المهمة مما يؤثر على أداء النموذج.
عندما تكون القيم المفقودة قليلة فإذا كانت نسبة القيم المفقودة صغيرة مثلا أقل من 5 أو 10% يمكن تعويضها بطرق مثل المتوسط أو الوسيط أو التنبؤ باستخدام نماذج تعلم آلي دون إدخال تحيز كبير.
عندما تكون البيانات مفقودة بشكل عشوائي فإذا كانت القيم مفقودة بشكل عشوائي أو مرتبط بمتغيرات أخرى وليس بالقيمة نفسها فإن التعويض يكون آمن وجيد في تلك الحالة.

يكون الحذف أفضل :

عندما تكون القيم المفقودة كثيرة فإذا كانت نسبة البيانات المفقودة في عمود أو صف مرتفعة جدًا مثلا >50% فقد يكون التعويض غير موثوق ويؤدي إلى تحيز.
عندما تكون البيانات مفقودة بشكل غير عشوائي فإذا كان سبب الفقدان مرتبط بالقيمة نفسها مثل استبيانات حيث يتجنب الناس الإجابة عن أسئلة حساسة فإن التعويض قد يشوه البيانات، والحذف قد يكون أكثر أمان.
عندما تكون البيانات كافية فإذا كانت مجموعة البيانات كبيرة بما يكفي فإن حذف نسبة صغيرة من الصفوف أو الأعمدة لن يؤثر كثيرا على النتائج.

ياسر مسكين · 20 يونيو

ليس من الأفضل دائما تعويض القيم المفقودة، كما أنه ليس من الصحيح دائما حذفها.

لأن الخيار الأفضل يعتمد على طبيعة البيانات، كمية القيم المفقودة، وأسباب فقدانها فإذا كانت نسبة القيم المفقودة مرتفعة في عمود معين مثلا لنقل أكثر من 40%-50% فقد يكون من الأفضل حذف هذا العمود لأنه قد لا يضيف قيمة تحليلية حقيقية.

أما إذا كانت نسبة القيم المفقودة قليلة، فغالبا ما يكون من الأفضل تعويضها، وذلك باستخدام أساليب مثل المتوسط mean، الوسيط median، الأكثر تكرارا mode أو نماذج أكثر تقدما مثل KNN Imputer أو التوقع بالنماذج.

لكن في بعض الحالات، القيم المفقودة قد تكون ذات دلالة بحد ذاتها، فمجرد كونها مفقودة يحمل معنى معين، وفي هذه الحالة يمكن إنشاء عمود إضافي يشير إلى كون القيمة مفقودة بدلا من حذفها أو تعويضها.

أما بخصوص الفرق بين بيانات التدريب وبيانات الاختبار فنعم يوجد فرق مهم أولا يجب تعويض القيم المفقودة في بيانات الاختبار باستخدام نفس القيم أو الاستراتيجية المستخلصة من بيانات التدريب فقط، لضمان عدم تسريب المعلومات (data leakage) مثلا إذا عوّضت القيم المفقودة في التدريب باستخدام المتوسط، يجب أن تستخدم نفس هذا المتوسط أي المحسوب من التدريب لتعويض القيم في الاختبار، وليس أن تحسب متوسطا جديدا للاختبار.

Ali Ahmed55 · 20 يونيو

الف شكراا جدا لحضرتك

جزاك الله كل خير

هل من الأفضل دائمًا تعويض (ملء) القيم المفقودة، أم أن حذف القيم المفقودة يكون أحيانًا الخيار الأفضل، حتى لو كانت البيانات قليلة جدًا؟

السؤال

Ali Ahmed55

4 أجوبة على هذا السؤال

Recommended Posts

Abdulrahman Muhammad

محمد_عاطف

ياسر مسكين

Ali Ahmed55

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية