اذهب إلى المحتوى

السؤال

نشر (معدل)

السلام عليكم

هل من الأفضل دائمًا تعويض (ملء) القيم المفقودة، أم أن حذف القيم المفقودة يكون أحيانًا الخيار الأفضل، حتى لو كانت البيانات قليلة جدًا؟

هل يوجد فرق بين بيانات التدريب وبيانات الاختبار في التعامل مع القيم المفقودة؟

تم التعديل في بواسطة Ali Ahmed55

Recommended Posts

  • 0
نشر

تحديد أي من الخيارين تعويض (ملء) القيم المفقودة، أم حذف القيم المفقودة يعتمد على طبيعة البيانات والمشكلة اللي تحاول تحلها.

إذا كانت القيم المفقودة قليلة جدًا (مثلاً أقل من 5%)، ففي بعض الحالات يكون الحذف أفضل وأسهل، خاصة لو كانت الصفوف المفقودة غير مهمة أو عشوائية.

لكن إذا كانت القيم المفقودة كثيرة، فالحذف ممكن يسبب خسارة في البيانات ويأثر على دقة النموذج، وهنا التعويض (مثل المتوسط أو التكرار) يكون أفضل.

بخصوص الفرق بين بيانات التدريب والاختبار: نعم يوجد فرق بينهما

في بيانات التدريب: تقوم بتحليل البيانات وتعويض القيم المفقودة.

في بيانات الاختبار: تستخدم نفس طريقة التعويض التي تم استخدامها في التدريب (نفس المتوسط أو القيمة).

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

لا يوجد خيار أفضل دائما بين إن تعويض القيم المفقودة أو حذفها ويعتمد هذا الأمر على عدة عوامل:

فالتعويض أفضل :

  • عندما تكون البيانات قليلة فإذا كانت مجموعة البيانات صغيرة فإن حذف القيم المفقودة قد يؤدي إلى فقدان كبير للمعلومات المهمة مما يؤثر على أداء النموذج.
  • عندما تكون القيم المفقودة قليلة فإذا كانت نسبة القيم المفقودة صغيرة مثلا أقل من 5 أو 10% يمكن تعويضها بطرق مثل المتوسط أو الوسيط أو التنبؤ باستخدام نماذج تعلم آلي دون إدخال تحيز كبير.
  • عندما تكون البيانات مفقودة بشكل عشوائي فإذا كانت القيم مفقودة بشكل عشوائي أو مرتبط بمتغيرات أخرى وليس بالقيمة نفسها فإن التعويض يكون آمن وجيد في تلك الحالة.

يكون الحذف أفضل :

  • عندما تكون القيم المفقودة كثيرة فإذا كانت نسبة البيانات المفقودة في عمود أو صف مرتفعة جدًا مثلا >50% فقد يكون التعويض غير موثوق ويؤدي إلى تحيز.
  • عندما تكون البيانات مفقودة بشكل غير عشوائي فإذا كان سبب الفقدان مرتبط بالقيمة نفسها مثل استبيانات حيث يتجنب الناس الإجابة عن أسئلة حساسة فإن التعويض قد يشوه البيانات، والحذف قد يكون أكثر أمان.
  • عندما تكون البيانات كافية فإذا كانت مجموعة البيانات كبيرة بما يكفي فإن حذف نسبة صغيرة من الصفوف أو الأعمدة لن يؤثر كثيرا على النتائج.

 

  • 0
نشر

ليس من الأفضل دائما تعويض القيم المفقودة، كما أنه ليس من الصحيح دائما حذفها.

لأن الخيار الأفضل يعتمد على طبيعة البيانات، كمية القيم المفقودة، وأسباب فقدانها فإذا كانت نسبة القيم المفقودة مرتفعة في عمود معين مثلا لنقل أكثر من 40%-50% فقد يكون من الأفضل حذف هذا العمود لأنه قد لا يضيف قيمة تحليلية حقيقية.

أما إذا كانت نسبة القيم المفقودة قليلة، فغالبا ما يكون من الأفضل تعويضها، وذلك باستخدام أساليب مثل المتوسط mean، الوسيط median، الأكثر تكرارا mode أو نماذج أكثر تقدما مثل KNN Imputer أو التوقع بالنماذج.

لكن في بعض الحالات، القيم المفقودة قد تكون ذات دلالة بحد ذاتها، فمجرد كونها مفقودة يحمل معنى معين، وفي هذه الحالة يمكن إنشاء عمود إضافي يشير إلى كون القيمة مفقودة بدلا من حذفها أو تعويضها.

أما بخصوص الفرق بين بيانات التدريب وبيانات الاختبار فنعم يوجد فرق مهم أولا يجب تعويض القيم المفقودة في بيانات الاختبار باستخدام نفس القيم أو الاستراتيجية المستخلصة من بيانات التدريب فقط، لضمان عدم تسريب المعلومات (data leakage) مثلا إذا عوّضت القيم المفقودة في التدريب باستخدام المتوسط، يجب أن تستخدم نفس هذا المتوسط أي المحسوب من التدريب لتعويض القيم في الاختبار، وليس أن تحسب متوسطا جديدا للاختبار.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...