Ali Ahmed55 نشر 20 يونيو أرسل تقرير نشر 20 يونيو (معدل) السلام عليكم هل من الأفضل دائمًا تعويض (ملء) القيم المفقودة، أم أن حذف القيم المفقودة يكون أحيانًا الخيار الأفضل، حتى لو كانت البيانات قليلة جدًا؟ هل يوجد فرق بين بيانات التدريب وبيانات الاختبار في التعامل مع القيم المفقودة؟ تم التعديل في 20 يونيو بواسطة Ali Ahmed55 3 اقتباس
0 Abdulrahman Muhammad نشر 20 يونيو أرسل تقرير نشر 20 يونيو تحديد أي من الخيارين تعويض (ملء) القيم المفقودة، أم حذف القيم المفقودة يعتمد على طبيعة البيانات والمشكلة اللي تحاول تحلها. إذا كانت القيم المفقودة قليلة جدًا (مثلاً أقل من 5%)، ففي بعض الحالات يكون الحذف أفضل وأسهل، خاصة لو كانت الصفوف المفقودة غير مهمة أو عشوائية. لكن إذا كانت القيم المفقودة كثيرة، فالحذف ممكن يسبب خسارة في البيانات ويأثر على دقة النموذج، وهنا التعويض (مثل المتوسط أو التكرار) يكون أفضل. بخصوص الفرق بين بيانات التدريب والاختبار: نعم يوجد فرق بينهما في بيانات التدريب: تقوم بتحليل البيانات وتعويض القيم المفقودة. في بيانات الاختبار: تستخدم نفس طريقة التعويض التي تم استخدامها في التدريب (نفس المتوسط أو القيمة). 1 اقتباس
0 محمد_عاطف نشر 20 يونيو أرسل تقرير نشر 20 يونيو وعليكم السلام ورحمة الله وبركاته. لا يوجد خيار أفضل دائما بين إن تعويض القيم المفقودة أو حذفها ويعتمد هذا الأمر على عدة عوامل: فالتعويض أفضل : عندما تكون البيانات قليلة فإذا كانت مجموعة البيانات صغيرة فإن حذف القيم المفقودة قد يؤدي إلى فقدان كبير للمعلومات المهمة مما يؤثر على أداء النموذج. عندما تكون القيم المفقودة قليلة فإذا كانت نسبة القيم المفقودة صغيرة مثلا أقل من 5 أو 10% يمكن تعويضها بطرق مثل المتوسط أو الوسيط أو التنبؤ باستخدام نماذج تعلم آلي دون إدخال تحيز كبير. عندما تكون البيانات مفقودة بشكل عشوائي فإذا كانت القيم مفقودة بشكل عشوائي أو مرتبط بمتغيرات أخرى وليس بالقيمة نفسها فإن التعويض يكون آمن وجيد في تلك الحالة. يكون الحذف أفضل : عندما تكون القيم المفقودة كثيرة فإذا كانت نسبة البيانات المفقودة في عمود أو صف مرتفعة جدًا مثلا >50% فقد يكون التعويض غير موثوق ويؤدي إلى تحيز. عندما تكون البيانات مفقودة بشكل غير عشوائي فإذا كان سبب الفقدان مرتبط بالقيمة نفسها مثل استبيانات حيث يتجنب الناس الإجابة عن أسئلة حساسة فإن التعويض قد يشوه البيانات، والحذف قد يكون أكثر أمان. عندما تكون البيانات كافية فإذا كانت مجموعة البيانات كبيرة بما يكفي فإن حذف نسبة صغيرة من الصفوف أو الأعمدة لن يؤثر كثيرا على النتائج. 1 اقتباس
0 ياسر مسكين نشر 20 يونيو أرسل تقرير نشر 20 يونيو ليس من الأفضل دائما تعويض القيم المفقودة، كما أنه ليس من الصحيح دائما حذفها. لأن الخيار الأفضل يعتمد على طبيعة البيانات، كمية القيم المفقودة، وأسباب فقدانها فإذا كانت نسبة القيم المفقودة مرتفعة في عمود معين مثلا لنقل أكثر من 40%-50% فقد يكون من الأفضل حذف هذا العمود لأنه قد لا يضيف قيمة تحليلية حقيقية. أما إذا كانت نسبة القيم المفقودة قليلة، فغالبا ما يكون من الأفضل تعويضها، وذلك باستخدام أساليب مثل المتوسط mean، الوسيط median، الأكثر تكرارا mode أو نماذج أكثر تقدما مثل KNN Imputer أو التوقع بالنماذج. لكن في بعض الحالات، القيم المفقودة قد تكون ذات دلالة بحد ذاتها، فمجرد كونها مفقودة يحمل معنى معين، وفي هذه الحالة يمكن إنشاء عمود إضافي يشير إلى كون القيمة مفقودة بدلا من حذفها أو تعويضها. أما بخصوص الفرق بين بيانات التدريب وبيانات الاختبار فنعم يوجد فرق مهم أولا يجب تعويض القيم المفقودة في بيانات الاختبار باستخدام نفس القيم أو الاستراتيجية المستخلصة من بيانات التدريب فقط، لضمان عدم تسريب المعلومات (data leakage) مثلا إذا عوّضت القيم المفقودة في التدريب باستخدام المتوسط، يجب أن تستخدم نفس هذا المتوسط أي المحسوب من التدريب لتعويض القيم في الاختبار، وليس أن تحسب متوسطا جديدا للاختبار. 1 اقتباس
0 Ali Ahmed55 نشر 20 يونيو الكاتب أرسل تقرير نشر 20 يونيو الف شكراا جدا لحضرتك جزاك الله كل خير اقتباس
السؤال
Ali Ahmed55
السلام عليكم
هل من الأفضل دائمًا تعويض (ملء) القيم المفقودة، أم أن حذف القيم المفقودة يكون أحيانًا الخيار الأفضل، حتى لو كانت البيانات قليلة جدًا؟
هل يوجد فرق بين بيانات التدريب وبيانات الاختبار في التعامل مع القيم المفقودة؟
تم التعديل في بواسطة Ali Ahmed554 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.