اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

نعم بالفعل تكرار البيانات في الجداول أو قواعد البيانات يعد من أنواع "البيانات القذرة" (Dirty Data) ويمكن بشكل كبير أن يأتي بنتائج عكسية على نماذج تعلم الآلة .

  • إذا كانت البيانات مكررة فإن النموذج قد يتعامل مع هذه البيانات وكأنها معلومات جديدة مما يؤدي إلى تضخيم تأثير تلك النقاط على النموذج. هذا قد يؤدي إلى تحيز النموذج نحو هذه البيانات  فمثلا لو إفتراضنا في نموذج مرضى السكر إذا كانت هناك بيانات مكررة لفئة أعمار معينة فهنا النموذج سينحاز لتلك الفئة وأنها هي من أكثر مرضى السكر .
  • وجود بيانات مكررة يمكن أن يسبب خللًا في دقة التنبؤات حيث أن النموذج يتعلم نفس المعلومات عدة مرات دون إضافة معلومات جديدة ما يؤثر سلبًا على أداء النموذج عند اختبار بيانات جديدة ففي المثال السابق سيعتقد أن الفئة المكررة هي الأكثر مرضا وبذلك سيتنبأ بأي قيمة من تلك الفئة أنها مريضة.
  • البيانات المكررة تزيد من حجم البيانات دون أي فائدة فعلية ما يؤدي إلى زيادة زمن التدريب وإستهلاك موارد أكثر.

لذلك من الأفضل تنظيف البيانات قبل استخدامها في تدريب نماذج تعلم الآلة عن طريق إزالة التكرارات والتأكد من جودة البيانات لتفادى أي مشاكل مثل المشاكل السابقة.

  • 0
نشر
بتاريخ 3 دقائق مضت قال محمد عاطف17:

وعليكم السلام ورحمة الله وبركاته.

نعم بالفعل تكرار البيانات في الجداول أو قواعد البيانات يعد من أنواع "البيانات القذرة" (Dirty Data) ويمكن بشكل كبير أن يأتي بنتائج عكسية على نماذج تعلم الآلة .

  • إذا كانت البيانات مكررة فإن النموذج قد يتعامل مع هذه البيانات وكأنها معلومات جديدة مما يؤدي إلى تضخيم تأثير تلك النقاط على النموذج. هذا قد يؤدي إلى تحيز النموذج نحو هذه البيانات  فمثلا لو إفتراضنا في نموذج مرضى السكر إذا كانت هناك بيانات مكررة لفئة أعمار معينة فهنا النموذج سينحاز لتلك الفئة وأنها هي من أكثر مرضى السكر .
  • وجود بيانات مكررة يمكن أن يسبب خللًا في دقة التنبؤات حيث أن النموذج يتعلم نفس المعلومات عدة مرات دون إضافة معلومات جديدة ما يؤثر سلبًا على أداء النموذج عند اختبار بيانات جديدة ففي المثال السابق سيعتقد أن الفئة المكررة هي الأكثر مرضا وبذلك سيتنبأ بأي قيمة من تلك الفئة أنها مريضة.
  • البيانات المكررة تزيد من حجم البيانات دون أي فائدة فعلية ما يؤدي إلى زيادة زمن التدريب وإستهلاك موارد أكثر.

لذلك من الأفضل تنظيف البيانات قبل استخدامها في تدريب نماذج تعلم الآلة عن طريق إزالة التكرارات والتأكد من جودة البيانات لتفادى أي مشاكل مثل المشاكل السابقة.

تمام , جدا الف شكرااا لحضرتك جدا

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...