Ail Ahmed نشر 17 أكتوبر أرسل تقرير نشر 17 أكتوبر السلام عليكم هو تكرار البيانات في جدول بيانات او قاعد بيانات دي يعتبر من نواع dirty data ولكن هل ده ياثير باسلب علي نماذج تعلم الاله ؟ 1 اقتباس
0 محمد عاطف17 نشر 17 أكتوبر أرسل تقرير نشر 17 أكتوبر وعليكم السلام ورحمة الله وبركاته. نعم بالفعل تكرار البيانات في الجداول أو قواعد البيانات يعد من أنواع "البيانات القذرة" (Dirty Data) ويمكن بشكل كبير أن يأتي بنتائج عكسية على نماذج تعلم الآلة . إذا كانت البيانات مكررة فإن النموذج قد يتعامل مع هذه البيانات وكأنها معلومات جديدة مما يؤدي إلى تضخيم تأثير تلك النقاط على النموذج. هذا قد يؤدي إلى تحيز النموذج نحو هذه البيانات فمثلا لو إفتراضنا في نموذج مرضى السكر إذا كانت هناك بيانات مكررة لفئة أعمار معينة فهنا النموذج سينحاز لتلك الفئة وأنها هي من أكثر مرضى السكر . وجود بيانات مكررة يمكن أن يسبب خللًا في دقة التنبؤات حيث أن النموذج يتعلم نفس المعلومات عدة مرات دون إضافة معلومات جديدة ما يؤثر سلبًا على أداء النموذج عند اختبار بيانات جديدة ففي المثال السابق سيعتقد أن الفئة المكررة هي الأكثر مرضا وبذلك سيتنبأ بأي قيمة من تلك الفئة أنها مريضة. البيانات المكررة تزيد من حجم البيانات دون أي فائدة فعلية ما يؤدي إلى زيادة زمن التدريب وإستهلاك موارد أكثر. لذلك من الأفضل تنظيف البيانات قبل استخدامها في تدريب نماذج تعلم الآلة عن طريق إزالة التكرارات والتأكد من جودة البيانات لتفادى أي مشاكل مثل المشاكل السابقة. 1 اقتباس
0 Ail Ahmed نشر 17 أكتوبر الكاتب أرسل تقرير نشر 17 أكتوبر بتاريخ 3 دقائق مضت قال محمد عاطف17: وعليكم السلام ورحمة الله وبركاته. نعم بالفعل تكرار البيانات في الجداول أو قواعد البيانات يعد من أنواع "البيانات القذرة" (Dirty Data) ويمكن بشكل كبير أن يأتي بنتائج عكسية على نماذج تعلم الآلة . إذا كانت البيانات مكررة فإن النموذج قد يتعامل مع هذه البيانات وكأنها معلومات جديدة مما يؤدي إلى تضخيم تأثير تلك النقاط على النموذج. هذا قد يؤدي إلى تحيز النموذج نحو هذه البيانات فمثلا لو إفتراضنا في نموذج مرضى السكر إذا كانت هناك بيانات مكررة لفئة أعمار معينة فهنا النموذج سينحاز لتلك الفئة وأنها هي من أكثر مرضى السكر . وجود بيانات مكررة يمكن أن يسبب خللًا في دقة التنبؤات حيث أن النموذج يتعلم نفس المعلومات عدة مرات دون إضافة معلومات جديدة ما يؤثر سلبًا على أداء النموذج عند اختبار بيانات جديدة ففي المثال السابق سيعتقد أن الفئة المكررة هي الأكثر مرضا وبذلك سيتنبأ بأي قيمة من تلك الفئة أنها مريضة. البيانات المكررة تزيد من حجم البيانات دون أي فائدة فعلية ما يؤدي إلى زيادة زمن التدريب وإستهلاك موارد أكثر. لذلك من الأفضل تنظيف البيانات قبل استخدامها في تدريب نماذج تعلم الآلة عن طريق إزالة التكرارات والتأكد من جودة البيانات لتفادى أي مشاكل مثل المشاكل السابقة. تمام , جدا الف شكرااا لحضرتك جدا اقتباس
السؤال
Ail Ahmed
السلام عليكم
هو تكرار البيانات في جدول بيانات او قاعد بيانات دي يعتبر من نواع dirty data ولكن هل ده ياثير باسلب علي نماذج تعلم الاله ؟
2 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.