Ali Ahmed55 نشر السبت في 06:28 أرسل تقرير نشر السبت في 06:28 السلام عليكم انا الا اعرفو هو بقسم البيانات الي تدريب و اختبار اي بقا تطوير دي ؟ 2 اقتباس
0 Kais Hasan نشر السبت في 06:33 أرسل تقرير نشر السبت في 06:33 مرحبًا، أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test. الهدف من هذا التقسيم هو عدم الوقوع في مشكلة overfitting على ال test. أي عندما تقوم بالتدريب و تعديل النموذج بناء على نتائج الاختبار على ال test فأنت فعليًا ستقع في مشكلة حيث أن نموذج تم تدريبه بحيث يعطي أفضل نتيجة على ال test و بالتالي قد يكون هناك overfitting. تظهر هذه المشكلة عندما تريد المقارنة بين النماذج، فالمقارنة العادلة يجب أن تختبر كيف تقوم النماذج بتعميم بيانات التدريب على بيانات الاختبار و لهذا السبب يجب ألا يتم اختيار بارامترات النماذج بحيث تعطي أفضل نتائج، و إلا يكون الاختبار بلا فائدة. في نفس الوقت يجب أن تختبر النموذج خلال التدريب حتى تختار قيم بارامترات جيدة تعطي نتائج لا بأس بها على بيانات لم تراها. لحل هذا التعارض تم إنشاء التقسيم الثالث و هو ال dev حتى تقوم باستعمالها كبيانات اختبار خلال عملية تطوير النموذج، و تكون ال test فقط لاختبار النموذج مرة واحدة بعد الانتهاء من تطويره و مقارنته بنماذج أخرى قد تكون طورتها لمعرفة أيها أفضل. تحياتي. 1 اقتباس
0 Ali Ahmed55 نشر السبت في 06:33 الكاتب أرسل تقرير نشر السبت في 06:33 بتاريخ الآن قال Kais Hasan: أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test. ايوه صح بتاريخ 1 دقيقة مضت قال Kais Hasan: مرحبًا، أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test. الهدف من هذا التقسيم هو عدم الوقوع في مشكلة overfitting على ال test. أي عندما تقوم بالتدريب و تعديل النموذج بناء على نتائج الاختبار على ال test فأنت فعليًا ستقع في مشكلة حيث أن نموذج تم تدريبه بحيث يعطي أفضل نتيجة على ال test و بالتالي قد يكون هناك overfitting. تظهر هذه المشكلة عندما تريد المقارنة بين النماذج، فالمقارنة العادلة يجب أن تختبر كيف تقوم النماذج بتعميم بيانات التدريب على بيانات الاختبار و لهذا السبب يجب ألا يتم اختيار بارامترات النماذج بحيث تعطي أفضل نتائج، و إلا يكون الاختبار بلا فائدة. في نفس الوقت يجب أن تختبر النموذج خلال التدريب حتى تختار قيم بارامترات جيدة تعطي نتائج لا بأس بها على بيانات لم تراها. لحل هذا التعارض تم إنشاء التقسيم الثالث و هو ال dev حتى تقوم باستعمالها كبيانات اختبار خلال عملية تطوير النموذج، و تكون ال test فقط لاختبار النموذج مرة واحدة بعد الانتهاء من تطويره و مقارنته بنماذج أخرى قد تكون طورتها لمعرفة أيها أفضل. تحياتي. الف شكرااا جدا لحضرتك جزاك الله كل خير اقتباس
0 ياسر مسكين نشر السبت في 09:21 أرسل تقرير نشر السبت في 09:21 بتاريخ 2 ساعة قال Ali Ahmed55: السلام عليكم انا الا اعرفو هو بقسم البيانات الي تدريب و اختبار اي بقا تطوير دي ؟ وعليكم السلام ورحمة الله وبركاته، يتم تقسيم البيانات إلى مجموعات تدريب واختبار وغالبا مجموعة تطوير / تحقق وهو خطوة أساسية في بناء نماذج التعلم الآلي بالنسبة لمجموعة التدريب (Training Set) فهي البيانات التي يستخدمها النموذج للتعلم وهذا النموذج يتعلم الأنماط والقواعد من هذه البيانات وعادة تكون أكبر مجموعة مثلا 70 إلى 80% من البيانات الكلية أما مجموعة التطويرأو التحقق (Validation Set) فتستخدم لضبط معاملات النموذج (Hyperparameters) وتقييم أدائه أثناء التدريب أي أنها تساعد في منع الإفراط في التخصيص (Overfitting) أي عندما يتعلم النموذج التفاصيل الدقيقة للبيانات بدلا من الأنماط العامة وعادة تكون حوالي 10إلى 15% من البيانات في حين مجموعة الاختبار (Test Set) تستخدم لتقييم أداء النموذج النهائي بعد اكتمال التدريب وهذه البيانات لا تستخدم أبدا أثناء التدريب أو الضبط وهي تمثل البيانات الجديدة التي سيواجهها النموذج في العالم الحقيقي وعادة تكون أيضا حوالي 10 إلى 15% من البيانات. فلو كان عندنا 1000 عينة بيانات سيتم تقسيمها إلى: 700 للتدريب (Training) لتعليم النموذج. 150 للتطوير (Validation) لضبط النموذج وتجنب الإفراط في التخصيص. 150 للاختبار (Test) لتقييم الأداء النهائي بشكل عادل. 1 اقتباس
0 Ali Ahmed55 نشر السبت في 10:32 الكاتب أرسل تقرير نشر السبت في 10:32 بتاريخ منذ ساعة مضت قال ياسر مسكين: وعليكم السلام ورحمة الله وبركاته، يتم تقسيم البيانات إلى مجموعات تدريب واختبار وغالبا مجموعة تطوير / تحقق وهو خطوة أساسية في بناء نماذج التعلم الآلي بالنسبة لمجموعة التدريب (Training Set) فهي البيانات التي يستخدمها النموذج للتعلم وهذا النموذج يتعلم الأنماط والقواعد من هذه البيانات وعادة تكون أكبر مجموعة مثلا 70 إلى 80% من البيانات الكلية أما مجموعة التطويرأو التحقق (Validation Set) فتستخدم لضبط معاملات النموذج (Hyperparameters) وتقييم أدائه أثناء التدريب أي أنها تساعد في منع الإفراط في التخصيص (Overfitting) أي عندما يتعلم النموذج التفاصيل الدقيقة للبيانات بدلا من الأنماط العامة وعادة تكون حوالي 10إلى 15% من البيانات في حين مجموعة الاختبار (Test Set) تستخدم لتقييم أداء النموذج النهائي بعد اكتمال التدريب وهذه البيانات لا تستخدم أبدا أثناء التدريب أو الضبط وهي تمثل البيانات الجديدة التي سيواجهها النموذج في العالم الحقيقي وعادة تكون أيضا حوالي 10 إلى 15% من البيانات. فلو كان عندنا 1000 عينة بيانات سيتم تقسيمها إلى: 700 للتدريب (Training) لتعليم النموذج. 150 للتطوير (Validation) لضبط النموذج وتجنب الإفراط في التخصيص. 150 للاختبار (Test) لتقييم الأداء النهائي بشكل عادل. الف شكراا جدا لحضرتك جزاك الله كل خير 1 اقتباس
السؤال
Ali Ahmed55
السلام عليكم
انا الا اعرفو هو بقسم البيانات الي تدريب و اختبار اي بقا تطوير دي ؟
4 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.