اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

مرحبًا،

أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test.

الهدف من هذا التقسيم هو عدم الوقوع في مشكلة overfitting على ال test. أي عندما تقوم بالتدريب و تعديل النموذج بناء على نتائج الاختبار على ال test فأنت فعليًا ستقع في مشكلة حيث أن نموذج تم تدريبه بحيث يعطي أفضل نتيجة على ال test و بالتالي قد يكون هناك overfitting.

تظهر هذه المشكلة عندما تريد المقارنة بين النماذج، فالمقارنة العادلة يجب أن تختبر كيف تقوم النماذج بتعميم بيانات التدريب على بيانات الاختبار و لهذا السبب يجب ألا يتم اختيار بارامترات النماذج بحيث تعطي أفضل نتائج، و إلا يكون الاختبار بلا فائدة.

في نفس الوقت يجب أن تختبر النموذج خلال التدريب حتى تختار قيم بارامترات جيدة تعطي نتائج لا بأس بها على بيانات لم تراها.

لحل هذا التعارض تم إنشاء التقسيم الثالث و هو ال dev حتى تقوم باستعمالها كبيانات اختبار خلال عملية تطوير النموذج، و تكون ال test فقط لاختبار النموذج مرة واحدة بعد الانتهاء من تطويره و مقارنته بنماذج أخرى قد تكون طورتها لمعرفة أيها أفضل.

تحياتي.

  • 0
نشر
بتاريخ الآن قال Kais Hasan:

أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test.

 

ايوه صح

بتاريخ 1 دقيقة مضت قال Kais Hasan:

مرحبًا،

أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test.

الهدف من هذا التقسيم هو عدم الوقوع في مشكلة overfitting على ال test. أي عندما تقوم بالتدريب و تعديل النموذج بناء على نتائج الاختبار على ال test فأنت فعليًا ستقع في مشكلة حيث أن نموذج تم تدريبه بحيث يعطي أفضل نتيجة على ال test و بالتالي قد يكون هناك overfitting.

تظهر هذه المشكلة عندما تريد المقارنة بين النماذج، فالمقارنة العادلة يجب أن تختبر كيف تقوم النماذج بتعميم بيانات التدريب على بيانات الاختبار و لهذا السبب يجب ألا يتم اختيار بارامترات النماذج بحيث تعطي أفضل نتائج، و إلا يكون الاختبار بلا فائدة.

في نفس الوقت يجب أن تختبر النموذج خلال التدريب حتى تختار قيم بارامترات جيدة تعطي نتائج لا بأس بها على بيانات لم تراها.

لحل هذا التعارض تم إنشاء التقسيم الثالث و هو ال dev حتى تقوم باستعمالها كبيانات اختبار خلال عملية تطوير النموذج، و تكون ال test فقط لاختبار النموذج مرة واحدة بعد الانتهاء من تطويره و مقارنته بنماذج أخرى قد تكون طورتها لمعرفة أيها أفضل.

تحياتي.

الف شكرااا جدا لحضرتك 

جزاك الله كل خير

  • 0
نشر
بتاريخ 2 ساعة قال Ali Ahmed55:

السلام عليكم

انا الا اعرفو هو بقسم البيانات الي تدريب و اختبار اي بقا تطوير دي ؟

وعليكم السلام ورحمة الله وبركاته،

يتم تقسيم البيانات إلى مجموعات تدريب واختبار وغالبا مجموعة تطوير / تحقق وهو خطوة أساسية في بناء نماذج التعلم الآلي بالنسبة لمجموعة التدريب (Training Set) فهي البيانات التي يستخدمها النموذج للتعلم وهذا النموذج يتعلم الأنماط والقواعد من هذه البيانات وعادة تكون أكبر مجموعة مثلا 70 إلى 80% من البيانات الكلية أما مجموعة التطويرأو التحقق (Validation Set) فتستخدم لضبط معاملات النموذج (Hyperparameters) وتقييم أدائه أثناء التدريب أي أنها تساعد في منع الإفراط في التخصيص (Overfitting) أي عندما يتعلم النموذج التفاصيل الدقيقة للبيانات بدلا من الأنماط العامة وعادة تكون حوالي 10إلى 15% من البيانات في حين مجموعة الاختبار (Test Set) تستخدم لتقييم أداء النموذج النهائي بعد اكتمال التدريب وهذه البيانات لا تستخدم أبدا أثناء التدريب أو الضبط وهي تمثل البيانات الجديدة التي سيواجهها النموذج في العالم الحقيقي وعادة تكون أيضا حوالي 10 إلى 15% من البيانات.

فلو كان عندنا 1000 عينة بيانات سيتم تقسيمها إلى:

  • 700 للتدريب (Training) لتعليم النموذج.
  • 150 للتطوير (Validation) لضبط النموذج وتجنب الإفراط في التخصيص.
  • 150 للاختبار (Test) لتقييم الأداء النهائي بشكل عادل.
  • 0
نشر
بتاريخ منذ ساعة مضت قال ياسر مسكين:

وعليكم السلام ورحمة الله وبركاته،

يتم تقسيم البيانات إلى مجموعات تدريب واختبار وغالبا مجموعة تطوير / تحقق وهو خطوة أساسية في بناء نماذج التعلم الآلي بالنسبة لمجموعة التدريب (Training Set) فهي البيانات التي يستخدمها النموذج للتعلم وهذا النموذج يتعلم الأنماط والقواعد من هذه البيانات وعادة تكون أكبر مجموعة مثلا 70 إلى 80% من البيانات الكلية أما مجموعة التطويرأو التحقق (Validation Set) فتستخدم لضبط معاملات النموذج (Hyperparameters) وتقييم أدائه أثناء التدريب أي أنها تساعد في منع الإفراط في التخصيص (Overfitting) أي عندما يتعلم النموذج التفاصيل الدقيقة للبيانات بدلا من الأنماط العامة وعادة تكون حوالي 10إلى 15% من البيانات في حين مجموعة الاختبار (Test Set) تستخدم لتقييم أداء النموذج النهائي بعد اكتمال التدريب وهذه البيانات لا تستخدم أبدا أثناء التدريب أو الضبط وهي تمثل البيانات الجديدة التي سيواجهها النموذج في العالم الحقيقي وعادة تكون أيضا حوالي 10 إلى 15% من البيانات.

فلو كان عندنا 1000 عينة بيانات سيتم تقسيمها إلى:

  • 700 للتدريب (Training) لتعليم النموذج.
  • 150 للتطوير (Validation) لضبط النموذج وتجنب الإفراط في التخصيص.
  • 150 للاختبار (Test) لتقييم الأداء النهائي بشكل عادل.

الف شكراا جدا لحضرتك

جزاك الله كل خير

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...