هو ليه بنقسم البيانات الي تدريب وتطوير واختبار لبناء نماذج الذكاء الاصطناعي ؟

Ali Ahmed55 · 18 يناير

السلام عليكم

انا الا اعرفو هو بقسم البيانات الي تدريب و اختبار اي بقا تطوير دي ؟

Kais Hasan · 18 يناير

مرحبًا،

أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test.

الهدف من هذا التقسيم هو عدم الوقوع في مشكلة overfitting على ال test. أي عندما تقوم بالتدريب و تعديل النموذج بناء على نتائج الاختبار على ال test فأنت فعليًا ستقع في مشكلة حيث أن نموذج تم تدريبه بحيث يعطي أفضل نتيجة على ال test و بالتالي قد يكون هناك overfitting.

تظهر هذه المشكلة عندما تريد المقارنة بين النماذج، فالمقارنة العادلة يجب أن تختبر كيف تقوم النماذج بتعميم بيانات التدريب على بيانات الاختبار و لهذا السبب يجب ألا يتم اختيار بارامترات النماذج بحيث تعطي أفضل نتائج، و إلا يكون الاختبار بلا فائدة.

في نفس الوقت يجب أن تختبر النموذج خلال التدريب حتى تختار قيم بارامترات جيدة تعطي نتائج لا بأس بها على بيانات لم تراها.

لحل هذا التعارض تم إنشاء التقسيم الثالث و هو ال dev حتى تقوم باستعمالها كبيانات اختبار خلال عملية تطوير النموذج، و تكون ال test فقط لاختبار النموذج مرة واحدة بعد الانتهاء من تطويره و مقارنته بنماذج أخرى قد تكون طورتها لمعرفة أيها أفضل.

تحياتي.

Ali Ahmed55 · 18 يناير

بتاريخ الآن قال Kais Hasan:

أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test.

ايوه صح

بتاريخ 1 دقيقة مضت قال Kais Hasan:

مرحبًا،

أعتقد أن ما تقصده هو تقسيم البيانات إلى 3 أقسام هي train, dev, test.

الهدف من هذا التقسيم هو عدم الوقوع في مشكلة overfitting على ال test. أي عندما تقوم بالتدريب و تعديل النموذج بناء على نتائج الاختبار على ال test فأنت فعليًا ستقع في مشكلة حيث أن نموذج تم تدريبه بحيث يعطي أفضل نتيجة على ال test و بالتالي قد يكون هناك overfitting.

تظهر هذه المشكلة عندما تريد المقارنة بين النماذج، فالمقارنة العادلة يجب أن تختبر كيف تقوم النماذج بتعميم بيانات التدريب على بيانات الاختبار و لهذا السبب يجب ألا يتم اختيار بارامترات النماذج بحيث تعطي أفضل نتائج، و إلا يكون الاختبار بلا فائدة.

في نفس الوقت يجب أن تختبر النموذج خلال التدريب حتى تختار قيم بارامترات جيدة تعطي نتائج لا بأس بها على بيانات لم تراها.

لحل هذا التعارض تم إنشاء التقسيم الثالث و هو ال dev حتى تقوم باستعمالها كبيانات اختبار خلال عملية تطوير النموذج، و تكون ال test فقط لاختبار النموذج مرة واحدة بعد الانتهاء من تطويره و مقارنته بنماذج أخرى قد تكون طورتها لمعرفة أيها أفضل.

تحياتي.

الف شكرااا جدا لحضرتك

جزاك الله كل خير

ياسر مسكين · 18 يناير

بتاريخ 2 ساعة قال Ali Ahmed55:

السلام عليكم

انا الا اعرفو هو بقسم البيانات الي تدريب و اختبار اي بقا تطوير دي ؟

وعليكم السلام ورحمة الله وبركاته،

يتم تقسيم البيانات إلى مجموعات تدريب واختبار وغالبا مجموعة تطوير / تحقق وهو خطوة أساسية في بناء نماذج التعلم الآلي بالنسبة لمجموعة التدريب (Training Set) فهي البيانات التي يستخدمها النموذج للتعلم وهذا النموذج يتعلم الأنماط والقواعد من هذه البيانات وعادة تكون أكبر مجموعة مثلا 70 إلى 80% من البيانات الكلية أما مجموعة التطويرأو التحقق (Validation Set) فتستخدم لضبط معاملات النموذج (Hyperparameters) وتقييم أدائه أثناء التدريب أي أنها تساعد في منع الإفراط في التخصيص (Overfitting) أي عندما يتعلم النموذج التفاصيل الدقيقة للبيانات بدلا من الأنماط العامة وعادة تكون حوالي 10إلى 15% من البيانات في حين مجموعة الاختبار (Test Set) تستخدم لتقييم أداء النموذج النهائي بعد اكتمال التدريب وهذه البيانات لا تستخدم أبدا أثناء التدريب أو الضبط وهي تمثل البيانات الجديدة التي سيواجهها النموذج في العالم الحقيقي وعادة تكون أيضا حوالي 10 إلى 15% من البيانات.

فلو كان عندنا 1000 عينة بيانات سيتم تقسيمها إلى:

700 للتدريب (Training) لتعليم النموذج.
150 للتطوير (Validation) لضبط النموذج وتجنب الإفراط في التخصيص.
150 للاختبار (Test) لتقييم الأداء النهائي بشكل عادل.

Ali Ahmed55 · 18 يناير

بتاريخ منذ ساعة مضت قال ياسر مسكين:

وعليكم السلام ورحمة الله وبركاته،

يتم تقسيم البيانات إلى مجموعات تدريب واختبار وغالبا مجموعة تطوير / تحقق وهو خطوة أساسية في بناء نماذج التعلم الآلي بالنسبة لمجموعة التدريب (Training Set) فهي البيانات التي يستخدمها النموذج للتعلم وهذا النموذج يتعلم الأنماط والقواعد من هذه البيانات وعادة تكون أكبر مجموعة مثلا 70 إلى 80% من البيانات الكلية أما مجموعة التطويرأو التحقق (Validation Set) فتستخدم لضبط معاملات النموذج (Hyperparameters) وتقييم أدائه أثناء التدريب أي أنها تساعد في منع الإفراط في التخصيص (Overfitting) أي عندما يتعلم النموذج التفاصيل الدقيقة للبيانات بدلا من الأنماط العامة وعادة تكون حوالي 10إلى 15% من البيانات في حين مجموعة الاختبار (Test Set) تستخدم لتقييم أداء النموذج النهائي بعد اكتمال التدريب وهذه البيانات لا تستخدم أبدا أثناء التدريب أو الضبط وهي تمثل البيانات الجديدة التي سيواجهها النموذج في العالم الحقيقي وعادة تكون أيضا حوالي 10 إلى 15% من البيانات.

فلو كان عندنا 1000 عينة بيانات سيتم تقسيمها إلى:

700 للتدريب (Training) لتعليم النموذج.

150 للتطوير (Validation) لضبط النموذج وتجنب الإفراط في التخصيص.

150 للاختبار (Test) لتقييم الأداء النهائي بشكل عادل.

الف شكراا جدا لحضرتك

جزاك الله كل خير

هو ليه بنقسم البيانات الي تدريب وتطوير واختبار لبناء نماذج الذكاء الاصطناعي ؟

السؤال

Ali Ahmed55

4 أجوبة على هذا السؤال

Recommended Posts

Kais Hasan

Ali Ahmed55

ياسر مسكين

Ali Ahmed55

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية