هو امتي اقسم البيانات الي تدريب - تطواير - اختبار وامتي تدريب - اختبار بس ؟

Ali Ahmed55 · 21 فبراير

السلام عليكم

Abdulrahman Muhammad · 21 فبراير

متى يتم تقسيم البيانات إلى (تدريب - تطوير - اختبار) ومتى يكون (تدريب - اختبار) كافيًا؟

أولًا: فهم الفرق بين الأقسام الثلاثة

عند العمل على تدريب نموذج في التعلم الآلي، يمكن تقسيم البيانات إلى:

مجموعة التدريب (Training Set) → تُستخدم لتدريب النموذج.
مجموعة التطوير/التحقق (Validation Set) → تُستخدم لضبط المعلمات وتحسين الأداء وتجنب overfitting.
مجموعة الاختبار (Test Set) → تُستخدم لتقييم أداء النموذج النهائي على بيانات جديدة لم تُستخدم أثناء التدريب.

اقتباس

متى نستخدم (تدريب - اختبار) فقط؟

إذا كان لديك مجموعة بيانات صغيرة، فمن الأفضل الاكتفاء بتقسيم البيانات إلى:

80% تدريب (Train)
20% اختبار (Test)

لكن! في هذه الحالة، قد لا يكون لديك وسيلة لضبط المعلمات بشكل دقيق، مما قد يؤدي إلى Overfitting.
لذلك، هذه الطريقة تناسب النماذج البسيطة أو عندما يكون لديك بيانات محدودة جدًا.

اقتباس

متى نستخدم (تدريب - تطوير - اختبار)؟

إذا كان لديك مجموعة بيانات كبيرة وترغب في ضبط أداء النموذج، فمن الأفضل التقسيم إلى ثلاث مجموعات:

70% تدريب (Train) → لتعليم النموذج.
15% تطوير/تحقق (Validation) → لضبط المعلمات وتقليل Overfitting.
15% اختبار (Test) → لتقييم النموذج النهائي.

هذه الطريقة مناسبة عند العمل مع نماذج معقدة مثل الشبكات العصبية العميقة (Deep Learning) أو عند الحاجة إلى ضبط الهايبر باراميترز (Hyperparameters).

اقتباس

الخلاصة

إذا كان لديك بيانات صغيرة: استخدم تدريب - اختبار فقط.
إذا كان لديك بيانات كبيرة وتحتاج لضبط المعلمات: استخدم تدريب - تطوير - اختبار.
إذا كان لديك بيانات قليلة لكن تريد تقييمًا أكثر دقة: استخدم K-Fold Cross Validation.

الاختيار يعتمد على حجم البيانات وتعقيد النموذج!

========================================================

اقتباس

دور مجموعة التحقق (Validation Set) ولماذا هي مهمة؟

ما هي مجموعة التحقق؟

هي مجموعة بيانات منفصلة عن بيانات التدريب والاختبار، تُستخدم أثناء التدريب لتقييم أداء النموذج وضبط المعلمات دون التأثير على التقييم النهائي.

لماذا نستخدم مجموعة التحقق؟

1.ضبط الهايبر باراميترز (Hyperparameters Tuning):

تساعد في اختيار المعلمات المثلى مثل معدل التعلم، عدد الطبقات في الشبكة العصبية، وغيرها.

2. تجنب Overfitting:

إذا كان الأداء على التدريب جيدًا لكن سيئًا على التحقق، فهذا يعني أن النموذج قد حفظ البيانات بدلاً من تعميمها.

3. وقف التدريب المبكر (Early Stopping):

عندما نلاحظ أن الأداء على التحقق بدأ في التراجع رغم تحسن التدريب، فهذا مؤشر على ضرورة التوقف لتجنب Overfitting.

اقتباس

مثال عملي لاستخدام مجموعة التحقق

لديك بيانات وتصمم شبكة عصبية لتصنيف الصور، يمكنك تقسيمها كالتالي:

70% تدريب → لتعليم النموذج
15% تحقق → لضبط المعلمات والتحقق من التحسين
15% اختبار → للتقييم النهائي

إذا وجدت أن دقة التحقق لا تتحسن أو تتراجع بينما دقة التدريب تزيد، فهذا يعني Overfitting ويجب تعديل المعلمات.

اقتباس

متى يمكن الاستغناء عن مجموعة التحقق؟

عند استخدام K-Fold Cross Validation، حيث نقسم البيانات إلى K أجزاء ويتم التحقق مع كل تكرار.
عندما يكون لديك بيانات قليلة جدًا، فتقسمها إلى تدريب واختبار فقط لتوفير أكبر كمية ممكنة من البيانات للتدريب.

الخلاصة:

مجموعة التحقق ضرورية لضبط المعلمات وتجنب Overfitting.
تُستخدم لاختيار النموذج الأفضل قبل تقييمه على بيانات الاختبار.
بدونها، قد يكون النموذج غير عامّ ويعمل جيدًا فقط على البيانات التي تدرب عليها.

تم التعديل في 21 فبراير بواسطة Abdulrahman Muhammad
بعض التعديلات في التنسيق لرؤية وتوضيح أفضل

Ali Ahmed55 · 21 فبراير

الف شكراا جدا لحضرتك

جزاك الله كل خير

هو امتي اقسم البيانات الي تدريب - تطواير - اختبار وامتي تدريب - اختبار بس ؟

السؤال

Ali Ahmed55

2 أجوبة على هذا السؤال

Recommended Posts

Abdulrahman Muhammad

Ali Ahmed55

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية