اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

لا يؤدي استخدام PredefinedSplit إلى تسريع تدريب النموذج بطبيعته بل يغير فقط كيفية تقسيم البيانات أثناء ضبط المعلمات الفائقة أين يتم تحديد إجمالي وقت التدريب في GridSearchCV أو RandomizedSearchCV إلى حد كبير من خلال عدد مجموعات المعلمات وعدد التقسيمات التي تقيمها لكل مجموعة.

إذا كنت تستخدم مثلا تقسيما واحدا (train/validation) بدلا من استخدام تقنيات التقسيم المتعددة (مثل 5-fold cross-validation)، فإن عدد مرات تدريب النموذج لكل تركيبة من معلمات النموذج سينخفض (من خمس مرات إلى مرة واحدة) وهذا قد يؤدي إلى تقليل الزمن الإجمالي للتدريب.

بينما يقلل استخدام تقسيم واحد من زمن التدريب فإنه قد يؤثر على قوة التقييم والموثوقية لأن التقييم يعتمد على تقسيم واحد فقط بدلا من تقييم أكثر شمولا باستخدام عدة تقسيمات وإذا كنت تستخدم بالفعل تقسيما واحدا للتدريب والتحقق، فلن يكون هناك فرق كبير في زمن التدريب عند استخدام PredefinedSplit.

  • 0
نشر

ستحدث مشاكل لو التقسيمات المُحددة مسبقًا غير مناسبة للبيانات، بمعنى PredefinedSplit مناسب للبيانات الزمنية كالتنبؤ بالأسهم، حيث يجب تجنب التقسيم العشوائي للحفاظ على التسلسل الزمني، وذلك لتحديد تقسيمات تمنع تسرب البيانات من المستقبل إلى الماضي، أو لو تريد فرض تقسيمات محددة مسبقًا كتقسيمات مستخدمة في أبحاث سابقة للمقارنة، أو الحفاظ على توزيع الفئات في كل تقسيم يدويًا.

المشاكل تكمن لو تضمنت التقسيمات المُحددة تداخلًا بين بيانات التدريب والاختبار كتضمين عينات من الاختبار في التدريب، سيُبالغ النموذج في الأداء الوهمي Overfitting أي يحدث تسرب البيانات، ولو لم تكن التقسيمات تعكس التوزيع العام للبيانات مثل فصل عينات نادرة في مجموعة واحدة فقط، سيُقلل ذلك من قدرة النموذج على التعميم، أيضًا لو استخدمت تقسيمًا واحدًا فقط مثل train_test_split بدلًا من تقاطع K-Fold، فستحصل على تقدير غير مستقر لأداء النموذج.

وكبدائل يتوفر KFold أو StratifiedKFold والتي توزع البيانات تلقائيًا بشكل عشوائي مع الحفاظ على التوازن، لكنها غير مناسبة للبيانات الزمنية أو الحالات التي تتطلب تحكم دقيقة، وفي البيانات الزمنية، الأفضل الإعتماد على TimeSeriesSplit لتقسيمات متزايدة تلقائيًا، بينما PredefinedSplit يعطيك تحكمًا كاملًا.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...