اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

نعم، البيانات الجيدة مع نموذج بسيط في الغالب ما تكون أفضل بكثير من بيانات سيئة مع نموذج معقد.

حيث  البيانات الجيدة تعني بيانات نظيفة ودقيقة وممثلة للمشكلة التي لدينا ومتوازنة وموزعة بشكل جيد ولهذا يتسطيع النموذج البسيط التعامل معها بشكل صحيح وأكثر كفاءة .

حيث النموذج لا يستطيع تصحيح البيانات السيئة وإذا كانت البيانات غير دقيقة أو تحتوي على ضجيج (noise) أو قيم متطرفة كثيرة فلن يفيدك حتى أقوى النماذج.

أما النموذج البسيط يمكنه الأداء الممتاز إذا كانت البيانات واضحة وممثلة بشكل جيد وأحيانا الانحدار الخطي يتفوق على شبكة عصبية إذا كانت البيانات قوية وواضحة.

والبيانات السيئة  تعني نموذج يتعلم أشياء خاطئة والنموذج المعقد قد يحفظ البيانات السيئة (overfitting) بدلًا من أن يتعلم منها.

لذلك ابدأ دائما بتحسين جودة البيانات ثم يمكنك بعد ذلك التفكير في تعقيد النموذج.

  • 0
نشر

جودة البيانات هي الأهم بالطبع، لكونها تُحسن من الضجيج والانحياز معاً، بينما زيادة تعقيد النموذج في وجود بيانات رديئة ترفع التباين بدرجة أكبر من الفائدة.

بالتالي جودة البيانات في المرتبة الأولى ثم زد تعقيد النموذج عند الحاجة، وتلك استراتيجية تؤدي إلى أعلى دقة، أفضل قابلية تعميم، وتكلفة معالجة أقل.

ففي الواقع العملي البيانات عالية الجودة تتطلب وقت ومال، لكن الاستثمار يُدفع مرّة واحدة ويُستخدم لأي نموذج لاحق، واعتماد نموذج معقد فوق بيانات رديئة سيخفي المشاكل لفترة، لكنه يزيد من خطر الفشل عند الانتقال إلى بيئة الإنتاج وذلك يُعرف باسم data-shift.

عليك بالتالي:

  1. ابدأ بتقييم جودة البيانات بتفقد القيم المفقودة، تشويش، أخطاء وضع العلامة، تحيز التوزيع.
  2. نظف البيانات، حسن التسميات، أضف ميزات مشتقة، ووازن الطبقات.
  3. درب نموذج بسيط من خلال Logistic Regression، Random Forest، XGBoost مع إعدادات افتراضية وحقق baseline قوي.
  4. استعن بنماذج أكثر تعقيداً فقط عندما يتشبع المنحنى ويصبح تحسين الدقة مكلف بالطرق التقليدية.
  5. راقب مقاييس التعميم Cross-Validation، Learning Curves للتأكد من أن زيادة التعقيد لا ترفع فجوة التدرب والاختبار.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...