اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

الأفضل عموما أن تبدأ أولا بمعالجة القيم المفقودة قبل القيام بعملية استخراج الميزات، لأن القيم المفقودة يمكن أن تؤثر على حساب الميزات أو تجعل بعض العمليات تفشل أصلا. لأن الميزات المستخرجة ستعتمد على البيانات المتوفرة، وإذا لم تعالج القيم الناقصة مسبقا قد تدخل تشويشا أو أخطاء في النتائج.

  • 0
نشر

من الأفضل أن تبدأ بمعالجة القيم المفقودة قبل القيام بأي خطوة لاستخراج الميزات، و السبب أن وجود القيم الناقصة قد يؤثر على دقة وموثوقية النتائج في أي مرحلة لاحقة، سواء أثناء التحليل أو النمذجة، وأيضا استخراج الميزات يعتمد على البيانات المتوفرة، فإذا لم تكن البيانات مكتملة أو نظيفة، ستصبح الميزات الناتجة غير مستقرة أو قد تحمل ضوضاء لا داعي لها، لهذا الترتيب مهم جدا لضمان جودة سير العمل وتحقيق أفضل أداء ممكن للنموذج أو التحليل في النهاية.

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.
دائماً ابدأ بمعالجة القيم المفقودة الأول  حيث يعتبر ذلك  الـ best practice المتفق عليه في مجال Data Science نظراً للأسباب التالية

أولاً معظم خوارزميات استخراج الميزات لا تستطيع التعامل مع القيم المفقودة وأدوات القياس المعياري تظهر أخطاء عند مواجهة القيم الفارغة كما أن العمليات الإحصائية كحساب المتوسط والانحراف المعياري تتأثر سلباً بوجود القيم المفقودة والعديد من الأسباب الأخرى.

  • 0
نشر

حسب نوع البيانات، فلو رقمية ستحتاج معالجة مبكرة للعمليات الحسابية، ولو فئوية بإمكانك اعتبار "مفقود" كفئة منفصلة، ولو نصية فاستخراج الميزات يتعامل مع القيم المفقودة تلقائيًا.

الأفضل الدمج بين الطريقتين، بمعنى تحليل القيم المفقودة وفهم نمطها ثم إنشاء مؤشرات للقيم المفقودة في حال كانت مفيدة، ثم معالجة بعض القيم المفقودة الضرورية، ثم استخراج الميزات وبعد ذلك معالجة أي قيم مفقودة متبقية.

ولو أردت تنفيذ أحد الطريقتين، فمعالجة القيم المفقودة أولاً ثم استخراج الميزات مناسبة في حال  الميزات المستخرجة تعتمد على قيم كاملة، ومع العمليات الحسابية مثل المتوسطات أو الانحرافات المعيارية، وعند استخدام تقنيات تتطلب بيانات كاملة.

أما استخراج الميزات أولاً ثم معالجة القيم المفقودة  مناسبة للحفاظ على معلومات القيم المفقودة، وإنشاء ميزات تشير إلى وجود قيم مفقودة، ومع البيانات الفئوية حيث "مفقود" أحيانًا تصبح فئة مهمة.

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

الأمر يعتمد على طبيعة البيانات والمشكلة التي تعمل عليها ولكن بشكل عام فالأفضل هو معالجة القيم المفقودة أولا قبل استخراج الميزات.

وإليك سبب معالجة القيم المفقودة أولا :

  • جودة البيانات: حيث القيم المفقودة قد تؤثر بشكل كبير على عملية استخراج الميزات وإن العديد من خوارزميات استخراج الميزات مثل الخوارزميات التي تعتمد على الحسابات الرياضية تتطلب بيانات كاملة ونظيفة وإذا تم ترك القيم المفقودة دون معالجة قد تؤدي إلى نتائج غير دقيقة أو أخطاء في الخوارزميات.
  • إذا قمت باستخراج الميزات قبل معالجة القيم المفقودة فقد تتسبب القيم المفقودة في إنشاء ميزات تحتوي على تحيز مما يؤثر على أداء النموذج.
  • ومعالجة القيم المفقودة مثل الاستبدال بالمتوسط أو الوسيط أو استخدام خوارزميات مثل KNN Imputation تجعل البيانات جاهزة مباشرة لإستخراج الميزات وذلك يضمن لك أن الميزات المستخرجة تظهر الخصائص الحقيقية للبيانات.

ولكن متى نستخرج الميزات أولا ؟ في حالات قليلة قد ترغب في استخراج الميزات قبل معالجة القيم المفقودة ولكن هذا الأمر يعتمد على المشكلة أو الشئ الذي تريد تحقيقه فإذا كانت الميزات المستخرجة لا تعتمد على القيم المفقودة مثلا لو كنت تستخرج ميزات من بيانات نصية أو من بيانات لا تتأثر بشكل مباشر بالقيم المفقودة. أو إذا كنت تستخدم خوارزميات معينة تتعامل مع القيم المفقودة تلقائيا فهناك بعض الخوارزميات مثل بعض نماذج الشجرة (Tree-based models) يمكنها التعامل مع القيم المفقودة بشكل داخلي مما قد يقلل من الحاجة إلى معالجتها أولا.

ولذلك أولا يجب عليك فهم طبيعة القيم المفقودة لأن ذلك سيؤثر على طريقة المعالجة. وأيضا إذا كنت غير متأكد يمكنك تجربة الترتيبين معالجة القيم المفقودة أولا أو استخراج الميزات أولا وقارن أداء النموذج باستخدام مقاييس مثل الدقة أو F1-score.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...