Ali Ahmed55 نشر 1 يونيو أرسل تقرير نشر 1 يونيو السلام عليكم هو اي الافضل ان ابدا الاول اعمل معالجة القيم المفقودة في البيانات ثم استخراج الميزات (Feature Extraction) والا العكس والا اصلا مش هتفرق ؟ 3 اقتباس
0 Chihab Hedidi نشر 1 يونيو أرسل تقرير نشر 1 يونيو الأفضل عموما أن تبدأ أولا بمعالجة القيم المفقودة قبل القيام بعملية استخراج الميزات، لأن القيم المفقودة يمكن أن تؤثر على حساب الميزات أو تجعل بعض العمليات تفشل أصلا. لأن الميزات المستخرجة ستعتمد على البيانات المتوفرة، وإذا لم تعالج القيم الناقصة مسبقا قد تدخل تشويشا أو أخطاء في النتائج. 1 اقتباس
0 عبد الوهاب بومعراف نشر 1 يونيو أرسل تقرير نشر 1 يونيو من الأفضل أن تبدأ بمعالجة القيم المفقودة قبل القيام بأي خطوة لاستخراج الميزات، و السبب أن وجود القيم الناقصة قد يؤثر على دقة وموثوقية النتائج في أي مرحلة لاحقة، سواء أثناء التحليل أو النمذجة، وأيضا استخراج الميزات يعتمد على البيانات المتوفرة، فإذا لم تكن البيانات مكتملة أو نظيفة، ستصبح الميزات الناتجة غير مستقرة أو قد تحمل ضوضاء لا داعي لها، لهذا الترتيب مهم جدا لضمان جودة سير العمل وتحقيق أفضل أداء ممكن للنموذج أو التحليل في النهاية. 1 اقتباس
0 عبدالباسط ابراهيم نشر 1 يونيو أرسل تقرير نشر 1 يونيو وعليكم السلام ورحمة الله وبركاته. دائماً ابدأ بمعالجة القيم المفقودة الأول حيث يعتبر ذلك الـ best practice المتفق عليه في مجال Data Science نظراً للأسباب التالية أولاً معظم خوارزميات استخراج الميزات لا تستطيع التعامل مع القيم المفقودة وأدوات القياس المعياري تظهر أخطاء عند مواجهة القيم الفارغة كما أن العمليات الإحصائية كحساب المتوسط والانحراف المعياري تتأثر سلباً بوجود القيم المفقودة والعديد من الأسباب الأخرى. 1 اقتباس
0 Ali Ahmed55 نشر 1 يونيو الكاتب أرسل تقرير نشر 1 يونيو الف شكرااا جدا لحضرتكم جزاكم الله كل خير اقتباس
0 Mustafa Suleiman نشر 2 يونيو أرسل تقرير نشر 2 يونيو حسب نوع البيانات، فلو رقمية ستحتاج معالجة مبكرة للعمليات الحسابية، ولو فئوية بإمكانك اعتبار "مفقود" كفئة منفصلة، ولو نصية فاستخراج الميزات يتعامل مع القيم المفقودة تلقائيًا. الأفضل الدمج بين الطريقتين، بمعنى تحليل القيم المفقودة وفهم نمطها ثم إنشاء مؤشرات للقيم المفقودة في حال كانت مفيدة، ثم معالجة بعض القيم المفقودة الضرورية، ثم استخراج الميزات وبعد ذلك معالجة أي قيم مفقودة متبقية. ولو أردت تنفيذ أحد الطريقتين، فمعالجة القيم المفقودة أولاً ثم استخراج الميزات مناسبة في حال الميزات المستخرجة تعتمد على قيم كاملة، ومع العمليات الحسابية مثل المتوسطات أو الانحرافات المعيارية، وعند استخدام تقنيات تتطلب بيانات كاملة. أما استخراج الميزات أولاً ثم معالجة القيم المفقودة مناسبة للحفاظ على معلومات القيم المفقودة، وإنشاء ميزات تشير إلى وجود قيم مفقودة، ومع البيانات الفئوية حيث "مفقود" أحيانًا تصبح فئة مهمة. 1 اقتباس
0 محمد_عاطف نشر 2 يونيو أرسل تقرير نشر 2 يونيو وعليكم السلام ورحمة الله وبركاته. الأمر يعتمد على طبيعة البيانات والمشكلة التي تعمل عليها ولكن بشكل عام فالأفضل هو معالجة القيم المفقودة أولا قبل استخراج الميزات. وإليك سبب معالجة القيم المفقودة أولا : جودة البيانات: حيث القيم المفقودة قد تؤثر بشكل كبير على عملية استخراج الميزات وإن العديد من خوارزميات استخراج الميزات مثل الخوارزميات التي تعتمد على الحسابات الرياضية تتطلب بيانات كاملة ونظيفة وإذا تم ترك القيم المفقودة دون معالجة قد تؤدي إلى نتائج غير دقيقة أو أخطاء في الخوارزميات. إذا قمت باستخراج الميزات قبل معالجة القيم المفقودة فقد تتسبب القيم المفقودة في إنشاء ميزات تحتوي على تحيز مما يؤثر على أداء النموذج. ومعالجة القيم المفقودة مثل الاستبدال بالمتوسط أو الوسيط أو استخدام خوارزميات مثل KNN Imputation تجعل البيانات جاهزة مباشرة لإستخراج الميزات وذلك يضمن لك أن الميزات المستخرجة تظهر الخصائص الحقيقية للبيانات. ولكن متى نستخرج الميزات أولا ؟ في حالات قليلة قد ترغب في استخراج الميزات قبل معالجة القيم المفقودة ولكن هذا الأمر يعتمد على المشكلة أو الشئ الذي تريد تحقيقه فإذا كانت الميزات المستخرجة لا تعتمد على القيم المفقودة مثلا لو كنت تستخرج ميزات من بيانات نصية أو من بيانات لا تتأثر بشكل مباشر بالقيم المفقودة. أو إذا كنت تستخدم خوارزميات معينة تتعامل مع القيم المفقودة تلقائيا فهناك بعض الخوارزميات مثل بعض نماذج الشجرة (Tree-based models) يمكنها التعامل مع القيم المفقودة بشكل داخلي مما قد يقلل من الحاجة إلى معالجتها أولا. ولذلك أولا يجب عليك فهم طبيعة القيم المفقودة لأن ذلك سيؤثر على طريقة المعالجة. وأيضا إذا كنت غير متأكد يمكنك تجربة الترتيبين معالجة القيم المفقودة أولا أو استخراج الميزات أولا وقارن أداء النموذج باستخدام مقاييس مثل الدقة أو F1-score. 1 اقتباس
0 Ali Ahmed55 نشر 2 يونيو الكاتب أرسل تقرير نشر 2 يونيو الف شكراا جدا لحضرتكم جزاكم الله كل خير اقتباس
السؤال
Ali Ahmed55
السلام عليكم
هو اي الافضل ان ابدا الاول اعمل معالجة القيم المفقودة في البيانات ثم استخراج الميزات (Feature Extraction) والا العكس والا اصلا مش هتفرق ؟
7 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.