اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

إذا كان العمود مهما جدا حاول جمع البيانات المفقودة من مصدر آخر أو إعادة حسابها باستخدام مصادر خارجية، فهذا هو الحل المثالي، أو يمكنك استخدام المتوسط إذا كانت البيانات رقمية ومستقرة بهذا الشكل:

df['column_name'].fillna(df['column_name'].mean(), inplace=True)

إذا كنت تعمل على مشكلة تتعلق بالتنبؤ، يمكنك تجربة استبعاد الصفوف ذات القيم المفقودة ومقارنة الأداء، لكن هذا قد يؤدي إلى فقدان قدر كبير من البيانات أي 33% فقط متاحة.

  • 0
نشر

لا يخفى عليك أن القيم المفقودة كبيرة و بالتالي سيؤثر هذا الأمر على النتيجة بشكل كبير، مع ذلك إذا كان العمود عددي، يمكن استبدال القيم المفقودة بمتوسط القيم الموجودة، أما إذا كان هناك تباين كبير في القيم أو وجود قيم شاذة، يمكن استخدام الوسيط بدلا من المتوسط.

و إذا كان العمود يحتوي على بيانات تصنيفية، يمكن تعبئة القيم المفقودة بالنمط، أي القيمة الأكثر تكرارا بهذا الشكل لكل واحدة:

import pandas as pd

# استبدال القيم باستخدام المتوسط
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# استبدال القيم باستخدام الوسيط
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# استبدال القيم باستخدام النمط
df['column_name'].fillna(df['column_name'].mode()[0], inplace=True)

يوجد أيضا حل يمكن تطبيق حيث إذا كانت البيانات مرتبطة بعمود أو أعمدة أخرى، يمكن استخدام خوارزميات تعلم الآلة لتخمين القيم المفقودة، كاستخدام KNNImputer من مكتبة sklearn لتقدير القيم بناء على القيم الأقرب بهذا الشكل تقريبا:

from sklearn.impute import KNNImputer
import pandas as pd

imputer = KNNImputer(n_neighbors=5)  # عدد الجيران يمكن تعديله
df[['column_name']] = imputer.fit_transform(df[['column_name']])

 

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

إذا كان العمود مهم جدا فبالطبع ستحدث مشكلة حيث أنه أكثر من نصف البيانات غير موجودة ولهذا إذا كانت البيانات لديك قليلة وليست كثيرة فلن يكوم النموذج ذو دقة جيدة . ويجب عليك محاولة البحث عن مصادر أخرى للبيانات . أو يمكنك محاولة وضع قيمة إفتراضية أو إستخدام المتوسط إذا كانت البيانات عددية ولكن هذا ليس حلا جيدا.

 

  • 0
نشر

بما أنّ العمود يحتوي على 66% من القيم الفارغة فبإمكانك ملء القيم الفارغة باستخدام القيم الافتراضية (مثل 0 أو قيمة معقولة أخرى)، أو حساب القيم المفقودة باستخدام المتوسط أو الوسيط وإذا كان من الصعب ملء القيم، يمكنك استخدام تقنيات التنبؤ مثل الانحدار أو التعلم الآلي وفي حالة تأثير القيم الفارغة بشكل كبير على التحليل، قد يكون من الأفضل استبعاد الصفوف التي تحتوي على القيم الفارغة، مع التأكد من تحسين جودة البيانات في المستقبل.

  • 0
نشر

الف شكراا لحضرتكم


الا العمود مش عديدي

العمود فيه القيمه دي 

Negative: يعني أن المرض الخفي لم يُكتشف في وقت الزرع.

Positive: يعني أن المرض الخفي كان موجودًا في وقت الزرع.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...