استخدام الأداة MissingIndicator في مكتبة Sklearn لمعالجة القيم المفقودة في البيانات

Meezo ML · 26 يونيو 2021

كيفية استخدام الأداة MissingIndicator في مكتبة Sklearn لمعالجة القيم المفقودة في البيانات؟

Ali Haidar Ahmad · 26 يونيو 2021

هو أداة تستخدم لتنظيف البيانات أو معالجة البيانات قبل عملية التدريب، يستخدم في عملية تحديد وجود قيم مفقودة في البيانات حيث يرد مصفوفة بوليانية كل عمود فيها يمثل عمود في البيانات وتحوي فقط الأعمدة التي تحوي قيم مفقودة أي في حال وجود عمود لا يحوي قيم مفقودة لا يقوم بإعطاء عمود له في المصفوفة أما عند وجود قيمة مفقودة في عمود ما يتم إضافة عمود إلى المصفوفة تكون كل قيمه True و مكان القيمة المفقودة false.
يتم استخدامه عبر الموديول:

sklearn.impute

#استدعاء المكتبات:
from sklearn.impute import MissingIndicator

في البداية قمنا باستدعاء المكتبة التي يوجد فيها MissingIndicator.

#الشكل العام MissingIndicator:
MI=MissingIndicator(missing_values=nan, features='missing-only', sparse='auto')

الوسيط الأول missing_values القيمة المفقودة أي القيمة التي سوف يتم البحث عنها في البيانات و في كثير من الأمثلة تكون القيمة المفقودة Nan أو 0.
الوسيط الثاني features في حال كان هذا الوسيط يساوي missing-only بتالي سوف يتم طباعة المصفوفة البوليانة كما ذكرنا سابقا في تعريف MissingIndicator أما في حال all فسوف يتم طباعتها بالكامل مع كافة الأعمدة التي تحوي قيم مفقودة ولا تحوي قيم مفقودة.
الوسيط الثالث sparse يتحكم في طباعة المصفوفة إذا كان auto تكون المصفوفة مثل مصفوفة الدخل واذا كان false سوف تكون المصفوفة كاملة أيضا إذا كان true فسوف تكون المصفوفة بدون الميزات التي لا تحوي قيم مفقودة لذلك يتم وضعه auto لترك MissingIndicator يقرر المناسب.
طريقة استخدامه:

MI=MissingIndicator(missing_values=nan, features='missing-only', 
                    sparse='auto')
MI.fit_transform(X)

حيث الدالة fit_transform يوجد ضمنها جميع العمليات الداخلية لعملية حساب القيم و تطبيقها على البيانات.
لنأخذ مثال يوضح MissingIndicator.

#استدعاء المكتبات
import numpy as np
from sklearn.impute import MissingIndicator
#تعين داتا دخل مزيفة
X = np.array([[np.nan, 2, 3],
                [0, 1, np.nan],
                [8, 3, 0]])
#طباعة القيم الناتجه لمعرفة مكان القيم المفقوده 
MI=MissingIndicator(missing_values=np.nan, features='missing-only',sparse=False)
MI.fit_transform(X)
#النتيجة
array([[ True, False],
       [False,  True],
       [False, False]])