المعيار RepeatedKFold و تطبيقه باستخدام مكتبة scikit learn

Meezo ML · 8 يونيو 2021

ماهو المعيار RepeatedKFold وكيف يمكن تطبيقه باستخدام مكتبة scikit learn ?

Ali Haidar Ahmad · 8 يونيو 2021

هي أحد طرق تقسيم الداتا هي متل KFold ولكن تختلف عنها بأنها مجموعه من Kfold، ولكن بتنويعات أكبر، ويتم استخدامها في حالة كانت البيانات قليلة جداً وأردنا أن يكون تقييم النموذج دقيق جداً (أشار لذلك فرانسوا كوليت)، لننتقل إلى الكود البرمجي لسهولة الفهم في التطبيق
#استدعاء المكتبات:

import numpy as np
from sklearn.model_selection import RepeatedKFold

قمنا باستدعاء المكتبة numpy لتشكيل الداتا، واستدعاء الوظيفه RepeatedKFold من الوحدة model_selection في مكتبة sklearn
#تشكيل الداتا الدخل والخرج:

X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([11, 22, 33, 44])

حيث X مصفوفة أبعادها 4 أسطر وعمودين وy عمود واحد بأربع أسطر.

#RepeatedKFold
rkf = RepeatedKFold(n_splits=4, n_repeats=4)

البارمتر الأول n_splits عدد صحيح لتحديد عدد الأجزاء folds وهي افتراضية في sklearn من 3 إلى 5.
البارمتر الثاني n_repeats وهو نقطة الاختلاف عن KFolds هو عدد صحيح يمثل عدد KFolds.
نفس الأمر في Kfolds مرور حلقة حيث يتم استخدام اثنين من الاندكسات في الحلقة للمرور على التدريب والاختبار وتحوي kf.split(X) هذه الاندكسات وهنا عدد المحاولات سوف يكون في مثالنا:

n_splits*n_repeats=4*4=16

أي 4 Kfolds وكل kfold يحوي 4 تقسيمات مختلفه في كل مره.
نقوم بطباعة الاندكس للتدريب والاختبار في كل محاوله وبعدها تخزين التدريب والاختبار
ومن ثم طباعة كل منها:

for train_index, test_index in rkf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print('X_train \n' , X_train)
    print('X_test \n' , X_test)
    print('y_train \n' ,y_train)
    print('y_test \n' , y_test)
    print('*********************')

الكود كامل:

#استدعاء المكتبات
import numpy as np
from sklearn.model_selection import RepeatedKFold
#تشكيل الداتاالدخل والخرج
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([11, 22, 33, 44])
#RepeatedKFold
rkf = RepeatedKFold(n_splits=2, n_repeats=4, random_state=44)
for train_index, test_index in rkf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print('X_train \n' , X_train)
    print('X_test \n' , X_test)
    print('y_train \n' ,y_train)
    print('y_test \n' , y_test)
    print('*********************')