هو ازي اقدر ان اقسم البيانات الي تدريب - تطواير - اختبار بس يكون نفس التوزيع ؟

Ali Ahmed55 · 17 فبراير

السلام عليكم

محمد_عاطف · 17 فبراير

وعليكم السلام ورحمة الله وبركاته.

أولا قبل التقسيم يجب عليك التأكد من أن الفئات أو التصنيفات التي لديك في البيانات متوازنة أيضا. فإذا كانت البيانات نفسها غير متوازنة مثل وجود فئة أكثر من الأخرى فستحتاج إلى استخدام تقنيات مثل Stratified Sampling لتستطيع الحفاظ على نفس النسبة في كل مجموعة.

حيث يمكنك من استخدام train_test_split مع stratify للحفاظ على نفس التوزيع في كل مجموعة :

from sklearn.model_selection import train_test_split

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp)

هنا test_size=0.3 تعني أننا نريد 30% من البيانات أن تكون في مجموعة التطوير والاختبار.

و stratify=y تضمن أن التوزيع في الفئات y سيكون متشابها في جميع المجموعات. حيث أن X هي البيانات و إن y هي الفئات.

ويمكنك قراءة المزيد حول stratify في مكتبة scikit-learn من خلال الرابط :

https://scikit-learn.org/stable/modules/cross_validation.html#stratification

Ali Ahmed55 · 17 فبراير

الف شكراا جدا جدا لحضرتك جزاك الله كل خير

هو ازي اقدر ان اقسم البيانات الي تدريب - تطواير - اختبار بس يكون نفس التوزيع ؟

السؤال

Ali Ahmed55

2 أجوبة على هذا السؤال

Recommended Posts

محمد_عاطف

Ali Ahmed55

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية