Ali Ahmed55 نشر 27 فبراير أرسل تقرير نشر 27 فبراير السلام عليكم هو لو الخاصيه دي subsample قيمتها 0.7 هل معني كده ان الXGBoost هيستخدم 70% بس من البيانات والباقي الا ؟ 2 اقتباس
0 Mustafa Suleiman نشر 27 فبراير أرسل تقرير نشر 27 فبراير قبل بناء كل شجرة، ما يحدث هو اختيار 70% من بيانات التدريب عشوائيًا بدون إحلال لتدريب الشجرة، والـ30% المتبقية لا تُستخدم في بناء تلك الشجرة تحديدًا. وفي كل مرة تُبنى فيها شجرة جديدة أثناء عملية التعزيز التسلسلي، تُختار عينة جديدة بنسبة 70% من بيانات التدريب، بالتالي أحيانًا يُعتمد على بعض نقاط البيانات في أكثر من شجرة، وأيضًا تُستبعد بعض النقاط في أشجار معينة، وربما تُستخدم في أشجار لاحقة. وذلك لتقليل التباين ومنع الانحياز الزائد overfitting عن طريق زيادة تنويع الأشجار عبر تعريضها لجزء مختلف من البيانات في كل خطوة، حيث subsample يتحكم في نسبة الصفوف أي العينات المستخدمة لكل شجرة، وcolsample_bytree يتحكم في نسبة الأعمدة وهي الميزات المستخدمة لكل شجرة. إذن في وجود 1000 عينة تدريب، عند بناء الشجرة الأولى، ستُستخدم 700 عينة عشوائية (70%)، وتُهمل 300 عينة، وفي بناء الشجرة الثانية، تُختار 700 عينة جديدة عشوائيًا ربما تتضمن بعض العينات من الـ700 السابقة، وتستمر العملية حتى اكتمال جميع الأشجار. 1 اقتباس
0 محمد عاطف17 نشر 27 فبراير أرسل تقرير نشر 27 فبراير وعليكم السلام ورحمة الله وبركاته. نعم إذا كانت قيمة المعامل subsample في نموذج XGBoost تساوي 0.7 فهذا يعني أن النموذج سيستخدم 70% فقط من بيانات التدريب في كل عملية بناء شجرة أو تكرار. و ال 30% المتبقية لن تستخدم. حيث subsample يقوم باختيار العينات بشكل عشوائي من بيانات التدريب في كل تكرار. و هذه الطريقة تساعد في تقليل overfitting لأنها تجعل النموذج يعتمد على عينات مختلفة في كل مرة، مما يزيد من تعميم النموذج. 1 اقتباس
0 Ali Ahmed55 نشر 27 فبراير الكاتب أرسل تقرير نشر 27 فبراير تمام جدا الف شكراا جدا لحضرتكم جزاكم الله كل خير اقتباس
السؤال
Ali Ahmed55
السلام عليكم
هو لو الخاصيه دي subsample قيمتها 0.7 هل معني كده ان الXGBoost هيستخدم 70% بس من البيانات والباقي الا ؟
3 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.