Ali Ahmed55 نشر الخميس في 18:42 أرسل تقرير نشر الخميس في 18:42 السلام عليكم هو اي الفرق مابين MinMaxScaler - StandardScaler - RandomOverSampler ؟ 2 اقتباس
0 محمد عاطف17 نشر الخميس في 18:56 أرسل تقرير نشر الخميس في 18:56 وعليكم السلام ورحمة الله وبركاته. إن ال MinMaxScaler يستخدم لتغيير نطاق البيانات بحيث تكون ضمن نطاق محدد غالبا ما يكون بين 0 و 1. حيث يقوم بتحويل البيانات بحيث تكون القيمة الدنيا 0 والقيمة العليا 1. يتم ذلك باستخدام القانون التالي: Xscaled = (X − Xmin) / (Xmax − Xmin) وهو جيد عندما تكون البيانات في نطاقات مختلفة وتحتاج إلى تطبيع البيانات وتريد أن تكون جميع الميزات (features) على نفس النطاق خصوصا في خوارزميات التعلم الآلي و التي تعتمد على المسافات مثل K-Nearest Neighbors (KNN) أو الشبكات العصبية. أما ال StandardScaler فهو يستخدم لتوحيد البيانات بحيث يكون لها متوسط (mean) يساوي 0 وانحراف معياري (standard deviation) يساوي 1. ويتم ذلك باستخدام القانون التالي: Xscaled = (X − μ) / σ حيث μ هو المتوسط وσ هو الانحراف المعياري. وهو جيد عندما عندما تكون البيانات لا تتبع توزيع معين (مثل توزيع Gaussian) و تريد أن تكون البيانات موزعة بشكل طبيعي بمتوسط 0 وانحراف معياري 1 وهو مناسبة لمعظم خوارزميات التعلم الآلي مثل الانحدار الخطي (Linear Regression) و (SVM). أما ال RandomOverSampler فهو يستخدم لمعالجة مشكلة عدم التوازن في الفئات (Imbalanced Classes) في بيانات التصنيف حيث يقوم بإنشاء نسخ عشوائية من العينات في الفئة الأقل تمثيلا في البيانات و يزيد حجمها حتى تصبح متوازنة مع الفئات الأخرى. وهو جيد عندما تكون إحدى الفئات لديك في مجموعة البيانات قليلة مقارنة بالفئات الأخرى مما قد يسبب في تحيز النموذج نحو الفئة الأكثر. تلخيصا لما سبق فإن MinMaxScaler و StandardScaler نستخدمهما لتغيير نطاق أو توزيع البيانات لكنها تختلف في الطريقة التي تقوم بذلك بها وRandomOverSampler يستخدم لمعالجة مشكلة عدم التوازن في الفئات وليس لتغيير نطاق البيانات. 1 اقتباس
0 Ali Ahmed55 نشر الخميس في 18:59 الكاتب أرسل تقرير نشر الخميس في 18:59 بتاريخ 2 دقائق مضت قال محمد عاطف17: وعليكم السلام ورحمة الله وبركاته. إن ال MinMaxScaler يستخدم لتغيير نطاق البيانات بحيث تكون ضمن نطاق محدد غالبا ما يكون بين 0 و 1. حيث يقوم بتحويل البيانات بحيث تكون القيمة الدنيا 0 والقيمة العليا 1. يتم ذلك باستخدام القانون التالي: Xscaled = (X − Xmin) / (Xmax − Xmin) وهو جيد عندما تكون البيانات في نطاقات مختلفة وتحتاج إلى تطبيع البيانات وتريد أن تكون جميع الميزات (features) على نفس النطاق خصوصا في خوارزميات التعلم الآلي و التي تعتمد على المسافات مثل K-Nearest Neighbors (KNN) أو الشبكات العصبية. أما ال StandardScaler فهو يستخدم لتوحيد البيانات بحيث يكون لها متوسط (mean) يساوي 0 وانحراف معياري (standard deviation) يساوي 1. ويتم ذلك باستخدام القانون التالي: Xscaled = (X − μ) / σ حيث μ هو المتوسط وσ هو الانحراف المعياري. وهو جيد عندما عندما تكون البيانات لا تتبع توزيع معين (مثل توزيع Gaussian) و تريد أن تكون البيانات موزعة بشكل طبيعي بمتوسط 0 وانحراف معياري 1 وهو مناسبة لمعظم خوارزميات التعلم الآلي مثل الانحدار الخطي (Linear Regression) و (SVM). أما ال RandomOverSampler فهو يستخدم لمعالجة مشكلة عدم التوازن في الفئات (Imbalanced Classes) في بيانات التصنيف حيث يقوم بإنشاء نسخ عشوائية من العينات في الفئة الأقل تمثيلا في البيانات و يزيد حجمها حتى تصبح متوازنة مع الفئات الأخرى. وهو جيد عندما تكون إحدى الفئات لديك في مجموعة البيانات قليلة مقارنة بالفئات الأخرى مما قد يسبب في تحيز النموذج نحو الفئة الأكثر. تلخيصا لما سبق فإن MinMaxScaler و StandardScaler نستخدمهما لتغيير نطاق أو توزيع البيانات لكنها تختلف في الطريقة التي تقوم بذلك بها وRandomOverSampler يستخدم لمعالجة مشكلة عدم التوازن في الفئات وليس لتغيير نطاق البيانات. الف شكراا جدا لحضرتك جزاك الله كل خير 1 اقتباس
0 Mustafa Suleiman نشر الخميس في 19:17 أرسل تقرير نشر الخميس في 19:17 MinMaxScaler أو تطبيع القيم بين حدين، هو لتحويل الميزات أي التعليمات إلى نطاق مُحدد [0, 1] أو [-1, 1] عن طريق إزالة القيمة الدنيا وتقسيم المدى. X_scaled = (X - X_min) / (X_max - X_min) مناسب للحفاظ على توزيع البيانات الأصلي غير الطبيعي، وفي الخوارزميات الحساسة للنطاق الرقمي كالشبكات العصبية أو خوارزميات المسافات مثل KNN، أو عند الحاجة إلى قيم مُحددة كالصور حيث تكون البكسلات بين 0 و255. للتوضيح، لو البيانات بين 10 و20، تصبح بعد التطبيع: 10 > 0 15 > 0.5 20 > 1 أما StandardScaler التوحيد القياسي فذلك لتحويل الميزات لتكون لها متوسط = 0 و انحراف معياري = 1 عن طريق إزالة المتوسط وتقسيم على الانحراف المعياري. X_scaled = (X - μ) / σ ومناسب لتتبع البيانات توزيعًا طبيعيًا أو قريبًا منه، وفي الخوارزميات التي تفترض أن البيانات مُوحدة مثل SVM والانحدار الخطي، أيضًا في حال القيم المتطرفة موجودة، لكنها ليست شديدة التأثير. أي لو المتوسط = 100 والانحراف المعياري = 10: 100 > 0 110 > 1 90 > 1 RandomOverSampler تعني إعادة العينات العشوائية، وهي لمعالجة عدم التوازن في الفئات في بيانات التصنيف عن طريق تكرار عينات الفئة الأقل (الأقلية) حتى تتساوى مع الفئة الأغلبية. مناسبة لو إحدى الفئات نادرة مقارنةً بالأخرى كحالات الاحتيال النادرة في البيانات المصرفية، ولتحسين أداء النموذج على الفئة الأقل تمثيلًا، أو قبل تدريب النموذج، خاصةً في خوارزميات حساسة للتوازن مثل أشجار القرار. بالتالي لو لديك 100 عينة من الفئة أ و10 عينات من الفئة ب، سيُنشئ العينات لتصبح 100 عينة لكل فئة عن طريق تكرار عينات الفئة ب. 1 اقتباس
0 Ali Ahmed55 نشر الخميس في 19:43 الكاتب أرسل تقرير نشر الخميس في 19:43 الف شكراا جدا لحضرتك جزاك الله كل خير اقتباس
السؤال
Ali Ahmed55
السلام عليكم
هو اي الفرق مابين MinMaxScaler - StandardScaler - RandomOverSampler ؟
4 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.