هل من الطبيعي ان يكون ال train_labels 5 اعمده فقط ولكن الvalidation_labels بيتكون من 123 عمود ؟

Ali Ahmed55 · 18 مارس

السلام عليكم

هو عادي ان يكون الtrain_labels 5 اعمده فقط ولكن الvalidation_labels بيتكون من 123 عمود ؟

محمد_عاطف · 18 مارس

وعليكم السلام ورحمة الله وبركاته.

لا ليس من العادي أن يكون لديك عدد أعمدة مختلف بين بيانات الو validation_labels. وغالبا يجب أن يكون لديك نفس عدد الأعمدة في كل من train_labels و validation_labels لأنها تمثل نفس النوع من البيانات .

حيث إذا كان لديك 5 أعمدة في train_labels و 123 عمودًا في validation_labels فهنا توجود مشكلة إما في طريقة تحضير البيانات أو في تقسيم البيانات إلى مجموعات التدريب والتحقق.

لذلك يجب يكون لديك نفس عدد الأعمدة في كل من train_labels و validation_labels لضمان أن النموذج يمكنه التعلم والتحقق بشكل صحيح.

Mustafa Suleiman · 18 مارس

على حسب نوع المشكلة، ففي حالة التصنيف متعدد الفئات Multi-Class Classification، لو لديك عدد مختلف من الفئاتبين مجموعة التدريب ومجموعة التحقق، فيعني مشكلة في تقسيم البيانات، فيجب أن تكون الفئات متسقة بين المجموعتين، لكن لو مجموعة التحقق تحتوي على فئات إضافية مثل 123 فئة مقابل 5 فقط في التدريب، فيعني أن بيانات التحقق أكثر تنوعًا أوهناك خطأ في المعالجة المسبقة.

وبالنسبة للتصنيف متعدد العلامات Multi-Label Classification، فمن الطبيعي أن يحتوي كل مثال على أكثر من علامة label، أي يتوافر عدد مختلف من الأعمدة بسبب أنّ مجموعة التحقق تحتوي على علامات إضافية لم تظهر في مجموعة التدريب، لكن ذلك سيؤدي إلى صعوبة في تقييم النموذج بشكل صحيح.

أو ربما الفرق ناتجًا بسبب طريقة تحويل البيانات أي One-Hot Encoding أو Label Encoding، حيث إن تم تطبيق التحويل بشكل مختلف بين المجموعتين، فسينتج عن ذلك عدد أعمدة مختلف.

بالتالي من الأفضل أن تتأكد من اتساق البيانات بين مجموعتي التدريب والتحقق، حيث عدد الأعمدة في train_labels وvalidation_labels متساويًا، ما لم يكن هناك سبب محدد كإضافة بيانات جديدة للتحقق فقط، ثم تفقد خطوات المعالجة للبيانات من المفترض أن تكون موحدة.

Chihab Hedidi · 18 مارس

يجب أن يكون عدد الأعمدة في train_labels و validation_labels متساويا، حيث يمثل كل عمود فئة أو سمة متعلقة بالبيانات التي يتم استخدامها في النموذج، و إذا كان train_labels يحتوي على 5 أعمدة بينما validation_labels يحتوي على 123 عمود، فهذا يشير إلى وجود خلل في معالجة البيانات، و أحد الأسباب المحتملة هو عدم تناسق في تحويل التصنيفات إلى تنسيق One-Hot Encoding، حيث قد تكون بعض الفئات موجودة في بيانات التحقق ولكنها غير ممثلة في بيانات التدريب، كما قد يكون هناك خطأ في تقسيم البيانات أدى إلى فقدان بعض الأعمدة، أو اختلاف في مراحل المعالجة المسبقة مثل إزالة الأعمدة أو استبدال القيم المفقودة بطريقة غير متسقة بين المجموعتين، للتحق من ذلك يمكن طباعة أبعاد المصفوفات ومقارنة أسماء الأعمدة في كل من train_labels و validation_labels. في حال وجود اختلافات، يمكن استخدام align من pandas لتوحيد الأعمدة وإعادة ضبط القيم المفقودة إلى الصفر.

عبد الوهاب بومعراف · 18 مارس

في سياق تعلم الآلة من غير الطبيعي أن يكون لديك تباين كبير في عدد الأعمدة بين train_labels و validation_labels، حيث عادة ما يكون لكل من بيانات التدريب والتحقق نفس البنية، حيث يجب أن يكون عدد الأعمدة متسقا بينهما، إذا كان لديك 5 أعمدة في train_labels و 123 عمودا في validation_labels، فهذا يشير إلى وجود خطأ في عملية تحضير البيانات أو تقسيمها.

من المهم التحقق من الخطوات التي تم اتباعها لتقسيم البيانات وتكوين التسميات فقد يكون السبب في هذا التباين هو خطأ في الترميز أو في عملية التقسيم، إذا كنت تستخدم ترميز one-hot encoding للتسميات، فتأكد من أنه تم تطبيقه بشكل صحيح على كل من بيانات التدريب والتحقق.

و أيضا تأكد من أن البيانات تم تقسيمها بشكل صحيح قبل تطبيق أي تحويلات عليها، و إذا كانت المشكلة مستمرة قد تحتاج إلى مراجعة الكود الخاص بتحضير البيانات وإعادة فحص الخطوات التي تم اتباعها لتجنب أي أخطاء في المستقبل.

Ali Ahmed55 · 18 مارس

الف شكراا جدا لحضرتكم

جزاك الله كل خير

هل من الطبيعي ان يكون ال train_labels 5 اعمده فقط ولكن الvalidation_labels بيتكون من 123 عمود ؟

السؤال

Ali Ahmed55

5 أجوبة على هذا السؤال

Recommended Posts

محمد_عاطف

Mustafa Suleiman

Chihab Hedidi

عبد الوهاب بومعراف

Ali Ahmed55

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية