اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

وعليكم السلام,

نعم فيجب دائما تنظيف وتنقيح البيانات مهما كان شكلها حيث انه يجب ان تعطي النموذج بيانات نظيفة ومجهزة حيث انه لو كان ليس ذلك او لديه بيانات مفقودة كثيرا فلا يتم التدريب بشكل صحيح ولا نريد هذا الشيء نحن بل نريده ان يتدرب على ما هو صحيح كي يعطي نتائج صحيحة.

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

إن فكرة ال Data Preparation & Preprocessing لا تقتصر على البيانات الجدولية (Tabular Data) فقط بل هي موجودة في أي نوع من أنواع البيانات ولكن شكلها وطريقة تنفيذها هي التي تختلف حسب كل نوع.

فالبيانات الجدولية (Tabular):
هنا الأمر يكون من خلال تنظيف الأعمدة و معالجة القيم المفقودة والتعامل مع القيم المتطرفة وتحويل البيانات النصية لأرقام وتوحيد المقاييس.

البيانات النصية (Text / NLP):
هنا مرحلة التحضير تكون مختلفة حيث يتم إزالة الرموز الغير مهمة وتحويل النصوص لحروف صغيرة وإزالة ال stop words وعمل stemming أو lemmatization وأحيانا بناء القواميس أو تحويل الكلمات ل embeddings.

الصور (Images):
هنا نقوم بتغيير حجم الصور resizing وتحسين جودة الصورة مثل تطبيع الألوان (normalization) وتحويلها لتنسيق رقمي مناسب للشبكات العصبية.

الصوت (Audio):
يتم إزالة الضوضاء وقص أو تقطيع المقاطع وضبط معدل العينة .

إذا فإن الأمر واحد نقوم بتجهيز البيانات للنموذج حتى يستطيع فهمها والتعلم منها ولكن الأدوات والأساليب تختلف حسب طبيعة البيانات نفسها.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...