اذهب إلى المحتوى

السؤال

نشر

Feature Extraction
from the columns what a new features we can get as new features?
hints

as example if we have a date column then we can make a new 3 features as [year, month, day]

if we have length and width then we can make the area as new feature

depends on this and search, extarct features from the existing ones!

Recommended Posts

  • 0
نشر

الأسئلة الإختبارية لا يتم الإجابة عليها بشكل مباشر لكي تحقق استفادة أنت، كتوجيه لطريقة الحل عليك فهم البيانات الموجودة، أي استعرض الأعمدة المتاحة في إطار البيانات.

ثم حدد نوع كل عمود بطرح الأسئلة التالية:

  • هل هو رقمي كسعر، كمية، عمر؟ 
  • هل هو فئوي أو تصنيفي، مثل نوع المنتج، اللون، الجنس؟
  • هل هو تاريخ أو وقت كتاريخ الشراء، وقت التسجيل؟
  • هل هو نصي كوصف المنتج أو تعليق المستخدم؟
  • هل هو منطقي Boolean، مثل هل تم الشراء؟ ستجد بيانات بنعم أو لا؟

فكر في معنى كل عمود أي ماذا يمثل العمود في سياق البيانات والمشكلة التي تحاول حلها؟

بعد ذلك عليك التفكير في العلاقات والتفاعلات بين الأعمدة، فبناءًا على أنواع الأعمدة ومعانيها، ابدأ بطرح أسئلة على نفسك:

للأعمدة الرقمية:

  • هل يمكنني جمع عمودين أو أكثر للحصول على معلومة جديدة؟ مثلاً إجمالي_المصروفات = مصروفات_طعام + مصروفات_مواصلات.
  • هل يمكنني طرح عمود من آخر؟
  • هل يمكنني ضرب عمودين؟ 
  • هل يمكنني قسمة عمود على آخر للحصول على نسبة أو معدل؟
  • هل يمكن تحويل قيمة رقمية إلى فئة؟ كتحويل العمر إلى فئات شاب، متوسط العمر، كبير السن، وذلك يسمى Binning أو Discretization.
  • هل يمكن إنشاء ميزات متعددة الحدود من عمود رقمي واحد؟ بمعنى لو لديك عمود X، فتستطيع إنشاء X^2, X^3.

لأعمدة التاريخ والوقت:

  • استخراج السنة، الشهر، اليوم، يوم_الأسبوع، هل_هو_نهاية_أسبوع، رقم_الأسبوع_في_السنة، الفصل.
  • هل يمكن حساب المدة الزمنية بين تاريخين؟ بمعنى مدة_الاشتراك = تاريخ_انتهاء_الاشتراك - تاريخ_بدء_الاشتراك.
  • هل يمكن حساب الوقت المنقضي منذ تاريخ معين؟ وذلك من خلال  عمر_الحساب_بالأيام = تاريخ_اليوم - تاريخ_إنشاء_الحساب.

للأعمدة الفئوية والتصنيفية:

  • هل يمكن دمج فئتين أو أكثر من عمود فئوي واحد لتقليل عدد الفئات؟ كدمج فئات أزرق فاتح وأزرق غامق إلى أزرق.
  • هل يمكن إنشاء ميزات تفاعلية بين عمودين فئويين؟ وليكن عمود المدينة وعمود نوع_المنتج، هنا تستطيع إنشاء ميزة جديدة المدينة_نوع_المنتج.
  • هل يمكن حساب تكرار ظهور كل فئة؟ 

للأعمدة النصية:

  • هل يمكن استخراج طول النص؟
  • هل يمكن استخراج عدد الكلمات؟
  • هل يمكن التحقق من وجود كلمات مفتاحية معينة؟ أي يحتوي التعليق على كلمة رائع أو سيء؟

بالطبع عند العمل على مشكلة معينة مثل التنبؤ بمبيعات، اكتشاف الاحتيال وخلافه، فكر في المقاييس أو المعلومات التي يستخدمها الخبراء في المجال، مثلاً في التجارة الإلكترونية، ميزات كمتوسط قيمة الطلب للعميل أو معدل تكرار الشراء مفيدة جدًا.

  • 0
نشر

إن في الأكاديمية هنا لا نقوم بالإجابة المباشرة على أسئلة الإختبارات والتقيمات ولكن يمكننا إرشادك لطريقة الحل و مساعدتك في ذلك وذلك حتى تستفيد .

هنا السؤال يطلب منك البحث عن طرق لإستخراج ميزات جديدة من البيانات التي تم توفيرها لك .

أولا يجب عليك أن تضع في اعتبارك هذه الفئات والميزات الجديدة المحتملة التي يمكن أن تنتج عنها:

بالنسبة إلى الأعمدة الرقمية إذا كان لديك عدة أعمدة رقمية مثل الطول و العرض كما تم الذكر في السؤال فهنا  يمكنك اشتقاق ميزات جديدة من خلال العمليات الحسابية البسيطة:

  • المجموع: جمعها معا مثل الطول + العرض.
  • الفرق: طرح أحدهما من الآخر الطول - العرض.
  • الناتج: ضربهما مثل الطول * العرض للحصول على المساحة.
  • النسبة: قسمة أحدهما على الآخر .

ويمكنك أيضا إنشاء حدود ذات درجة أعلى عن طريق رفع عمود رقمي إلى قوة معينة  الطول أس 2 أو الطول * العرض للحصول على المساحة.

بالنسبة إلى الأعمدة الفئوية يمكنك إنشاء ميزات رقمية جديدة عن طريق حساب عدد مرات ظهور كل فئة داخل عمود. أو يمكنك لكل فئة فريدة أن تقوم بإنشاء عمود ثنائي جديد (0 أو 1) يشير إلى وجودها أو لا. ويمكنك إذا كان لديك عدة أعمدة فئويةأن تقوم بتجميع وإنشاء فئات مجمعة جديدة مثل إذا كان لديك اللون و الحجم يمكنك إنشاء ميزة اللون_الحجم مثل أحمر_كبير.

ثالثا بالنسبة إلى الأعمدة النصية: يمكنك استخلاص ميزات مثل عدد الكلمات أو عدد الأحرف أو وجود كلمات رئيسية محددة.

رابعا بالنسبة إلى أعمدة التاريخ والوقت: كما تم التوضيح في السؤال يمكنك إستخراج 3 ميزات جديدة السنة والشهر واليوم وأيضا بالإضافة إلى يوم الأسبوع والساعةو الدقيقةوالثانية.أو يمكنك حساب الوقت المنقضي بين عمودي تاريخ مثل تاريخ البدأ أو الإنتهاء ويمكنك أيضا إنشاء ميزات ثنائية تشير إلى ما إذا كان التاريخ هو تاريخ عطلة رسمية أم لا. 
لذلك يجب عليك :

  1. فهم بياناتك أولا وفحصها بعناية لكل عمود ونوع بياناته. وماذا يمثل؟ وما نوع المعلومات التي يحتوي عليها؟
  2. التفكير في كيفية تفاعل الأعمدة المختلفة معا أو كيف يمكنك اشتقاق معلومات جديدة ذات معنى منها.
  3. أيضا يجب عليك التفكير في الذي تحاول التنبؤ به أو فهمه؟ وسيساعدك هذا في تحديد أولويات الميزات الجديدة التي قد تكون الأكثر صلة.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...