بناء نموذج AI تنبؤي وربطه مع أندرويد ستوديو

Rol Ian · 28 أغسطس

أريد بناء نموذج تنبؤي وسأستخدم Linear Regression ليتنبأ بعدد المسافة المقطوعة للسيارة لكل مستخدم لكل أسبوع أو شهري ولكن ليس لدي بيانات الآن

لأنه سيتم جمعها بعد بناء التطبيق واستخدامه فكيف تكون الفكرة استخدام بيانات اصطناعية وهل ينصح باستخدام Linear Regression ؟ أو استخدم خوارزمية أخرى

أيضًا كيف يمكن عمل integration للنموذج مع أندرويد ستوديو

Mustafa Suleiman · 29 أغسطس

لا مشكلة في البيانات الاصطناعية كبداية، ويجب أن تكون منطقية تشبه البيانات التي تتوقع جمعها مستقبلاً قدر الإمكان، وبالطبع للتجربة ولن تعتمد على أرقام الدقة لاتخاذ قرارات نهائية، لأنك بنيت البيانات على افتراضاتك الخاصة، فالهدف منها هو فقط بناء النظام، وعندما تجمع بيانات حقيقية كافية، ستقوم بإعادة تدريب النموذج عليها.

عامًة الـ Synthetic Data مفيدة لأنها تسمح ببناء وتجربة pipeline كامل للتعلم الآلي، من معالجة البيانات، إلى التدريب، إلى التكامل مع التطبيق، أيضًا تكتشف المشاكل التقنية في وقت مبكر.

أول خطوة هي تحديد الـ features بالتفكير في العوامل التي تؤثر على المسافة التي يقطعها المستخدم، وهي:

معلومات المستخدم: العمر، نوع الوظيفة (مندوب مبيعات، موظف مكتبي، يعمل من المنزل)، هل لديه عائلة.
معلومات السيارة: سنة الصنع، نوع السيارة (صغيرة، SUV)، كفاءة الوقود.
معلومات زمنية: يوم الأسبوع (1-7)، هل هو عطلة نهاية أسبوع (نعم/لا)، الشهر.
معلومات سلوكية إن أمكن: مثل متوسط المسافة في الأسابيع السابقة، وتلك ميزة لها ثقل.

ثم إنشاء صيغة وهمية لحساب المسافة، ولا يجب أن تكون مثالية، بل فقط لإنشاء بيانات ذات هيكل، ولتكن:

distance = base_distance + job_effect + weekend_effect + previous_dist_effect + noise

حيث base_distance هي مسافة أساسية يومية، مثلاً 20 كم، وjob_effect تعني تأثير نوع الوظيف، فمندوب مبيعات سيقطع 50كم أو يزيد، وموظف مكتبي +15 كم، يعمل من المنزل -10 كم.

والـ weekend_effect خاص بالعطلة، حيث ستزيد المسافة للرحلات أو تقل لعدم الذهاب للعمل -15 كم.

والـ noise خاصة بإضافة قيمة عشوائية صغيرة لتبدو البيانات واقعية أكثر.

ثم توظيف ما سبق في الكود كالتالي:

import pandas as pd
import numpy as np

num_samples = 5000  
job_types = ['sales', 'office', 'remote', 'student']

data = {
    'age': np.random.randint(18, 65, num_samples),
    'car_model_year': np.random.randint(2010, 2024, num_samples),
    'job_type': np.random.choice(job_types, num_samples),
    'is_weekend': np.random.choice([0, 1], num_samples, p=[0.71, 0.29]),
    'previous_week_distance': np.random.normal(loc=150, scale=50, size=num_samples) 
}

df = pd.DataFrame(data)

def calculate_distance(row):
    base_distance = 20
    
    if row['job_type'] == 'sales':
        job_effect = 40
    elif row['job_type'] == 'office':
        job_effect = 15
    else:
        job_effect = -10
        
    weekend_effect = -15 if not row['is_weekend'] else 5
    
    previous_dist_effect = row['previous_week_distance'] * 0.5
    
    noise = np.random.normal(0, 10)
    
    distance = base_distance + job_effect + weekend_effect + previous_dist_effect + noise
    return max(0, distance)

df['weekly_distance'] = df.apply(calculate_distance, axis=1)

print(df.head())
df.to_csv('synthetic_car_data.csv', index=False)

وبخصوص:

بتاريخ 3 ساعة قال Rol Ian:

وهل ينصح باستخدام Linear Regression ؟ أو استخدم خوارزمية أخرى

الخوارزمية لا بأس بها كنقطة بداية، لكونها سهلة الفهم والتنفيذ، والتدريب من خلال لا يتطلب موارد كبيرة، وبسهولة تستطيع معرفة كيف تؤثر كل ميزة مثل العمر على التنبؤ.

بالتالي سرعة في التأكد من أن كل شيء يعمل من تدفق البيانات إلى التكامل قبل الانتقال إلى نماذج معقدة أكثر.

وبالطبع على المدى الطويل ستحتاج إلى خوارزميات أفضل، فسلوك القيادة في الواقع أكثر تعقيدًا من علاقة خطية بسيطة، لوجود تفاعلات بين الميزات وعلاقات غير خطية.

فتأثير العمر ربما لا يكون خطيًا، فقد يقود الشباب وكبار السن لمسافات أقل من الأشخاص في منتصف العمر، ومندوب المبيعات في عطلة نهاية الأسبوع ربما يقود مسافة مختلفة تمامًا عن مندوب المبيعات خلال أيام العمل.

لذا ستحتاج إلى LightGBM أو XGBoost أو Random Forest، وذلك عند توفر بيانات عدة آلاف من المستخدمين على مدى بضعة أشهر، ثم قارن النتائج.

لكن لو التنبؤ يعتمد بشكل كبير على تسلسل المسافات السابقة، أي التنبؤ بمسافة الأسبوع الحالي بناءًا على آخر 10 أسابيع، فستحتاج إلى LSTM.

بتاريخ 3 ساعة قال Rol Ian:

أيضًا كيف يمكن عمل integration للنموذج مع أندرويد ستوديو

من خلال TensorFlow Lite، وهناك طريقتين الأولى لو استخدمت scikit-learn، ستحتاج إلى أداة لتحويله إلى صيغة متوافقة مثل ONNX ثم إلى TFLite أو إعادة تدريب النموذج باستخدام TensorFlow أو Keras وهو الأسهل.

ثم أنشئ مجلد assets في مجلد app/src/main/ في مشروع أندرويد ستوديو، وانسخ ملف model.tflite إلى المجلد، وفي ملف build.gradle (Module: app)، أضف مكتبة TensorFlow Lite.

وستحتاج إلى تحميل النموذج من مجلد assets واستخدام Interpreter لتشغيله، من خلال كتابة كود Java أو Kotlin