اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

بالطبع من المرجح جداً أن تكون جودة النتائج سيئة بسبب قلة البيانات التدريبية، حيث 24 سطراً فقط من البيانات غير كافية لتدريب نموذج لغوي كبير مثل Llama 3، وحتى مع استخدام تقنيات مثل LoRA (Low-Rank Adaptation) التي تقلل من عدد المعلمات التي تحتاج إلى التدريب.

النتائج تُظهر انخفاضاً تدريجياً في خسارة التدريب Training Loss خلال 60 خطوة، وذلك مؤشر إيجابي، حيث يعني أن النموذج يتعلم ويُحسّن من أدائه على البيانات التدريبية.

لكن، قيمة الخسارة النهائية (0.2155) لا تُخبر الكثير عن جودة النموذج، فالخسارة منخفضة نسبياً، لكن ذلك لا يعني بالضرورة أن النموذج جيد.

فهي مقياس للأداء على البيانات التدريبية فقط، وليس على بيانات جديدة (اختبار)، فربما يكون النموذج قد حفظ البيانات التدريبية عن ظهر قلب overfitting دون القدرة على التعميم على بيانات جديدة.

أيضًا 60 خطوة قليلة جداً للتدريب، بالنسبة للبيانات القليلة التي لديك قم بتنفيذ 1000 إلى 5000 خطوة واختبر النتيجة.

حاول توليد بيانات من خلال الذكاء الاصطناعي نفسه، بتوفير بيانات له وإخباره بتوليد بيانات بنفس النمط، وذلك يسمى Data synthesis.

أيضًا هناك تقنيات Few-Shot Learning ومنها Prompt Engineering أي ركز على كتابة توجيهات prompts دقيقة وواضحة للنموذج، بتقديم أمثلة قليلة في التوجيه نفسه لإظهار المطلوب من النموذج، وتلك الطريقة تعتمد على قدرة النموذج على تعميم ما تعلمه من الأمثلة القليلة على بيانات جديدة.

أو التعلم القليل اللقطات مع التكيف Few-Shot Learning with Adaptation وبها  تقنيات مثل meta-learning أو transfer learning لتكييف النموذج المسبق التدريب على بياناتك الصغيرة، حيث تُركز على تعلم كيفية التعلم من بيانات قليلة، بدلاً من تعلم كل شيء من الصفر.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...