اذهب إلى المحتوى

السؤال

نشر (معدل)

السلام عليكم 
أود معرفة كيفية تدريب نموذج على بيانات قمت بجمعها 
لأني حقيقةً لم أجد نموذج مدرب وجاهز يؤدي الوظيفة التي احتاجها 
وهي تصفية الرسالة من الهوامش وأمر اشبه بالتلخيص دون تجاهل المعلومات المهمة
إن كان هناك نموذج قريب لهذه المهمة دلوني فضلًا

وكذلك اتساءل إن كانت البيانات كافيه 
فهل 300 صف كافية لإعادة تدريب نموذج موجود مسبقًا؟
أم هناك حد لابد من تجاوزه للـDataset
وشكرًا

تم التعديل في بواسطة Yasmeen Almutaani

Recommended Posts

  • 0
نشر

وعليكم السلام ورحمة الله ،

بالنسبة لسؤالك حول إنشاء نموذج لتصفية الرسائل وتلخيصها فهناك عدة خطوات يمكنك اتباعها:

  • أولاً قم بالبحث عن نموذج قريب من النموذج المطلوب ومن ثم ننتقل لاعادة تدريبه ، هذه النماذج ستساعدك في الأمر :
    • BERT
    • GPT
    • T5
    • Pegasus
  • بالنسبة لكيف يمكنك تدريب النموذج :
    • قم بجمع البيانات وتحضيرها وتأكد من أن بياناتك تحتوي على النصوص الأصلية والنصوص المفلترة أو الملخصة.
    • بعدها قم بإعادة تدريب النموذج الذي اخترته Fine-Tuning ( ويمكنك استخدام مكتبات مثل Hugging Face Transformers التي تسهل التعامل مع النماذج)
    • بعدها يمكنك اختبار النموذج والتأكد من عمله ، ويمكنك أيضاً استخدام مقاييس تقييم مثل ROUGE أو BLEU لقياس جودة التلخيص.

بالنسبة لسؤالك حول كفاية البيانات: (هل 300 صف كافية؟)

إذا كنت تقوم بإعادة تدريب نموذج مسبق (Fine-Tuning)، فإن 300 صف قد تكون كافية كبداية، خصوصاً إذا كانت بياناتك منظمة ومناسبة للمهمة. النماذج مثل BERT وGPT غالباً ما تعمل بشكل جيد حتى مع مجموعات بيانات صغيرة.

أما إذا كنت تنوي إنشاء نموذج من الصفر ، فهذه الكمية غير كافية ، بل ستحتاج إلى إلى آلاف أو ملايين من البيانات تقريباً.

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...