اذهب إلى المحتوى

السؤال

نشر

السلام عليكم

لدي مشروع وهو بحث عن خدمة في موقع حكومي رسمي 

 

في البداية لدي API  بالخدمات المقدمة من تصاريح او اي كان من الخدمات 

 

اتصلت ب API  وبعدها سحبت كل بيانات الخدمات، المطلوب مني هو اني اكتب فالبحث اي كلمة ويبحث عنها فالموقع

على سبيل المثال لو كتبت قطط سيأتي بالخدمات الخاصة بالقطط ولكن ماذا لو كتبت قطه او قطة او بسه او هره 

لن يأتي بنفس النتائج 

حليت مشكلة قطة او قطه او قطط او قطوه من خلال استخدام طبقت Lemmatization على الكلمة والبيانات وبعدها Embedding للبيانات والكلمة المراد البحث عنه

 

ولكن لم اجد حل ل كلمة هره او بسه او هرة 

 

جربت اني ارسل الكلمة لنموذج llama 3.1  وطلب منه اعطائي مرادفات الكلمة وبعدها تطبيق الخطوات السابقة على كل المرادفات ولكن للاسف لم ينجح llama  ب كتابة المرادفات

 

هل يوجد حل آخر ممكن اجربه؟

Recommended Posts

  • 0
نشر

استخدم تقنية Hybrid Search مع نموذج embedding متعدد اللغات، بمعنى يوجد نماذج Embedding عربية متقدمة فالنماذج الحديثة تفهم المرادفات تلقائيًا:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
# أو
model = SentenceTransformer('aubmindlab/bert-base-arabertv2')

لديك أيضًا CAMeLBERT.

وذلك لنتمكن من البحث الدلالي Semantic Search والذي يفهم المعنى بحيث يجد قطة و بسة و هرة.

كذلك Keyword Search للبحث بالكلمات، والذي يعتمد على TF-IDF لمطابقة الكلمات النصية لتضمن دقة النتائج عند التطابق الحرفي.

وابدأ بـ 0.7 للـ embedding و 0.3 للكلمات المفتاحية، وفي حال يوجد أكثر من 10,000 خدمة، استخدم FAISS للسرعة، وأعد حساب الـ embeddings عند إضافة خدمات جديدة.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...