اذهب إلى المحتوى

ابراهيم عبيدات

الأعضاء
  • المساهمات

    5
  • تاريخ الانضمام

  • تاريخ آخر زيارة

إنجازات ابراهيم عبيدات

عضو مبتدئ

عضو مبتدئ (1/3)

9

السمعة بالموقع

  1. 1. بهذا الاسلوب ما هو مقدار الContext المخصص للمستخدم من الContext الكمل للنموذج اي ان بعض النماذج تمتلك Context بحجم 250k token كم منها سيكون مخصص للمحادثة و هل سوف يشكل مشكلة في تجربة المستخدم مثل ان يفقد النموذج السياق بعد خمس اسئلة مثلا ؟ 2. هل النظام سيكون بطيء بسبب تعقيد العمليات في الخلفية و ماذا افعل لجعل تجربة المستخدم اكثر سلاسة ؟
  2. السلام عليكم انا اعمل على التالي عندي مجموعة كبيرة من البيانات الغير مهيكلة اكثر من 2T و التي تتراوح بين صور و pdf و pdf ممسوحة ضوئيا و بعض الفيديوهات و هي تترابط في مواضيع و تختلف في اخرى و في بعض الاحيان يترابط مجموعة فيديوهات متسلسلة مع مجموعة صور و ملفات pdf . ما احاول عمله التالي: استخراج النصوص و البيانات ... الخ عن طريق الocr ثم محاولة هيكلة البيانات و تصنيفها و كشف العلاقات بينها بعد الاستخراج اضافة كل الmetadata الممكن الاستفادة منها ثم استخدام ما سبق لعمل RAG و اتاحة المعلومات للمستخدم النهائي بشكل سهل الوصول اليه و الاستفادة منه عبر واجة مستخدم لم اقم بالعمل على مشروع بهذا الحجم من قبل علما ان عدي درجة معرفة جيدة الى حد ما في عمل ما سبق . لاكن احتاج الى توجيه من ناس ذو خبرة اكبر في المجال انا لا اعرف من اين ابداء بسبب حجم المعلومات الكبير التي يجب على الLLM model التعامل معها فهل سيكون هناك مشكلة في هذا مثلا ام ان استخدام تقنية معينة في البحث قد يحل المشكلة . انا افكر حاليا في حل مثل الدمج بين الRAG و الGraphRAG و احتاج وسيلة ocr جيدة و اذا كان من الممكن مثلا بعد استخراج النصوص او اثناء استخراجها استخدام VLM ليتوقع الكلمات غير الواضحة في الصور او لوصف الرسومات و الجداول و الصور في الملفات اعلم ان السؤال معقد و كبير و من غير الممكن حله في مثل هذا المكان هنا 😅 ولاكن ممكن استلهام الافكار كما اني مشترك في دورة الذكاء الاصطناعي في اكادمية حاسوب فاذا امكن المشرفين على الدورة اضافة use case مشابهة ساكون في غاية الامتنان
×
×
  • أضف...