فاطمة الهاشمية نشر 24 نوفمبر أرسل تقرير نشر 24 نوفمبر السلام عليكم, لما لا يضاف مسار جديد يخص ال OCR من أكثر الاشياء نواجه صعوبة فيها وخصوصا بالعربية 2 اقتباس
0 عبدالباسط ابراهيم نشر 25 نوفمبر أرسل تقرير نشر 25 نوفمبر وعليكم السلام ورحمه الله وبركاته. بالفعل هناك العديد من التقنيات والمفاهيم الخاصة بالذكاء الإصطناعي التي لم يتم التطرق إليها بالشكل الكافي في المحتوى العربي . وستجد أن الأكاديمية تعمل على تعزيز المحتوى العربي في العديد من المسارات ولكن ذلك يحتاج وقتاً وجهداً كبيراً ومع ذلك يتم إضافة محتوى جديد دورياً سواء في الدورات أو في المحتوى العام. ولذلك غالباً سيتم إضافة هذا المسار قادماً في دورة الذكاء الاصطناعي. اقتباس
0 ياسر مسكين نشر 25 نوفمبر أرسل تقرير نشر 25 نوفمبر مسارات الأكاديمية عادة تعطى الأولوية للمهارات الواسعة التي يحتاجها أغلب المطورين بينما ال OCR هو مجال متخصص جدا داخل الذكاء الاصطناعي فهو مهارة مطلوبة غالبا في شركات معينة أو مشاريع كبيرة وليس كمهارة يومية لكل مطوّر كما أنّ تقنيات OCR العربية معقدة وتتحرك بسرعة فال OCR العربي صعب تقنيا بسبب: التشكيل التصاق الحروف اختلاف الخطوط غياب datasets عربية ضخمة اعتماد الشركات على نماذج جاهزة مثل Tesseract أو خدمات سحابية لكن إضافة المسار ليس مستبعدا فالدورات يتم تحديثها دوريا وقد تشهد إضافتها في أي وقت. اقتباس
0 Mustafa Suleiman نشر منذ 16 ساعة أرسل تقرير نشر منذ 16 ساعة يتم تحديث محتوى الدورة بشكل دوري على مدار العام، لذا مثل تلك المفاهيم يتم إضافتها بشكل تدريجي. وبالفعل النص العربي أصعب، فالحروف متصلة وتتغير أشكالها، الحركات الصغيرة صعبة الاكتشاف، الإتجاه من اليمين لليسار وكذلك الخطوط العربية متنوعة جدًا. لذا حاليًا، اعتمدي على الـ Pipeline التالية في المشاريع القادمة عند الحاجة إلى OCR: 1- المعالجة المسبقة للصور Pre-processing وهي أهم خطوة، فالنموذج الجيد مع صورة سيئة سيعطي نتائج سيئة، بتنفيذ التالي بواسطة cv2: تحويل الألوان Grayscale و Binarization لتحويل الصورة إلى تدرج رمادي ثم إلى أبيض وأسود فقط باستخدام تقنيات مثل Otsu’s Thresholding لإزالة الخلفيات الملونة. إزالة الضوضاء Denoising باستخدام فلاتر مثل Gaussian Blur لإزالة النقاط الصغيرة التي قد يفسرها النموذج على أنها نقاط حروف عربية. تصحيح الميل Deskewing فالنصوص المائلة تدمر دقة الـ OCR، استخدمي خوارزميات لتدوير الصورة بحيث يكون النص أفقيًا. زيادة الدقة Upscaling وSuper Resolution بحيث لو الصورة منخفضة الجودة، استخدمي نماذج AI لرفع دقتها قبل إدخالها للـ OCR. 2- تجربة النموذج المناسب للنص، أي لا تعتمدي على نموذج واحد لكل شيء، والنماذج التالية هي الأفضل للغة العربية حاليًا: PaddleOCR أثبت تفوق كبير على Tesseract في العربية. EasyOCR أبطأ قليلاً من PaddleOCR. Tesseract جيد فقط في حال ستقومين بعمل Fine-tuning على الخطوط التي تستخدميها، فالنسخة الخام منه للعربية ليست الأفضل مع الخطوط المعقدة. 3- التعامل مع تقطيع النصوص Segmentation لأنّ مشكلة اللغة العربية الكبرى هي تداخل الأسطر والحروف. في PaddleOCR، يوجد موديل خاص لاكتشاف أماكن النصوص أي Detector وموديل للقراءة Recognizer، ويجب استخدام كليهما. 4- بعد المعالجة السابقة البعدية تأتي مرحلة التصحيح فالـ OCR لن يكون دقيق 100% أبدًا، لذا ستحتاجين لتنظيف المخرجات: استخدام النماذج اللغوية الكبيرة LLM بتمريره إلى نموذج جيد في اللغة العربية مثل Llama مع Prompt يطلب منه "صحح الأخطاء الإملائية والسياقية في النص التالي الناتج من OCR دون تغيير المعنى". فالنماذج اللغوية تفهم السياق، فلو قرأ الـ OCR كلمة الذهاء الاصطناعي، سيعرف الـ LLM أن المقصود هو الذكاء الاصطناعي. في حال أردتي القيام بالأمر بنفسك، فعليكِ بالتالي: اعتمدي على Regex لاستبدال الأخطاء المتكررة مثلاً الـ OCR يخلط بين الرقم 0 والنقطة . أو الرقم 5 والحرف هـ توحيد الياء والألف المقصورة ي / ى والهاء والتاء المربوطة ه / ة في حال السياق يسمح. التصحيح الإملائي بواسطة مكتبات مثل PyEnchant مع قواميس عربية، أو مكتبة Hunspell. اقتباس
السؤال
فاطمة الهاشمية
السلام عليكم,
لما لا يضاف مسار جديد يخص ال OCR من أكثر الاشياء نواجه صعوبة فيها وخصوصا بالعربية
3 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.