اذهب إلى المحتوى
  • 0

كيف أحل مشكلة تسلسل بايت غير صالح في UTF-8 في روبي؟

HardWord

السؤال

أثناء تجربتي لبرنامج أقوم ببرمجته لاستخراج معلومات من مواقع الويب (روابط، نماذج..) أحصل على أخطاء عديدة من نوع invalid byte sequence in UTF-8 فما هو هذا الخطأ؟ وكيف أستطيع حل هذه المشكلة؟

رابط هذا التعليق
شارك على الشبكات الإجتماعية

Recommended Posts

  • 0

عندما تتعامل مع نصوص بترميز UTF-8  من مصادر غير موثوقة مثل نماذج الويب، فإنه من الجيد أن تقوم بإصلاح أي تسلسل من البايتات غير الصحيحة حتى تتجنب كسر خطوات المعالجة التي تعتمد على المدخلات الصالحة، لذلك في مثل هذه الحالة، يُنصح بأن يتم باستخدام UTF-8//IGNORE والتي تُخبر مفسر روبي بأن يتجاهل البايتات التي لا يمكن تحويلها كما في المثال التالي:

ic = Iconv.new('UTF-8//IGNORE', 'UTF-8')
valid_string = ic.iconv(untrusted_string)

حيث ستستبدل  untrusted_string بالسلسلة النصية التي حصلت عليها من مصدر غير موثوق.
المصدر

رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...