اذهب إلى المحتوى
  • 0

كيف أستعمل التعابير النمطية مع unicode في بايثون؟

Blackhacker

السؤال

أحتاج إلى حذف بعض رموز unicode من السلسلة النصية التالية: 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'.
ولقد جربت استخدام هذه الطريقة لكنها لم تنجح:

re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ')

فما الطريقة الصحيحة لفعل ذلك؟

رابط هذا التعليق
شارك على الشبكات الإجتماعية

Recommended Posts

  • 0

يوجد عدة طرق في لغة بايثون لفعل ذلك، فإذا كنت تستخدم الإصدار الثاني من بايثون حاول جعل السلسلة النصية الخاصة بالتعابير النمطية كسلسلة نصية تكون فيها unicode مهربة مع 'u' كما في المثال التالي:

re.sub(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+', '', ...)

ومن الطرق الأخرى أيضا يمكنك استخدام re.UNICODE لتحديد نوع التغيير الذي تريده مع دالة compile من مكتبة re كما في الأمثلة التالية:

>>> myre = re.compile(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+',
                      re.UNICODE)
>>> myre
<_sre.SRE_Pattern object at 0xb20b378>
>>> mystr = u'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'
>>> result = myre.sub('', mystr)
>>> len(mystr), len(result)
(38, 22)
>>> print result
بسم الله الرحمن الرحيم
رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...