كيف أستعمل التعابير النمطية مع unicode في بايثون؟

Blackhacker · 25 يناير 2016

أحتاج إلى حذف بعض رموز unicode من السلسلة النصية التالية: 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'.
ولقد جربت استخدام هذه الطريقة لكنها لم تنجح:

re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ')

فما الطريقة الصحيحة لفعل ذلك؟

هشام رزق الله · 25 يناير 2016

يوجد عدة طرق في لغة بايثون لفعل ذلك، فإذا كنت تستخدم الإصدار الثاني من بايثون حاول جعل السلسلة النصية الخاصة بالتعابير النمطية كسلسلة نصية تكون فيها unicode مهربة مع 'u' كما في المثال التالي:

re.sub(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+', '', ...)

ومن الطرق الأخرى أيضا يمكنك استخدام re.UNICODE لتحديد نوع التغيير الذي تريده مع دالة compile من مكتبة re كما في الأمثلة التالية:

>>> myre = re.compile(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+',
                      re.UNICODE)
>>> myre
<_sre.SRE_Pattern object at 0xb20b378>
>>> mystr = u'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'
>>> result = myre.sub('', mystr)
>>> len(mystr), len(result)
(38, 22)
>>> print result
بسم الله الرحمن الرحيم

كيف أستعمل التعابير النمطية مع unicode في بايثون؟

السؤال

Blackhacker

1 جواب على هذا السؤال

Recommended Posts

هشام رزق الله

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية