إياد أحمد نشر 16 ديسمبر 2021 أرسل تقرير نشر 16 ديسمبر 2021 أعمل على مهمة لبناء نموذج تحليل مشاعر لتغريدات تويتر، وكما نعلم فإن أغلب النصوص تحتوي اختصارات، مثلاً: I’ll be there within 5 min. Are u not gng there? Am I mssng out on smthng? I’d like to see u near d park. أحتاج إلى فض هذه الاختصارات مثلاً تحويل I'll إلى i will ، ونفس الأمر بالنسبة ل gng وباقي الاختصارات. اقتباس
0 Ali Haidar Ahmad نشر 16 ديسمبر 2021 أرسل تقرير نشر 16 ديسمبر 2021 يمكنك القيام بذلك من خلال الوحدة contractions و من خلال الكلاس word_tokenize في nltk بالشكل التالي: # استيراد الوحدات import contractions from nltk.tokenize import word_tokenize # النص text = '''I'll be there within 5 min. Shouldn't you be there too? I'd love to see u there my dear. It's awesome to meet new friends. We've been waiting for this day for so long.''' # قائمة لوضع الخرج ضمنها text_without_contractions = [] # تقسيم النص إلى وحدات words=word_tokenize(text) for word in words: # لإصلاح كل كلمة fix استخدام الدالة text_without_contractions.append(contractions.fix(word)) # نضيفها إلى الخرج new_text = ' '.join(expanded_words) # طباعةالنص بعد الإصلاح print(new_text) """ I will be there within 5 min. should not you be there too? I would love to see you there my dear. it is awesome to meet new friends. we have been waiting for this day for so long. """ اقتباس
السؤال
إياد أحمد
أعمل على مهمة لبناء نموذج تحليل مشاعر لتغريدات تويتر، وكما نعلم فإن أغلب النصوص تحتوي اختصارات، مثلاً:
I’ll be there within 5 min. Are u not gng there? Am I mssng out on smthng? I’d like to see u near d park.
أحتاج إلى فض هذه الاختصارات مثلاً تحويل I'll إلى i will ، ونفس الأمر بالنسبة ل gng وباقي الاختصارات.
1 جواب على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.