اذهب إلى المحتوى

السؤال

نشر

أعمل على مهمة لبناء نموذج تحليل مشاعر لتغريدات تويتر، وكما نعلم فإن أغلب النصوص تحتوي اختصارات، مثلاً:

I’ll be there within 5 min. Are u not gng there? Am I mssng out on smthng? I’d like to see u near d park.

أحتاج إلى فض هذه الاختصارات مثلاً تحويل I'll إلى i will ، ونفس الأمر بالنسبة ل gng وباقي الاختصارات.

Recommended Posts

  • 0
نشر

يمكنك القيام بذلك من خلال الوحدة contractions و من خلال الكلاس word_tokenize في nltk بالشكل التالي:

# استيراد الوحدات
import contractions
from nltk.tokenize import word_tokenize
# النص
text = '''I'll be there within 5 min. Shouldn't you be there too?
I'd love to see u there my dear. It's awesome to meet new friends.
We've been waiting for this day for so long.'''
# قائمة لوضع الخرج ضمنها
text_without_contractions = []
# تقسيم النص إلى وحدات 
words=word_tokenize(text)
for word in words:
    # لإصلاح كل كلمة fix استخدام الدالة 
    text_without_contractions.append(contractions.fix(word))
    # نضيفها إلى الخرج
new_text = ' '.join(expanded_words)
# طباعةالنص بعد الإصلاح
print(new_text)
"""
I will be there within 5 min. should not you be there too? 
          I would love to see you there my dear. it is awesome to meet new friends. 
          we have been waiting for this day for so long.
"""

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...