اذهب إلى المحتوى
  • 0

استخراج الوحدات Token من النص بدون المسافات الفارغة والأسطر الجديدة n\ باستخدام NLTK في بايثون

إياد أحمد

السؤال

لدي بعض النصوص  التي تحتوي على العديد من الفراغات ورموز t\ و n\، وأريد تنفيذ عملية tokinezation على النصوص، لذا هل هناك حل للتخلص من هذه الفراغات أو تجاهلها؟
هذه عينة من النصوص:
"The price\t of burger \nin BurgerKing is Rs.36.\n"
 

رابط هذا التعليق
شارك على الشبكات الإجتماعية

Recommended Posts

  • 1

يمكنك استخدام الكلاس WhitespaceTokenizer لحل المشكلة، حيث يمكّنك من تنفيذ عملية ال tokinezation مع معالجة تلقائية للمسافات والأسطر الجديدة (تجاهلها)، ويمكنك استخدامها كما يلي:

# WhitespaceTokenizer استيراد الكلاس
from nltk.tokenize import WhitespaceTokenizer
# إنشاء كائن من هذا الكلاس
tk = WhitespaceTokenizer()
# تحديد النص
text = "The price\t of burger \nin BurgerKing is Rs.36.\n"
# لتأدية المطلوب WhitespaceTokenizer المعرفة ضمن الكلاس tokenize استخدام الدالة 
tokens = tk.tokenize(text)
print(tokens)
# ['The', 'price', 'of', 'burger', 'in', 'BurgerKing', 'is', 'Rs.36.']

 

تم التعديل في بواسطة Ali Haidar Ahmad
رابط هذا التعليق
شارك على الشبكات الإجتماعية

  • -1

يمكنك إزالة n\ ببساطة بعدما نقوم بتحليل النص كالتالي:

text = '''\n Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n. He will continue working at the hospital part time \n '''

tokenized_sent_before_remove_n = nltk.sent_tokenize(text)
>>>
['\n Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n.',
'He will continue working at the hospital part time']


tokenized_sent_after_remove_n = [x.replace('\n','') for x in tokenized_sent]
>>> 
[' Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist .',
'He will continue working at the hospital part time']

وبنفس الطريقة تستطيع إزالة t\ كما استخدمناها لإزالة n\.

رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...