استخراج الوحدات Token من النص بدون المسافات الفارغة والأسطر الجديدة n\ باستخدام NLTK في بايثون

إياد أحمد · 9 ديسمبر 2021

لدي بعض النصوص التي تحتوي على العديد من الفراغات ورموز t\ و n\، وأريد تنفيذ عملية tokinezation على النصوص، لذا هل هناك حل للتخلص من هذه الفراغات أو تجاهلها؟
هذه عينة من النصوص:
"The price\t of burger \nin BurgerKing is Rs.36.\n"

Ali Haidar Ahmad · 9 ديسمبر 2021

يمكنك استخدام الكلاس WhitespaceTokenizer لحل المشكلة، حيث يمكّنك من تنفيذ عملية ال tokinezation مع معالجة تلقائية للمسافات والأسطر الجديدة (تجاهلها)، ويمكنك استخدامها كما يلي:

# WhitespaceTokenizer استيراد الكلاس
from nltk.tokenize import WhitespaceTokenizer
# إنشاء كائن من هذا الكلاس
tk = WhitespaceTokenizer()
# تحديد النص
text = "The price\t of burger \nin BurgerKing is Rs.36.\n"
# لتأدية المطلوب WhitespaceTokenizer المعرفة ضمن الكلاس tokenize استخدام الدالة 
tokens = tk.tokenize(text)
print(tokens)
# ['The', 'price', 'of', 'burger', 'in', 'BurgerKing', 'is', 'Rs.36.']

تم التعديل في 9 ديسمبر 2021 بواسطة Ali Haidar Ahmad

Ahmed Sharshar · 10 ديسمبر 2021

يمكنك إزالة n\ ببساطة بعدما نقوم بتحليل النص كالتالي:

text = '''\n Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n. He will continue working at the hospital part time \n '''

tokenized_sent_before_remove_n = nltk.sent_tokenize(text)
>>>
['\n Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n.',
'He will continue working at the hospital part time']


tokenized_sent_after_remove_n = [x.replace('\n','') for x in tokenized_sent]
>>> 
[' Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist .',
'He will continue working at the hospital part time']

وبنفس الطريقة تستطيع إزالة t\ كما استخدمناها لإزالة n\.

استخراج الوحدات Token من النص بدون المسافات الفارغة والأسطر الجديدة n\ باستخدام NLTK في بايثون

السؤال

إياد أحمد

رابط هذا التعليق

شارك على الشبكات الإجتماعية

2 أجوبة على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

رابط هذا التعليق

شارك على الشبكات الإجتماعية

Ahmed Sharshar

رابط هذا التعليق

شارك على الشبكات الإجتماعية

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية