اذهب إلى المحتوى

السؤال

نشر

لدي بعض النصوص  التي تحتوي على العديد من الفراغات ورموز t\ و n\، وأريد تنفيذ عملية tokinezation على النصوص، لذا هل هناك حل للتخلص من هذه الفراغات أو تجاهلها؟
هذه عينة من النصوص:
"The price\t of burger \nin BurgerKing is Rs.36.\n"
 

Recommended Posts

  • 1
نشر (معدل)

يمكنك استخدام الكلاس WhitespaceTokenizer لحل المشكلة، حيث يمكّنك من تنفيذ عملية ال tokinezation مع معالجة تلقائية للمسافات والأسطر الجديدة (تجاهلها)، ويمكنك استخدامها كما يلي:

# WhitespaceTokenizer استيراد الكلاس
from nltk.tokenize import WhitespaceTokenizer
# إنشاء كائن من هذا الكلاس
tk = WhitespaceTokenizer()
# تحديد النص
text = "The price\t of burger \nin BurgerKing is Rs.36.\n"
# لتأدية المطلوب WhitespaceTokenizer المعرفة ضمن الكلاس tokenize استخدام الدالة 
tokens = tk.tokenize(text)
print(tokens)
# ['The', 'price', 'of', 'burger', 'in', 'BurgerKing', 'is', 'Rs.36.']

 

تم التعديل في بواسطة Ali Haidar Ahmad
  • -1
نشر

يمكنك إزالة n\ ببساطة بعدما نقوم بتحليل النص كالتالي:

text = '''\n Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n. He will continue working at the hospital part time \n '''

tokenized_sent_before_remove_n = nltk.sent_tokenize(text)
>>>
['\n Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n.',
'He will continue working at the hospital part time']


tokenized_sent_after_remove_n = [x.replace('\n','') for x in tokenized_sent]
>>> 
[' Apple has quietly  hired Dr. Rajiv B. Kumar, a pediatric endocrinologist .',
'He will continue working at the hospital part time']

وبنفس الطريقة تستطيع إزالة t\ كما استخدمناها لإزالة n\.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...