إياد أحمد نشر 9 ديسمبر 2021 أرسل تقرير مشاركة نشر 9 ديسمبر 2021 لدي بعض النصوص التي تحتوي على العديد من الفراغات ورموز t\ و n\، وأريد تنفيذ عملية tokinezation على النصوص، لذا هل هناك حل للتخلص من هذه الفراغات أو تجاهلها؟ هذه عينة من النصوص: "The price\t of burger \nin BurgerKing is Rs.36.\n" 1 اقتباس رابط هذا التعليق شارك على الشبكات الإجتماعية More sharing options...
1 Ali Haidar Ahmad نشر 9 ديسمبر 2021 أرسل تقرير مشاركة نشر 9 ديسمبر 2021 (معدل) يمكنك استخدام الكلاس WhitespaceTokenizer لحل المشكلة، حيث يمكّنك من تنفيذ عملية ال tokinezation مع معالجة تلقائية للمسافات والأسطر الجديدة (تجاهلها)، ويمكنك استخدامها كما يلي: # WhitespaceTokenizer استيراد الكلاس from nltk.tokenize import WhitespaceTokenizer # إنشاء كائن من هذا الكلاس tk = WhitespaceTokenizer() # تحديد النص text = "The price\t of burger \nin BurgerKing is Rs.36.\n" # لتأدية المطلوب WhitespaceTokenizer المعرفة ضمن الكلاس tokenize استخدام الدالة tokens = tk.tokenize(text) print(tokens) # ['The', 'price', 'of', 'burger', 'in', 'BurgerKing', 'is', 'Rs.36.'] تم التعديل في 9 ديسمبر 2021 بواسطة Ali Haidar Ahmad 1 اقتباس رابط هذا التعليق شارك على الشبكات الإجتماعية More sharing options...
-1 Ahmed Sharshar نشر 10 ديسمبر 2021 أرسل تقرير مشاركة نشر 10 ديسمبر 2021 يمكنك إزالة n\ ببساطة بعدما نقوم بتحليل النص كالتالي: text = '''\n Apple has quietly hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n. He will continue working at the hospital part time \n ''' tokenized_sent_before_remove_n = nltk.sent_tokenize(text) >>> ['\n Apple has quietly hired Dr. Rajiv B. Kumar, a pediatric endocrinologist \n.', 'He will continue working at the hospital part time'] tokenized_sent_after_remove_n = [x.replace('\n','') for x in tokenized_sent] >>> [' Apple has quietly hired Dr. Rajiv B. Kumar, a pediatric endocrinologist .', 'He will continue working at the hospital part time'] وبنفس الطريقة تستطيع إزالة t\ كما استخدمناها لإزالة n\. اقتباس رابط هذا التعليق شارك على الشبكات الإجتماعية More sharing options...
السؤال
إياد أحمد
لدي بعض النصوص التي تحتوي على العديد من الفراغات ورموز t\ و n\، وأريد تنفيذ عملية tokinezation على النصوص، لذا هل هناك حل للتخلص من هذه الفراغات أو تجاهلها؟
هذه عينة من النصوص:
"The price\t of burger \nin BurgerKing is Rs.36.\n"
رابط هذا التعليق
شارك على الشبكات الإجتماعية
2 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.