تقسيم النص إلى جمل باستخدام NLTK في بايثون

إياد أحمد · 10 ديسمبر 2021

أعمل على مشروع تحليل مشاعر معتمد على الجانب لإحدى الشركات، وفي هذا النوع من المشاريع فإن الخطوة الأساسية هي تقسيم النص إلى جمل بعد ذلك استخراج وحدات الرأي من النص. لذا ما أحتاجه هنا هو دالة تقوم بتقسيم النص إلى جمل؟

Ali Haidar Ahmad · 10 ديسمبر 2021

يمكنك استخدام الدالة sent_tokenize من NLTK لتقسيم النصوص إلى جمل، على سبيل المثال الجملة التالية:

INPUT:
"Life is like riding a bicycle. To keep your balance, you must keep moving."\
OUTPUT:
'Life is like riding a bicycle.'
'To keep your balance, you must keep moving.'

الحل:

# استيراد الوحدات 
import nltk
from nltk.tokenize import sent_tokenize
# تحديد النص
txt = "Life is like riding a bicycle. To keep your balance, you must keep moving."
# تقسيم النص إلى جمل 
sent = sent_tokenize(txt)
print(sent)
# ['Life is like riding a bicycle.', 'To keep your balance, you must keep moving.']

Ahmed Sharshar · 10 ديسمبر 2021

يمكنك كذلك استخدام tokenize لتقسيم الجمل بشكل تلقائي كالتالي:

#تحميل المكتبة
import nltk.data

#تحميل ملف النص
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
fp = open("test.txt")
data = fp.read()
#فصل الملف الى جمل
print ('\n-----\n'.join(tokenizer.tokenize(data)))

تقسيم النص إلى جمل باستخدام NLTK في بايثون

السؤال

إياد أحمد

رابط هذا التعليق

شارك على الشبكات الإجتماعية

2 أجوبة على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

رابط هذا التعليق

شارك على الشبكات الإجتماعية

Ahmed Sharshar

رابط هذا التعليق

شارك على الشبكات الإجتماعية

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية