اذهب إلى المحتوى

السؤال

نشر

أعمل على مشروع تحليل مشاعر معتمد على الجانب لإحدى الشركات، وفي هذا النوع من المشاريع فإن الخطوة الأساسية هي تقسيم النص إلى جمل بعد ذلك استخراج وحدات الرأي من النص. لذا ما أحتاجه هنا هو دالة تقوم بتقسيم النص إلى جمل؟

Recommended Posts

  • 1
نشر

يمكنك استخدام الدالة sent_tokenize من NLTK لتقسيم النصوص إلى جمل، على سبيل المثال الجملة التالية:

INPUT:
"Life is like riding a bicycle. To keep your balance, you must keep moving."\
OUTPUT:
'Life is like riding a bicycle.'
'To keep your balance, you must keep moving.'

الحل:

# استيراد الوحدات 
import nltk
from nltk.tokenize import sent_tokenize
# تحديد النص
txt = "Life is like riding a bicycle. To keep your balance, you must keep moving."
# تقسيم النص إلى جمل 
sent = sent_tokenize(txt)
print(sent)
# ['Life is like riding a bicycle.', 'To keep your balance, you must keep moving.']

 

  • -1
نشر

يمكنك كذلك استخدام tokenize لتقسيم الجمل بشكل تلقائي كالتالي:

#تحميل المكتبة
import nltk.data

#تحميل ملف النص
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
fp = open("test.txt")
data = fp.read()
#فصل الملف الى جمل
print ('\n-----\n'.join(tokenizer.tokenize(data)))

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...