اذهب إلى المحتوى

السؤال

نشر (معدل)

أعمل على تطوير شبكة RNN و الآن أنا في مرحلة المعالجة المسبقة للنصوص، وأحتاج إلى اشتقاق الكلمات لكي أقوم بتخفيضها في النصوص. كما تعلمون فإن ال Stemming يقوم بتحويلات مثل تحويل مجموعة الكلمات التالي:
 “chocolates”, “chocolatey”, “choco”
إلى كلمة جذر وحيدة هي: “chocolate”
لذا هل هناك طريقة للإيجاد جذر الكلمة ؟ مثلاً في NLTK؟
 

تم التعديل في بواسطة إياد أحمد

Recommended Posts

  • 0
نشر

تمنحك NLTK الوحدة PorterStemmer للقيام بعملية ال Stemming تابع معي المثال التالي:

# استيراد الوحدات
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
# PorterStemmer إنشاء غرض من الكلاس
ps = PorterStemmer()
# تحديد نص
text = "Programming, programmers and computer programs are great things"
# tokens تقسيم النص إلى 
tokens = word_tokenize(text)
# المرور على كل كلمة 
for token in tokens:
    # من الكلاس السابق stem عرض الكلمة وجذرها من خلال الدالة 
	print(str(token), " : " + str(ps.stem(token)))
"""
Programming  : program
programmers  : programm
and  : and
computer  : comput
programs  : program
are  : are
great  : great
things  : thing
"""

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...