اشتقاق الكلمات Stemming باستخدام NLTK في بايثون

إياد أحمد · 12 ديسمبر 2021

أعمل على تطوير شبكة RNN و الآن أنا في مرحلة المعالجة المسبقة للنصوص، وأحتاج إلى اشتقاق الكلمات لكي أقوم بتخفيضها في النصوص. كما تعلمون فإن ال Stemming يقوم بتحويلات مثل تحويل مجموعة الكلمات التالي:
“chocolates”, “chocolatey”, “choco”
إلى كلمة جذر وحيدة هي: “chocolate”
لذا هل هناك طريقة للإيجاد جذر الكلمة ؟ مثلاً في NLTK؟

تم التعديل في 12 ديسمبر 2021 بواسطة إياد أحمد

Ali Haidar Ahmad · 12 ديسمبر 2021

تمنحك NLTK الوحدة PorterStemmer للقيام بعملية ال Stemming تابع معي المثال التالي:

# استيراد الوحدات
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
# PorterStemmer إنشاء غرض من الكلاس
ps = PorterStemmer()
# تحديد نص
text = "Programming, programmers and computer programs are great things"
# tokens تقسيم النص إلى 
tokens = word_tokenize(text)
# المرور على كل كلمة 
for token in tokens:
    # من الكلاس السابق stem عرض الكلمة وجذرها من خلال الدالة 
	print(str(token), " : " + str(ps.stem(token)))
"""
Programming  : program
programmers  : programm
and  : and
computer  : comput
programs  : program
are  : are
great  : great
things  : thing
"""

اشتقاق الكلمات Stemming باستخدام NLTK في بايثون

السؤال

إياد أحمد

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية