كيفية تطبيق ال Lemmatization على النص باستخدام NLTK في بايثون

إياد أحمد · 12 ديسمبر 2021

أقوم ببعض عمليات المعالجة المسبقة على بياناتي النصي (أعمل على بناء نظام استرجاع)، وأريد تطبيق عملية Lemmatization على النصوص (أي ربط الكلمات ذات المعاني المتشابهة بكلمة واحدة -مفهوم أكثر تعميماً من الاشتقاق البسيط حيث يقوم بتحليل موروفولوجي للنص-). لذا هل هناك طريقة للقيام بذلك في NLTK؟
على سبيل المثال :

corpora --> corpus
rocks --> rock
better --> good

Ali Haidar Ahmad · 12 ديسمبر 2021

توفر لك NLTK الوحدة WordNetLemmatizer التي تحتوي الدالة lemmatize للقيام بماتريده، حيث تأخذ هذه الدالة وسيطين الأول هو الكلمة المطلوبة، والثاني هو ال POST الخاص بها:

lemmatize(word: str, pos: str = "n")

pos: يمكن أن تكون:

"n": اسم
"v" فعل
"a": صفة adjectives
"r": ضمير adverbs 
"s": satellite adjectives

وافتراضياً تكون اسم. مثال:

# WordNetLemmatizer استيراد الوحدة
from nltk.stem import WordNetLemmatizer
# WordNetLemmatizer إنشاء كائن من 
lz = WordNetLemmatizer()
# مع تمرير الكلمة المطلوية lemmatize الآن يمكنك استخدام الدالة 
print("rocks :", lz.lemmatize("rocks", pos ="n"))
print("corpora :", lz.lemmatize("corpora", pos ="n"))
# a denotes adjective in "pos"
print("better :", lz.lemmatize("better", pos ="a"))
"""
rocks : rock
corpora : corpus
better : good
"""

كيفية تطبيق ال Lemmatization على النص باستخدام NLTK في بايثون

السؤال

إياد أحمد

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية