ايجاد نسبة التشابه بين النصوص

ميرزا خيرو · 18 أكتوبر 2023

بتاريخ الآن قال ميرزا خيرو:

ايجاد نسبة التشابه بين النصوص

بلغة باثيون

Mustafa Suleiman · 18 أكتوبر 2023

يمكنك الإعتماد على مكتبات مثل difflib أو fuzzywuzzy، وسأوضح لك كيفية القيام بذلك باستخدام مكتبة fuzzywuzzy.

يجب عليك تثبيت المكتبة إذا لم تكن مثبتة بالفعل باستخدام pip:

pip install fuzzywuzzy

ثم استخدامها كالتالي:

from fuzzywuzzy import fuzz

# النصوص التي ترغب في مقارنتها
text1 = "النص الأول"
text2 = "النص الثاني"

# احتساب نسبة التشابه بين النصوص
similarity_ratio = fuzz.ratio(text1, text2)

print("نسبة التشابه بين النصوص:", similarity_ratio)

الكود سيعممل على حساب نسبة التشابه بين النصوص text1 و text2 ويطبعها لك، والنتيجة ستكون قيمة بين 0 و100، حيث 0 يعني أنهما غير متشابهين تمامًا و100 يعني أنهما متطابقين تمامًا من ناحية الترتيب والمحتوى.

عمار معلا · 19 أكتوبر 2023

بتاريخ 21 ساعة قال ميرزا خيرو:

ايجاد نسبة التشابه بين النصوص

بتاريخ 21 ساعة قال ميرزا خيرو:

يمكنك اتباع الخطوات التالية لإيجاد نسبة التشابه بين النصوص:

في البداية يجب عليك تقسيم النص إلى جمل لتستطيعي حساب التشابه بين جمله أو اذا كان لديك نص تستطيعي اعتبار النص الأول هو الجملة الأولى والنص الثاني هو الجملة الثانية، في حال كان نص واحد ونريد تقسيم جمله يتم ذلك عبر الاتي
```
#استدعاء مكتبة nltk وتنزيل قاموس اللغة الانجليزية
import nltk
nltk.download('punkt')

from nltk.tokenize import sent_tokenize
# النص المطلوب حساب التشابه بين جمله 
text = "I like NLP. I like machine learning. I like deep learning."

# تقسيم النص إلى جمل
sentences = sent_tokenize(text)
```

بعد ذلك يتم تحويل هذه الجملة إلى سمات باستخدام tf_idf

from sklearn.feature_extraction.text import TfidfVectorizer

# إنشاء كائن tfidf_vectorizer
tfidf_vectorizer = TfidfVectorizer()

# تحويل قائمة documents إلى مصفوفة TF-IDF
tfidf_matrix = tfidf_vectorizer.fit_transform(sentences)

بعد ذلك يمكنك حساب التشابه بين الجملة الأولى وبقية جمل النص عبر الاتي

from sklearn.metrics.pairwise import cosine_similarity

# حساب التشابه بين الجملة الأولى وبقية الجمل
similarity_scores = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1:])

# طباعة نتائج التشابه
for i, percetne in enumerate(similarity_scores[0]):
    print("'I like NLP' and '{}': {}".format(sentences[i+1], percetne))

#طباعة الجملة الاولى مع الجملة التالية من النص وقيمة التشابه بينهما
Similarity between 'I like NLP' and 'I like machine learning': 0.81649
Similarity between 'I like NLP' and 'I like deep learning': 0.816496

تستطيع تغيير حساب التشابه كما تشائين بتغيير الارقام في هذا السطر

similarity_scores = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1:])

ايجاد نسبة التشابه بين النصوص

السؤال

ميرزا خيرو

2 أجوبة على هذا السؤال

Recommended Posts

Mustafa Suleiman

عمار معلا

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية