اذهب إلى المحتوى
  • 0

ايجاد نسبة التشابه بين النصوص

ميرزا خيرو

السؤال

Recommended Posts

  • 0

يمكنك الإعتماد على مكتبات مثل difflib أو fuzzywuzzy، وسأوضح لك كيفية القيام بذلك باستخدام مكتبة fuzzywuzzy.

يجب عليك تثبيت المكتبة إذا لم تكن مثبتة بالفعل باستخدام pip:

pip install fuzzywuzzy

ثم استخدامها كالتالي:

from fuzzywuzzy import fuzz

# النصوص التي ترغب في مقارنتها
text1 = "النص الأول"
text2 = "النص الثاني"

# احتساب نسبة التشابه بين النصوص
similarity_ratio = fuzz.ratio(text1, text2)

print("نسبة التشابه بين النصوص:", similarity_ratio)

الكود سيعممل على حساب نسبة التشابه بين النصوص text1 و text2 ويطبعها لك، والنتيجة ستكون قيمة بين 0 و100، حيث 0 يعني أنهما غير متشابهين تمامًا و100 يعني أنهما متطابقين تمامًا من ناحية الترتيب والمحتوى.

رابط هذا التعليق
شارك على الشبكات الإجتماعية

  • 0
بتاريخ 21 ساعة قال ميرزا خيرو:

ايجاد نسبة التشابه بين النصوص

بتاريخ 21 ساعة قال ميرزا خيرو:

 

يمكنك اتباع الخطوات التالية لإيجاد نسبة التشابه بين النصوص:

  • في البداية يجب عليك تقسيم النص إلى جمل لتستطيعي حساب التشابه بين جمله أو اذا كان لديك نص تستطيعي اعتبار النص الأول هو الجملة الأولى والنص الثاني هو الجملة الثانية، في حال كان نص واحد ونريد تقسيم جمله يتم ذلك عبر الاتي
    #استدعاء مكتبة nltk وتنزيل قاموس اللغة الانجليزية
    import nltk
    nltk.download('punkt')
    
    from nltk.tokenize import sent_tokenize
    # النص المطلوب حساب التشابه بين جمله 
    text = "I like NLP. I like machine learning. I like deep learning."
    
    # تقسيم النص إلى جمل
    sentences = sent_tokenize(text)

     

  • بعد ذلك يتم تحويل هذه الجملة إلى سمات باستخدام tf_idf
    from sklearn.feature_extraction.text import TfidfVectorizer
    
    # إنشاء كائن tfidf_vectorizer
    tfidf_vectorizer = TfidfVectorizer()
    
    # تحويل قائمة documents إلى مصفوفة TF-IDF
    tfidf_matrix = tfidf_vectorizer.fit_transform(sentences)
  • بعد ذلك يمكنك حساب التشابه بين الجملة الأولى وبقية جمل النص عبر الاتي
    from sklearn.metrics.pairwise import cosine_similarity
    
    # حساب التشابه بين الجملة الأولى وبقية الجمل
    similarity_scores = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1:])
    
    # طباعة نتائج التشابه
    for i, percetne in enumerate(similarity_scores[0]):
        print("'I like NLP' and '{}': {}".format(sentences[i+1], percetne))
    
    #طباعة الجملة الاولى مع الجملة التالية من النص وقيمة التشابه بينهما
    Similarity between 'I like NLP' and 'I like machine learning': 0.81649
    Similarity between 'I like NLP' and 'I like deep learning': 0.816496

    تستطيع تغيير حساب التشابه كما تشائين بتغيير الارقام في هذا السطر

    similarity_scores = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1:])
رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...