اذهب إلى المحتوى
  • 0

حذف الحروف المكررة باستخدام nltk في بايثون

إياد أحمد

السؤال

Recommended Posts

  • 1

يمكنك القيام بذلك من خلال wordnet و الوحدة regex في بايثون، فيما يلي سأقوم ببناء كلاس يمكنك استخدامه لحذف الحروف المكررة من أي نص:

# nltk و regex سنستخدم مكتبيتي 
import re
from nltk.corpus import wordnet
# سأقوم بتعريف كلاس يمكنك استخدامه لحذف الأحرف المكررة من أي نص
class Rep_word_removal(object):
   def __init__(self):
      self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
      self.repl = r'\1\2\3'
   def replace(self, word):
      if wordnet.synsets(word):
         return word
      replace_word = self.repeat_regexp.sub(self.repl, word)
      if replace_word != word:
          return self.replace(replace_word)
      else:
          return replace_word

الاستخدام:

# لاستخدامه
# أنشئ كائن من هذا الكلاس
rep_word = Rep_word_removal()
rep_word.replace ("hiiiiii i am soooooooooo happy")
# hi i am so hapy

 

رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...