اذهب إلى المحتوى

السؤال

نشر

هناك العديد من الطرق للقيام بعملية tokenizing للنص في nltk على سبيل المثال:

from nltk.tokenize import word_tokenize
text = '''I'll be there within 5 min.'''
word_tokenize(text)
# ['I', "'ll", 'be', 'there', 'within', '5', 'min', '.']

لكن ماذا عن العملية العكسية أي Untokenize، كيف نقوم بذلك؟

Recommended Posts

  • 0
نشر

نعم يمكنك استخدام TreebankWordDetokenizer للقيام بذلك بالشكل التالي:

from nltk.tokenize.treebank import TreebankWordDetokenizer
TreebankWordDetokenizer().detokenize(['I', "'ll", 'be', 'there', 'within', '5', 'min', '.'])
# I'll be there within 5 min.

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...