كيف يمكننا القيام بعملية Untokenize باستخدام nltk في بايثون

16 ديسمبر 2021

هناك العديد من الطرق للقيام بعملية tokenizing للنص في nltk على سبيل المثال:

from nltk.tokenize import word_tokenize
text = '''I'll be there within 5 min.'''
word_tokenize(text)
# ['I', "'ll", 'be', 'there', 'within', '5', 'min', '.']

لكن ماذا عن العملية العكسية أي Untokenize، كيف نقوم بذلك؟

16 ديسمبر 2021

نعم يمكنك استخدام TreebankWordDetokenizer للقيام بذلك بالشكل التالي:

from nltk.tokenize.treebank import TreebankWordDetokenizer
TreebankWordDetokenizer().detokenize(['I', "'ll", 'be', 'there', 'within', '5', 'min', '.'])
# I'll be there within 5 min.

كيف يمكننا القيام بعملية Untokenize باستخدام nltk في بايثون

السؤال

إياد أحمد

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية