هناك العديد من الطرق للقيام بعملية tokenizing للنص في nltk على سبيل المثال:
from nltk.tokenize import word_tokenize
text = '''I'll be there within 5 min.'''
word_tokenize(text)
# ['I', "'ll", 'be', 'there', 'within', '5', 'min', '.']
لكن ماذا عن العملية العكسية أي Untokenize، كيف نقوم بذلك؟