كيفية استخدام word_tokenize مع إطار بيانات Dataframe عند استخدام NLTK في بايثون

إياد أحمد · 16 ديسمبر 2021

أريد استخدام word_tokenize مع إطار بيانات df، وذلك للحصول على جميع الكلمات المستخدمة في صف معين من إطار البيانات ومعرفة طول كل نص. مثال:

# شكل البيانات
{'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']}
# والخرج المتوقع على سبيل المثال للصف الثاني
'Can','you','please','give','me','a','call','at','9983938428','.','have','issues','with','the','listings'

Ali Haidar Ahmad · 16 ديسمبر 2021

يمكنك القيام بذلك من خلال استخدام التابع apply لتطبيق الدالة word_tokenize على كل صف من البيانات:

import pandas as pd
import nltk
# إنشاء إطار البيانات
df = pd.DataFrame({'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']})
#  applay نستخدم الدالة 
df['tokenized_sents'] = df.apply(lambda row: nltk.word_tokenize(row['sentences']), axis=1)
df

سيكون الخرج كما يلي:

بعد ذلك نقوم باستخدام الدالة apply مرة أخرى لإيجاد طول كل نص كما يلي:

df['sents_length'] = df.apply(lambda row: len(row['tokenized_sents']), axis=1)

فيصبح الخرج:

كيفية استخدام word_tokenize مع إطار بيانات Dataframe عند استخدام NLTK في بايثون

السؤال

إياد أحمد

رابط هذا التعليق

شارك على الشبكات الإجتماعية

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

رابط هذا التعليق

شارك على الشبكات الإجتماعية

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية