كيفية استخدام word_tokenize مع إطار بيانات Dataframe عند استخدام NLTK في بايثون

إياد أحمد · 16 ديسمبر 2021

أريد استخدام word_tokenize مع إطار بيانات df، وذلك للحصول على جميع الكلمات المستخدمة في صف معين من إطار البيانات ومعرفة طول كل نص. مثال:

# شكل البيانات
{'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']}
# والخرج المتوقع على سبيل المثال للصف الثاني
'Can','you','please','give','me','a','call','at','9983938428','.','have','issues','with','the','listings'

Ali Haidar Ahmad · 16 ديسمبر 2021

يمكنك القيام بذلك من خلال استخدام التابع apply لتطبيق الدالة word_tokenize على كل صف من البيانات:

import pandas as pd
import nltk
# إنشاء إطار البيانات
df = pd.DataFrame({'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']})
#  applay نستخدم الدالة 
df['tokenized_sents'] = df.apply(lambda row: nltk.word_tokenize(row['sentences']), axis=1)
df

سيكون الخرج كما يلي:

بعد ذلك نقوم باستخدام الدالة apply مرة أخرى لإيجاد طول كل نص كما يلي:

df['sents_length'] = df.apply(lambda row: len(row['tokenized_sents']), axis=1)

فيصبح الخرج:

كيفية استخدام word_tokenize مع إطار بيانات Dataframe عند استخدام NLTK في بايثون

السؤال

إياد أحمد

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية