اذهب إلى المحتوى

السؤال

نشر

أريد استخدام word_tokenize مع إطار بيانات df، وذلك للحصول على جميع الكلمات المستخدمة في صف معين من إطار البيانات ومعرفة طول كل نص.  مثال:

# شكل البيانات
{'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']}
# والخرج المتوقع على سبيل المثال للصف الثاني
'Can','you','please','give','me','a','call','at','9983938428','.','have','issues','with','the','listings'

 

Recommended Posts

  • 1
نشر

يمكنك القيام بذلك من خلال استخدام التابع apply لتطبيق الدالة word_tokenize على كل صف من البيانات:

import pandas as pd
import nltk
# إنشاء إطار البيانات
df = pd.DataFrame({'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']})
#  applay نستخدم الدالة 
df['tokenized_sents'] = df.apply(lambda row: nltk.word_tokenize(row['sentences']), axis=1)
df

سيكون الخرج كما يلي:
Untitled.thumb.png.500e85c58e45542fe78f8ff7d6106f47.png

بعد ذلك نقوم باستخدام الدالة apply مرة أخرى لإيجاد طول كل نص كما يلي:

df['sents_length'] = df.apply(lambda row: len(row['tokenized_sents']), axis=1)

فيصبح الخرج:
Untitled.thumb.png.31e4d49f2237200059d357e458b0a731.png

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...