اذهب إلى المحتوى
  • 0

كيفية استخدام word_tokenize مع إطار بيانات Dataframe عند استخدام NLTK في بايثون

إياد أحمد

السؤال

أريد استخدام word_tokenize مع إطار بيانات df، وذلك للحصول على جميع الكلمات المستخدمة في صف معين من إطار البيانات ومعرفة طول كل نص.  مثال:

# شكل البيانات
{'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']}
# والخرج المتوقع على سبيل المثال للصف الثاني
'Can','you','please','give','me','a','call','at','9983938428','.','have','issues','with','the','listings'

 

رابط هذا التعليق
شارك على الشبكات الإجتماعية

Recommended Posts

  • 1

يمكنك القيام بذلك من خلال استخدام التابع apply لتطبيق الدالة word_tokenize على كل صف من البيانات:

import pandas as pd
import nltk
# إنشاء إطار البيانات
df = pd.DataFrame({'sentences': ['This is a very good site. I will recommend it to others.', 'Can you please give me a call at 9983938428. have issues with the listings.', 'good work! keep it up']})
#  applay نستخدم الدالة 
df['tokenized_sents'] = df.apply(lambda row: nltk.word_tokenize(row['sentences']), axis=1)
df

سيكون الخرج كما يلي:
Untitled.thumb.png.500e85c58e45542fe78f8ff7d6106f47.png

بعد ذلك نقوم باستخدام الدالة apply مرة أخرى لإيجاد طول كل نص كما يلي:

df['sents_length'] = df.apply(lambda row: len(row['tokenized_sents']), axis=1)

فيصبح الخرج:
Untitled.thumb.png.31e4d49f2237200059d357e458b0a731.png

رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...