كيفية إستخراج الكلمات فقط من النص في بايثون؟

Adam Ebrahim · 11 يونيو 2021

لدي نص كالتالي:

x= """Bound methods have been "bound" (how descriptive) to an instance, what about that?!"""

كيف أقوم باستخراج الكلمات فقط بدون باقي علامات التنصيص والاستفهام وغيرها من رومز؟

حاولت أن استخدم التابع replace لحذف هذه العلامات، لكن أخشى أن يقوم المستخدم بإدخال رموز مختلفة أو رموز Emoji، وبالتالي سيكون من المستحيل إزالة كل الرموز الغريبة من النص قبل تقسيمه لكلمات باستخدام التابع split. هل توجد طريقة سريعة لإستخراج الكلمات فقط من النص؟

Nuhla Almasri · 12 يونيو 2021

يمكنك إستخدام Regular Expressions بحيث تجد جميع الأحرف كمصفوفة و من ثم تقوم بتحويل هذه المصفوفة الى string و بطريقة سلهة جدا كالتالي

import re
word1 = " ".join(re.findall("[a-zA-Z]+", st))

و إن أردت أيضا الأرقام فيمكنك إضافة 0-9 داخل الأقواس فيتم جلب الأرقام أيضا

عبدالله عبدالرحمن11 · 12 يونيو 2021

يمكنك إستخدام عدة طرق للحصول على النتيجة المرغوبة ، يمكنك إستخدام حلقة لتقسيم الكلمات من النص والتأكد بإستخدام ()isalpha وإضافتها الى قائمة كالآتي

s = """Bound methods have been "bound" (how descriptive) to an instance, what about that?!"""
x = []
for i in s.split():
    if i.isalpha():
        x.append(i)
print(x)

أو هذا إستخدام دالة findall من حزمة re

import re

x = """Bound methods have been "bound" (how descriptive) to an instance, what about that?!"""

print(re.findall('[a-z]+', x, flags=re.IGNORECASE))

أو هذا الكود

import re

s = """Bound methods have been "bound" (how descriptive) to an instance, what about that?!"""

print(re.findall(r'(?<!\S)[A-Za-z]+(?!\S)', s))

كيفية إستخراج الكلمات فقط من النص في بايثون؟

السؤال

Adam Ebrahim

2 أجوبة على هذا السؤال

Recommended Posts

Nuhla Almasri

عبدالله عبدالرحمن11

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية