تحليل جزء محدد فقط من المستند باستخدام BeautifulSoup في بايثون

إياد أحمد · 27 نوفمبر 2021

لدي موقع الويب التالي:
https://en.wikipedia.org/wiki/Nike,_Inc
وأريد تحليل جزء محدد منه على سبيل المثال أريد فقط العناصر التي لها الكلاس mw-headline لذا كيف يمكننا القيام بذلك؟

Ali Haidar Ahmad · 27 نوفمبر 2021

نستخدم الوسيط parse_only والوحدة SoupStrainer والتي من خلالها نحدد أي جزء يجب استخراجه. كما يلي:

# استيراد الوحدات اللازمة
from bs4 import BeautifulSoup
import requests
#  تحديد العنوان الهدف
url="https://en.wikipedia.org/wiki/Nike,_Inc."
# لكي لايتم اعتبارنا بريد عشوائي وبالتالي تجنب الحظر user agent وإضافة  Header  تعريف 
HEADERS = ({'User-Agent':
		'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36\
		(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36',
			'Accept-Language': 'en-US, en;q=0.5'})
# GET ارسال طلب 
request = requests.get(url, headers= HEADERS)

الآن نستخدم الوسيط parse_only في باني bs4 ونمرر له كائن SoupStrainer لتصفية الأجزاء التي نحتاجها فقط من الموقع. لاحظ أن الشرطة السفلية بعد class لن تكون موجودة في حالة تصفية العناصر بناءً على معرفاتهم (IDs). في هذه الحالة، نريد فقط تحليل العناصر التي لها الصنف "mw-headline".

# استيراد الوحدات اللازمة
from bs4 import BeautifulSoup,SoupStrainer
import requests
#  تحديد العنوان الهدف
url="https://en.wikipedia.org/wiki/Nike,_Inc."
# لكي لايتم اعتبارنا بريد عشوائي وبالتالي تجنب الحظر user agent وإضافة  Header  تعريف 
HEADERS = ({'User-Agent':
		'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36\
		(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36',
			'Accept-Language': 'en-US, en;q=0.5'})
# GET ارسال طلب 
request = requests.get(url, headers= HEADERS)
# استخراج المحتويات
htmldata=request.content
# BeautifulSoup تحليل الملف الذي تم الحصول عليه من خلال 
soup = BeautifulSoup(htmldata, "lxml",
                     parse_only = SoupStrainer(
                       'span', class_ = 'mw-headline'))
print(soup.prettify())

الخرج:

"""
<!DOCTYPE html>
<span class="mw-headline" id="Origins_and_history">
 Origins and history
</span>
<span class="mw-headline" id="Acquisitions">
 Acquisitions
</span>
<span class="mw-headline" id="Finance">
 Finance
</span>
<span class="mw-headline" id="Logo_evolution">
 Logo evolution
</span>
<span class="mw-headline" id="Products">
 Products
</span>
<span class="mw-headline" id="Sports_apparel">
 Sports apparel
</span>
<span class="mw-headline" id="Street_fashions">
 Street fashions
</span>
<span class="mw-headline" id="Collectibles">
 Collectibles
</span>
<span class="mw-headline" id="Headquarters">
..
..
..
"""

تحليل جزء محدد فقط من المستند باستخدام BeautifulSoup في بايثون

السؤال

إياد أحمد

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية