اذهب إلى المحتوى

السؤال

نشر

أحاول تحويل مستند Html إلى نص، على سبيل الكود التالي:

<div class="A">
    <p><strong></strong>Text is available under the Creative Commons Attribution-ShareAlike License
  	</p>
    <p>Consectetuer adipiscing elit. <a href="http://wiki.com/" target="_blank" class="K">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
    <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
</div>

 

Recommended Posts

  • 0
نشر

يمكنك استخدام الدالة get_text للقيما بما تحتاجه كما يلي:

# استيراد الوحدات اللازمة
from bs4 import BeautifulSoup,SoupStrainer
htmlD="""
<div class="A">
    <p><strong></strong>Text is available under the Creative Commons Attribution-ShareAlike License
  	</p>
    <p>Consectetuer adipiscing elit. <a href="http://wiki.com/" target="_blank" class="K">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
    <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
</div>
"""
# BeautifulSoup تحليل الملف الذي تم الحصول عليه من خلال 
soup = BeautifulSoup(htmlD, "lxml")
print(soup.get_text('\n'))
"""

Text is available under the Creative Commons Attribution-ShareAlike License
  	


Consectetuer adipiscing elit. 
Some Link
 Aenean commodo ligula eget dolor. Aenean massa


Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
"""

أو من عنوان url كما يلي:

# استيراد الوحدات اللازمة
from bs4 import BeautifulSoup,SoupStrainer
import requests
#  تحديد العنوان الهدف
url="https://en.wikipedia.org/wiki/Nike,_Inc."
# لكي لايتم اعتبارنا بريد عشوائي وبالتالي تجنب الحظر user agent وإضافة  Header  تعريف 
HEADERS = ({'User-Agent':
		'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36\
		(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36',
			'Accept-Language': 'en-US, en;q=0.5'})
# GET ارسال طلب 
request = requests.get(url, headers= HEADERS)
# استخراج المحتويات
htmldata=request.content
# BeautifulSoup تحليل الملف الذي تم الحصول عليه من خلال 
soup = BeautifulSoup(htmldata, "lxml")
print(soup.get_text())

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...