هل أستطيع تحويل ملفات PDF إلى نص في بايثون؟

TheProgrammer · 19 أكتوبر 2015

هل يوجد أي وحدة في بايثون لتحويل ملفات PDF إلى نص لاستخدامه؟ حاولت باستخدام pypdf لكن النص الناتج لا يحتوي على فراغات لذلك أصبح متداخل وبدون فائدة.

هشام رزق الله · 19 أكتوبر 2015

إن pyPDF يعمل بدون مشاكل (إذا افترضنا أنك تعمل على ملفات PDF جيّدة التكوين)، فإذا أردت أن تحصل على نص (مع الفراغات)، فكل ما يجب عليك فعله هو كتابة الشفرة البرمجية التالية:

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
for page in pdf.pages:
    print page.extractText()

ملاحظات حول استخراج النصوص عن طريق pyPDF:
تقوم الشيفرات السابقة بتتبع تيار(stream) النص ومن ثم ستقوم بطباعته، وهذا الأمر سيعمل لبعض أنواع ملفات PDF ونادرا مع أنواع أخرى من ملفات PDF حسب المولد الذي تم استخدامه لإنشاء ملف PDF.
يمكنك أيضا استخدام حزمة PDFMiner لاستخراج النصوص من ملف PDF وتحويلها إلى ملفات HTML أو SGML، وهذه الحزمة أفضل من سابقتها لكنها أكثر تعقيدا في الاستخدام.

Qor Qar · 12 أكتوبر 2023

https://drive.google.com/file/d/1NilUsumGAykUnNPmnc-bSWP9PCmHmbhs/view?usp=drivesdk

صور مثل ذلك كيف استخرج النص والرسمة

الى ملف وورد اقدر اعدل ع النص والرسم

كيف استخدام

Mutpollib

مع tesseract

لاستخراج الرسم والنصوص

Qor Qar · 17 أكتوبر 2023

لو ممكن حد يجرب اى فكرة على الصورة الخاضة بى

ويصور ماذا فعل نتعلم منه

هل أستطيع تحويل ملفات PDF إلى نص في بايثون؟

السؤال

TheProgrammer

3 أجوبة على هذا السؤال

Recommended Posts

هشام رزق الله

Qor Qar

Qor Qar

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية