• 0

هل أستطيع تحويل ملفات PDF إلى نص في بايثون؟

هل يوجد أي وحدة في بايثون لتحويل ملفات PDF إلى نص لاستخدامه؟ حاولت باستخدام pypdf لكن النص الناتج لا يحتوي على فراغات لذلك أصبح متداخل وبدون فائدة.

انشر على الشّبكات الاجتماعية


رابط هذه المساهمة
  • 0

إن pyPDF يعمل بدون مشاكل (إذا افترضنا أنك تعمل على ملفات PDF جيّدة التكوين)، فإذا أردت أن تحصل على نص (مع الفراغات)، فكل ما يجب عليك فعله هو كتابة الشفرة البرمجية التالية:

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
for page in pdf.pages:
    print page.extractText()

ملاحظات حول استخراج النصوص عن طريق pyPDF:
تقوم الشيفرات السابقة بتتبع تيار(stream) النص ومن ثم ستقوم بطباعته، وهذا الأمر سيعمل لبعض أنواع ملفات PDF ونادرا مع أنواع أخرى من ملفات PDF حسب المولد الذي تم استخدامه لإنشاء ملف PDF.
يمكنك أيضا استخدام حزمة PDFMiner لاستخراج النصوص من ملف PDF وتحويلها إلى ملفات HTML أو SGML، وهذه الحزمة أفضل من سابقتها لكنها أكثر تعقيدا في الاستخدام.

انشر على الشّبكات الاجتماعية


رابط هذه المساهمة

يجب أن تكون عضوًا لدينا لتتمكّن من التعليق

انشاء حساب جديد

يستغرق التسجيل بضع ثوان فقط


سجّل حسابًا جديدًا

تسجيل الدخول

تملك حسابا مسجّلا بالفعل؟


سجّل دخولك الآن