اذهب إلى المحتوى
  • 0

هل أستطيع تحويل ملفات PDF إلى نص في بايثون؟

TheProgrammer

السؤال

هل يوجد أي وحدة في بايثون لتحويل ملفات PDF إلى نص لاستخدامه؟ حاولت باستخدام pypdf لكن النص الناتج لا يحتوي على فراغات لذلك أصبح متداخل وبدون فائدة.

رابط هذا التعليق
شارك على الشبكات الإجتماعية

Recommended Posts

  • 0

إن pyPDF يعمل بدون مشاكل (إذا افترضنا أنك تعمل على ملفات PDF جيّدة التكوين)، فإذا أردت أن تحصل على نص (مع الفراغات)، فكل ما يجب عليك فعله هو كتابة الشفرة البرمجية التالية:

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
for page in pdf.pages:
    print page.extractText()

ملاحظات حول استخراج النصوص عن طريق pyPDF:
تقوم الشيفرات السابقة بتتبع تيار(stream) النص ومن ثم ستقوم بطباعته، وهذا الأمر سيعمل لبعض أنواع ملفات PDF ونادرا مع أنواع أخرى من ملفات PDF حسب المولد الذي تم استخدامه لإنشاء ملف PDF.
يمكنك أيضا استخدام حزمة PDFMiner لاستخراج النصوص من ملف PDF وتحويلها إلى ملفات HTML أو SGML، وهذه الحزمة أفضل من سابقتها لكنها أكثر تعقيدا في الاستخدام.

رابط هذا التعليق
شارك على الشبكات الإجتماعية

  • 0

https://drive.google.com/file/d/1NilUsumGAykUnNPmnc-bSWP9PCmHmbhs/view?usp=drivesdk

صور  مثل ذلك كيف استخرج النص والرسمة

الى ملف وورد اقدر اعدل ع النص والرسم

كيف استخدام 

Mutpollib

مع tesseract

لاستخراج الرسم والنصوص

رابط هذا التعليق
شارك على الشبكات الإجتماعية

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...