TheProgrammer نشر 19 أكتوبر 2015 أرسل تقرير نشر 19 أكتوبر 2015 هل يوجد أي وحدة في بايثون لتحويل ملفات PDF إلى نص لاستخدامه؟ حاولت باستخدام pypdf لكن النص الناتج لا يحتوي على فراغات لذلك أصبح متداخل وبدون فائدة. اقتباس
0 هشام رزق الله نشر 19 أكتوبر 2015 أرسل تقرير نشر 19 أكتوبر 2015 إن pyPDF يعمل بدون مشاكل (إذا افترضنا أنك تعمل على ملفات PDF جيّدة التكوين)، فإذا أردت أن تحصل على نص (مع الفراغات)، فكل ما يجب عليك فعله هو كتابة الشفرة البرمجية التالية:import pyPdf pdf = pyPdf.PdfFileReader(open(filename, "rb")) for page in pdf.pages: print page.extractText() ملاحظات حول استخراج النصوص عن طريق pyPDF:تقوم الشيفرات السابقة بتتبع تيار(stream) النص ومن ثم ستقوم بطباعته، وهذا الأمر سيعمل لبعض أنواع ملفات PDF ونادرا مع أنواع أخرى من ملفات PDF حسب المولد الذي تم استخدامه لإنشاء ملف PDF.يمكنك أيضا استخدام حزمة PDFMiner لاستخراج النصوص من ملف PDF وتحويلها إلى ملفات HTML أو SGML، وهذه الحزمة أفضل من سابقتها لكنها أكثر تعقيدا في الاستخدام. اقتباس
0 Qor Qar نشر 12 أكتوبر 2023 أرسل تقرير نشر 12 أكتوبر 2023 https://drive.google.com/file/d/1NilUsumGAykUnNPmnc-bSWP9PCmHmbhs/view?usp=drivesdk صور مثل ذلك كيف استخرج النص والرسمة الى ملف وورد اقدر اعدل ع النص والرسم كيف استخدام Mutpollib مع tesseract لاستخراج الرسم والنصوص اقتباس
0 Qor Qar نشر 17 أكتوبر 2023 أرسل تقرير نشر 17 أكتوبر 2023 لو ممكن حد يجرب اى فكرة على الصورة الخاضة بى ويصور ماذا فعل نتعلم منه اقتباس
السؤال
TheProgrammer
هل يوجد أي وحدة في بايثون لتحويل ملفات PDF إلى نص لاستخدامه؟ حاولت باستخدام pypdf لكن النص الناتج لا يحتوي على فراغات لذلك أصبح متداخل وبدون فائدة.
3 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.