اذهب إلى المحتوى

السؤال

Recommended Posts

  • 0
نشر

مرحبًا،

إذا كان الموقع يقوم بهذه العملية فهذا يعني أحد أمرين:

1. الموقع لا يرغب بسحب بياناته بهذا الشكل و بالتالي هذه العملية غير قانونية.

2. الموقع لا يريد الضغط على سيرفراته من قبل عمليات السحب و يريد تنظيمها نوعًا ما.

قد تعتقد أن كلا الحالتين متماثلتين و لكن هناك فرق أنه في الحالة الأولى لن يوجد أي حل (إلا في في حال كان الموقع يقدم ذلك بشكل مدفوع) أما في الحالة الأخرى فقد يوفر الموقع حلولًا مثل API تقوم بالتخاطب معها و هكذا يتم الفصل بين التطبيقات و بين المستخدمين العاديين.

بالتالي عليك البحث ضمن الموقع عما إذا يكون يوفر هذه الميزة أم لا، و إلا تكون تقوم بعمل غير قانوني.

تحياتي.

  • 0
نشر

ما هي المشاكل التي تواجهك عندما تقوم بالإستخراج ؟

إذا كان الموقع يحظر إستخراج البيانات أو يقوم بتصعيب الأمور فأولا هذا الأمر غير قانوني لذلك يرجى الإنتباه لذلك.

أما بخصوص الحظر فهذا يعتمد على الطريقة التي يمنعك الموقع بها . فلو كان الموقع يستخدم التقنيات مثل "CAPTCHA" يمكنك حينها إستخدام ال (HTTP Headers) مثل "User-Agent" و التي تجعل الطلبات تبدو وكأنها تأتي من متصفح حقيقي.

أما بخصوص حظر ال ip فهناك بعض المواقع تسمع بعدد معين من الطلبات في الدقيقة لل ip الواحد ولو كانت عدد الطلبات كبيرة لا تقوم بتنفيذ أى طلب يأتي من هذا ال ip لهذا سيتوجب عليك إستخدام ال Proxies لتوزيع طلباتك على العديد من ال ip حتى لا يتم حظرك وهذا الأمر متقدم قليلا يمكنك البحث في اليوتيوب عن كيفية إستخدام ال Proxies. أو يمكنك تحديد عدد طلبات معين في الدقيقة .

ويمكنك أيضا إستخدام مكتبات مثل Selenium وهي مكتبة مشهورة في بايثون لإستخراج البيانات والتي تحاكي عمل المستخدم على المتصفح مما ستمكنك من تجاوز أكواد ال js أو سبل التحقق CAPTCHA.

 

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...