اذهب إلى المحتوى

كيفية التعامل مع البيانات في Google Colab


Rahaf Hammed

تُعد مشكلة نفاد الذاكرة من أبرز المشكلات التي تواجه الباحثين والعاملين في مجال الذكاء الاصطناعي. خاصةً عندما يحاول المبرمج تنفيذ خوارزمية التعلم الآلي أو التعلم العميق على مجموعة بيانات كبيرة باستخدام Jupyter.

عندما تعمل على بناء مشاريع تتعلق بعلم البيانات، فأنت تحتاج إلى التعامل مع مجموعات بيانات ضخمة تتراوح أحجامها من 100 ميغابايت إلى عدة غيغابايت. ويستغرق تحميل مجموعة بيانات ذات حجم كبير وقتًا طويلًا، ويُعد التعامل مع مجموعات البيانات الضخمة أمرًا صعبًا.

تتطلب مشاريع التعلم العميق قوةً سحابيةً غير محدودة، ووحدة معالجة رسومات بمواصفات عالية. ويشكل هذا عائقًا كبيرًا أمام الطلاب والمهتمين بعلوم البيانات والذكاء الاصطناعي. ولذلك قدمت غوغل حلًا رائعًا لهم، من خلال منصة غوغل كولاب Google Colab، التي تمكنهم من التعامل مع مجموعات البيانات الضخمة وبناء نماذج برمجية معقدة، ومشاركة الملفات بسهولة مع الآخرين.

سنقدم في هذا المقال دليلًا لكيفية التعامل مع الملفات والبيانات باستخدام Google Colab، وما هي أهم الأوامر والتعليمات التي تحتاجها.

استخدام Google Colab لتدريب نماذج التعلم العميق

Google Colab هو بيئة Jupyter سحابية مجانية، تسمح للمستخدمين بتدريب نماذج التعلم الآلي والتعلم العميق على وحدات المعالجة المركزية ووحدات معالجة الرسومات. وكل ما تحتاجه هو حساب غوغل ومتصفح ويب.

الميزة الأبرز التي توفرها منصة غوغل كولاب هي القوة الحاسوبية الهائلة وسرعة تنفيذ النماذج بفضل وحدات معالجة الرسومات GPU وTPU. تستغرق نماذج التدريب وخاصةً نماذج تدريب التعلم العميق ساعات عديدة على وحدة المعالجة المركزية المثبتة على الأجهزة العادية، بينما يمكن لوحدات معالجة الرسومات GPU وTPU التي توفرها منصة غوغل كولاب تدريب هذه النماذج في غضون دقائقٍ أو ثوانٍ.

تتميز نماذج التعلم العميق بأنها تحتاج قدرات حوسبة عالية، ولذلك دمجت وحدة المعالجة Tensor (TPU) في Google Colab، وهي ASIC مصممة من الألف إلى الياء لتدريب نماذج التعلم الآلي. اي

اقتباس

ملاحظة: ASIC هي شريحة ميكروية مصممة لاستخدام معين مثل نوع بروتوكول الإرسال أو جهاز حاسوب محمول باليد. ويمكن تشبيهها بالمعالج الدقيق الموجود في جهاز الحاسوب العادي.

يمكن تشغيل الجلسة في غوغل كولاب لمدة 12 ساعة، وهذا كافٍ لمعظم الطلاب والمبتدئين لتلبية احتياجاتهم الحسابية.

استخدام غوغل كولاب

يمكنك استخدام الخلية البرمجية لتشغيل الأوامر والتعليمات. معظم المكتبات التي تحتاجها مثبتة افتراضيًا على غوغل كولاب، مكتبات بايثون مثل Pandas وNumPy وscikit-Learn كلها مثبتة مسبقًا.

ويمكنك تثبيت أي مكتبة أخرى باستخدام التعليمة التالية:

!pip install library_name

استخدام منصة غوغل كولاب مطابق تمامًا لاستخدام Jupyter، باستثناء أنه يجب وضع علامة تعجب قبل كتابة أي أمر، مثل ls! أو pwd!

حفظ دفتر الملاحظات في Google Colab

تُخزّن جميع دفاتر الملاحظات الموجودة على Google Colab على حسابك على غوغل درايف. وتُحفظ هذه الملفات تلقائيًا بعد فترة زمنية معينة دون أن تفقد تقدمك. يمكنك تصدير دفتر الملاحظات Notebook وحفظه بتنسيقات "py." أو "ipynb.". ويمكنك أيضًا حفظ نسخة دفتر الملاحظات مباشرةً على منصة GitHub، أو إنشاء GitHub Gist.

يمكنك تصدير ملفاتك مباشرةً إلى Google colab أو أن تُصدَّر الملفات مباشرةً إلى غوغل درايف، وهو يُعد خيارًا أفضل عندما تكون لديك ملفات ذات حجم كبير أو عدد كبير من الملفات. وستلاحظ هذه الفروق الدقيقة أثناء عملك على مشاريع أكبر في كولاب.

من خلال غوغل كولاب، يمكن مشاركة المشاريع بطريقة سهلة مع الآخرين. فقط انقر على زر "share"، وسيظهر خيار إنشاء رابط قابل للمشاركة، كما يمكنك دعوة الآخرين باستخدام عناوين البريد الإلكتروني، وهو مشابه لمشاركة مستند غوغل أو جداول بيانات غوغل.

تحميل الملفات ومجموعات البيانات

تُعد القدرة على استيراد مجموعات البيانات إلى غوغل كولاب الخطوة الأولى لاستخدام ومعالجة البيانات. ويمكنك أن تنفذ هذه الخطوة بعدة طرائق؛ والطريقة الأساسية هي من خلال تحميل مجموعة البيانات مباشرةً إلى كولاب. يمكنك استخدام هذه الطريقة فقط إذا كانت مجموعة البيانات أو الملف صغيرًا جدًا، لأن سرعة التحميل بهذه الطريقة منخفضة جدًا.

الطريقة الثانية لتحميل مجموعات البيانات هي من خلال تحميل هذه البيانات على غوغل درايف، ثم تركيب محرك الأقراص على غوغل كولاب، ويمكنك القيام بذلك بنقرة واحدة على الفأرة. وفي الفقرة التالية سنوضح أهم الطرائق للتحميل إلى غوغل كولاب.

طرق تحميل البيانات إلى Google colab

توجد عدة طرق لتحميل مجموعات البيانات واستخدامها في منصة غوغل كولاب، وأهمها:

طريقة تحميل البيانات من GitHub

يوفر غوغل كولاب طرقًا سهلةً لتحميل ملفات البيانات. ويُعد تحميل البيانات من GitHub هو الطريقة الأسهل0 ولتحميل ملف csv من مستودع GitHub، عليك أن تنقر فوق مجموعة البيانات في المستودع ثم انقر على "View Raw". انسخ الرابط وخزّنه كمتغير يسمى url. اقرأ بعد ذلك مجموعة البيانات باستخدام تعليمة read_csv، كما هو موضح في الصورة:

01تحميل البيانات.PNG

طريقة تحميل البيانات من محرك الأقراص المحلي

لتحميل البيانات من محرك الأقراص المحلي، يجب استخدام التعليمات التالية:

from google.colab import files
uploaded = files.upload()

سيظهر زر جديد لاختيار الملفات كما توضح لقطة الشاشة التالية:

02اختيار_ملفات.PNG

انقر فوق زر "اختيار الملفات"، ثم حدد الملف وحمّله. انتظر حتى يحمّل الملف بنسبة 100%، ثم استخدم الأوامر التالية لاستيراده إلى dataframe، (تأكد من مطابقة اسم الملف filename مع الملف الذي تريد تحميله):

import io
df2 = pd.read_csv(io.BytesIO(uploaded['Filename.csv']))
اقتباس

ملاحظة: Dataframe أو إطار البيانات هو هيكل بيانات يشبه الجدول مُستخدَم بلغة البرمجة بايثون، يستخدمه الإحصائيون والمبرمجون في الشيفرات البرمجية المتعلقة بتحليل البيانات.

طريقة تحميل البيانات من غوغل درايف

يمكنك تحميل البيانات من غوغل درايف واستخدامها في مشاريعك؛ ويجب أولًا استخدام الأوامر البرمجية التالية لتتمكن من الوصول إلى ملفات درايف:

03درايف.png

ستتمكن الآن من الوصول إلى الملفات المحفوظة في حسابك على غوغل درايف. في دفتر الملاحظات في Google Colab، انتقل إلى الجزء العلوي الأيسر، توجد قائمة ملف حيث يمكنك تحميل ملفات من جهازك أو من غوغل درايف. حدِّد موقع الملف المحفوظ في درايف، وانسخ مسار ملف csv في دفتر الملاحظات واقرأ البيانات باستخدام تعليمة ()read_csv.

قراءة البيانات

يمكنك قراءة مجموعة بيانات محفوظة بتنسيق csv باستخدم مكتبة Pandas من خلال التعليمات التالية:

import pandas as pd
data = pd.read_csv('filename.csv')

في حال كان الملف بتنسيق مضغوط، يجب أولًا فك ضغط الملف، وذلك إما بالطريقة اليدوية أو باستخدام الأمر التالي:

!unzip 'filepath'

بالنسبة إلى مسار الملف filepath، انسخه ثم ألصقه في التعليمة، وسيُفَك ضغط الملف على الفور. إذا كان الملف المضغوط بصيغة مختلفة، فيمكنك استخدام أوامر مختلفة لفك الضغط مثل: untar وunrar وtar وrar.

عمومًا، عندما نبني نماذج التعلم الآلي والتعلم العميق، يجب أولًا معالجة ملف البيانات الخام مسبقًا قبل استخدامه في النموذج. ومن المهم أحيانًا حفظ البيانات المعالجة مسبقًا لاستخدامها في النماذج الأخرى.

لحفظ ملف البيانات يجب تنزيله من غوغل كولاب وتخزينه على جهاز الحاسوب المحلي. ولكن قد يكون تنزيل هذه البيانات من غوغل كولاب بطيئًا، ويستهلك الكثير من موارد الإنترنت. لذا، فلتجنب هذه المشكلة، استخدم غوغل درايف، وانقل ملفاتك مباشرةً من غوغل كولاب إلى غوغل درايف، بحيث يمكنك استخدامها متى احتجت إليها.

أحد التحذيرات المهمة التي يجب أن تضعها بالحسبان عند استخدام Google Colab، هي أنّ الملفات التي تحمّلها عليه لن تكون متاحةً إلى الأبد؛ إذ تُعَد منصة غوغل كولاب بيئةً مؤقتة، والمدة المتاحة للجلسة هي 12 ساعة فقط. عند قطع الاتصال تفقد جميع المتغيرات والحزم المثبتة والملفات، وعند إعادة الاتصال ستظهر لك بيئة جديدة تمامًا ونظيفة.

يحتوي Colab على مساحة قرص محدودة تبلغ 108 غيغابايت، منها 77 غيغابايت فقط متاحة للمستخدم. وهذه المساحة كافية لمعظم المهام، ولكن مع ذلك كن حذرًا عند التعامل مع مجموعات بيانات أكبر مثل بيانات الصور أو الفيديو.

يوفر Google Colab إصدارًا مدفوعًا يسمى Google Colab Pro باشتراكات شهرية. يمكّنك هذا الإصدار من الحصول على وحدة معالجة الرسومات Tesla T4 أو Tesla P100 ومن استخدام ذاكرة وصول عشوائي بحجم 27 غيغابايت، كما أن مدة الجلسة تتضاعف عند استخدام Google Colab Pro لتصل إلى 24 ساعة.

رغم وجود بعض العيوب في غوغل كولاب، إلا أنه الخيار الأفضل للطلاب والباحثين في مجال علم البيانات والذكاء الاصطناعي. ويُعد أداةً رائعة للمستخدمين الذين يرغبون في الاستفادة من قوة موارد الحوسبة المتطورة مثل وحدات معالجة الرسومات.

اقرأ أيضًا


تفاعل الأعضاء

أفضل التعليقات

لا توجد أية تعليقات بعد



انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أضف تعليق

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.


×
×
  • أضف...