اذهب إلى المحتوى
  • 0

BI DWH BIG Data

السؤال

نشر

السلام عليكم 
في الدورة الخاصة بتحليل البيانات أظننا لم نتعرض لل Big Data ؟ فما هي ال Big Data , DI DWH ؟ 
وما هو PySpark ؟
وكيفية إدارة  Big data management؟
وما هو PLSQL ؟ 
وما هو DataWarehouse ,ETL ؟
وهل هناك مصادر مجانية بإماكنك أن ترشوحها لي لمعرفة ال Big data وإن كان في أكاديمية حسوب ففي أي مسار ؟
وجزاكم الله خيرا 

Recommended Posts

  • 0
نشر

وعليكم السلام ورحمة الله،

في دورة الذكاء الاصطناعي مسار تحليل البيانات لا يتناول موضوع البيانات الضخمة (Big Data) أو تقنياتها لأنّ هذا المجال واسع بحدّ ذاته وقد يحتاج إلى مسار أو اثنين منفصلين وفي بعض الحالات إلى دورة كاملة لشرحه وقد يتم إضافته مستقبلا في التحديثات القادمة، فالبيانات الضخمة هي كميات هائلة من البيانات التي تتطلب تقنيات خاصة لمعالجتها وتخزينها بسبب حجمها وسرعتها وتنوعها، ويتم إدارتها عبر بنى تحتية موزعة وبرمجيات متخصصة ضمن مفهوم يعرف ب Big Data management.

أما PySpark فهو إطار عمل بلغة بايثون يتيح معالجة البيانات الضخمة باستخدام محرك Apache Spark بينما PLSQL فهي لغة برمجة خاصة بقواعد بيانات Oracle تمكن من كتابة إجراءات وبرامج داخل قاعدة البيانات.

يمكنك الاطلاع أكثر من هنا:

  • 0
نشر

وعليكم السلام ورحمة الله وبركاته.

إن البيانات الضخمة (Big Data) هو مصطلح يصف الكميات الهائلة والمعقدة من البيانات التي لا يمكن معالجتها أو تحليلها باستخدام الطرق التقليدية العادية. وتتميز هذه البيانات بثلاث خصائص رئيسية تعرف بـ 3Vs:

  • الحجم (Volume): وهنا كمية البيانات تكون كبيرة جدا .
  • السرعة (Velocity): يتم إنتاج البيانات بسرعة عالية جدا وبشكل مستمر مثل بيانات وسائل التواصل الاجتماعي أو أجهزة الاستشعار وغيرها.
  • التنوع (Variety): تأتي البيانات بأشكال مختلفة منها البيانات المنظمة مثل جداول قواعد البيانات وغير المنظمة مثل النصوص والصور ومقاطع الفيديو.

أما إدارة البيانات الضخمة (Big Data Management) فهي عملية جمع وتخزين ومعالجة وتحليل كميات كبيرة من البيانات لضمان جودتها وأمانها وإتاحتها لاتخاذ قرارات أفضل وتتضمن هذه العملية عدة خطوات وتقنيات منها:

  • تكامل البيانات (Data Integration) حيث يتم جمع البيانات من مصادر متعددة.
  • تخزين البيانات (Data Storage) وهنا يتم إستخدام أنظمة تخزين تستطيع على التعامل مع الحجم الهائل والكبير للبيانات مثل أنظمة الملفات الموزعة .
  • معالجة البيانات (Data Processing) عن طريق استخدام أدوات قوية لمعالجة هذه البيانات بسرعة وهنا يأتي دور PySpark.
  • حوكمة البيانات (Data Governance) وهي وضع سياسات ومعايير لضمان جودة البيانات وأمانها والامتثال للقوانين.

وPySpark هو واجهة برمجية (API) بلغة بايثون لمحرك Apache Spark وإطار عمل قوي ومفتوح المصدر لمعالجة البيانات الضخمة بشكل موزع وعلى نطاق واسع. فببساطة PySpark يسمح للمطورين وعلماء البيانات باستخدام لغة بايثون لكتابة أكواد يمكنها تحليل ومعالجة كميات هائلة من البيانات بسرعة فائقة عن طريق توزيع المهام على مجموعة من الأجهزة . وأهم استخداماته:

  • تحليل البيانات الضخمة.
  • تعلم الآلة (Machine Learning) على مجموعات بيانات كبيرة.
  • معالجة البيانات (Streaming Data) في الوقت الفعلي.

أما مستودع البيانات (Data Warehouse) هو نظام مركزي لتخزين كميات كبيرة من البيانات من مصادر متنوعة داخل المؤسسة والهدف الأساسي منه ليس إدارة العمليات اليومية بل دعم عمليات التحليل الذكي للأعمال (Business Intelligence - BI) واتخاذ القرارات الاستراتيجية ويتم تنظيم البيانات فيه بشكل يسهل عمل الاستعلامات التحليلية وإنشاء التقارير.

وETL هي عملية أساسية لبناء مستودع البيانات وتتكون من ثلاث مراحل:

  • الاستخراج (Extract): سحب البيانات من مصادر مختلفة.
  • التحويل (Transform): تنظيف البيانات وتنسيقها وتحويلها لتكون متوافقة مع هيكل مستودع البيانات وقد تتضمن هذه المرحلة دمج البيانات وإزالة التكرار وتغيير التنسيقات.
  • التحميل (Load): تحميل البيانات المحولة إلى مستودع البيانات (DWH) لتكون جاهزة للتحليل.

أما DI (Data Integration) تكامل البيانات فهو مصطلح أشمل من ETL. وإنه يشير إلى جميع العمليات والتقنيات المستخدمة لدمج البيانات من مصادر مختلفة لتقديم رؤية موحدة وشاملة ويمكن أن يتم تكامل البيانات بعدة طرق، ويعتبر ETL أحد أشهر هذه الطرق.

و أخيرا PL/SQL (Procedural Language/Structured Query Language) هي لغة برمجة إجرائية تم تطويرها بواسطة شركة أوراكل كإمتداد للغة SQL وبينما تستخدم SQL للتعامل مع البيانات تضيف PL/SQL إمكانيات برمجية مثل:

  • المتغيرات (Variables).
  • الحلقات التكرارية (Loops).
  • الجمل الشرطية (IF-THEN-ELSE).
  • معالجة الأخطاء (Exception Handling).

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...