Ali Ahmed55 نشر منذ 16 ساعة أرسل تقرير نشر منذ 16 ساعة السلام عليكم هو اي الفرق مابين GPU T4 * 2 - GPU P100 - TPU vm v3-8 ؟ 2 اقتباس
0 Mustafa Suleiman نشر منذ 15 ساعة أرسل تقرير نشر منذ 15 ساعة الفرق يكمن في عدة عوامل مثل البنية المعمارية، حالات الاستخدام، الأداء، والبرمجيات المدعومة. NVIDIA T4 * 2 (GPU مزدوج) البنية المعمارية هنا هي Turing، والذاكرة هي 16 GB GDDR6 لكل بطاقة (إجمالي 32 GB عند استخدام بطاقتين، لكن الذاكرة ليست مُجمَّعة). ومثالية للاستخدام من أجل الاستدلال Inference في نماذج الذكاء الاصطناعي، خاصة مع دعم دقة حسابية مختلطة FP16, INT8. أو التطبيقات التي تتطلب استهلاك طاقة منخفض (TDP 70W لكل بطاقة)، ومعالجة المهام المتوازية الخفيفة كخوادم الويب أو التطبيقات متعددة المستخدمين. لكن أداء محدود في التدريب مقارنةً بالـ P100 أو TPU، وذاكرة غير مُجمَّعة، مما يحد من حجم النموذج الذي يمكن معالجته. أما NVIDIA P100 (GPU) البنية المعمارية هي Pascal، والذاكرة: 16 GB HBM2 مع نطاق ترددي عالٍ (732 GB/s). ممتاز في التدريب المتوسط الحجم لنماذج التعلم العميق، والحسابات العلمية عالية الأداء (HPC) مثل المحاكاة أو تحليل البيانات الضخمة، مع دعم دقة FP64 للحسابات العلمية الدقيقة. يعيبه استهلاك طاقة أعلى (TDP 250W)، وأقل كفاءة في الاستدلال مقارنةً ببطاقات Turing مثل T4. TPU v3-8 (Google’s Tensor Processing Unit) ذلك كرت معالجة مُصمم من قبل جوجل مصمم خصيصًا للذكاء الاصطناعي، بالتالي يمتاز بتكامل سلس مع خدمات جوجل كلاود ومنها AI Platform. والذاكرة 16 GB HBM لكل نواة (8 أنوية، بإجمالي 128 GB ذاكرة مُوزَّعة). ستجد أنه متاح للتدريب السريع للنماذج الضخمة مثل Transformers أو CNNs الكبيرة، والمهام التي تتطلب توازيًا ضخمًا Massive Parallelism، أو الاستدلال على نطاق واسع Batch Inference. لكن يعاب عليه محدودية البرمجيات المدعومة بمعنى تعمل بشكل أفضل مع TensorFlow وJAX، وغير مناسب للحسابات العامة مثل HPC خارج نطاق الذكاء الاصطناعي، أيضًا تكلفة تشغيل أعلى مقارنةً ببعض GPUs. اقتباس
0 Ali Ahmed55 نشر منذ 15 ساعة الكاتب أرسل تقرير نشر منذ 15 ساعة بتاريخ 8 دقائق مضت قال Mustafa Suleiman: TPU v3-8 (Google’s Tensor Processing Unit) ذلك كرت معالجة مُصمم من قبل جوجل مصمم خصيصًا للذكاء الاصطناعي، بالتالي يمتاز بتكامل سلس مع خدمات جوجل كلاود ومنها AI Platform. طيب انا استخدم ده بس حصلت مشكله في التدريب النموذج النموذج لم يتدرب اقتباس
0 Mustafa Suleiman نشر منذ 15 ساعة أرسل تقرير نشر منذ 15 ساعة ما هي المشكلة التي حدثت هل ظهر لك خطأ؟ في الغالب المشكلة من الكود. اقتباس
0 محمد عاطف17 نشر منذ 15 ساعة أرسل تقرير نشر منذ 15 ساعة وعليكم السلام ورحمة الله وبركاته. GPU T4 * 2 : هو وحدة معالجة رسومية (GPU) تأتي من شركة NVIDIA و مصممة لتسريع مهام الذكاء الاصطناعي والتعلم العميق وخصوصا في ال cloud . يستخدم في تدريب النماذج متوسطة الحجم ومعاجلة الصور والفيديوهات . يعتمد على معمارية Turing ويتميز بتقنيات تسريع التعلم العميق مثل Tensor Cores. Tensor Cores في T4 مصممة مخصوص للتعلم العميق مما يساعدك في تسريع العمليات الخاصة بـ التعلم العميق . GPU P100 : هو وحدة معالجة رسومية (GPU) تأتي من شركة NVIDIA. وهو أقوى من المعالج السابق T4 في مهام التدريب الكثيفة خاصة في التعلم العميق ولهذا هو مناسب لتدريب النماذج الكبيرة والمعقدة و الحوسبة العلمية عالية الأداء و تحليل البيانات الضخمة. يعتمد على معمارية Pascal TPU VM v3-8 : هو معالج مخصص يأتي من شركة Google لتسريع تطبيقات التعلم العميق وهو أسرع بكثير في تدريب النماذج الكبيرة جدا مثل الشبكات العصبية العميقة، مقارنة بال GPU و يوفر أداء محسن بشكل كبير في التدريب على النماذج الضخمة والمعقدة يعتمد على معمارية خاصة (TPU) مع وحدة Tensor لتمكين تسريع العمليات الحسابية مثل ضرب المصفوفات. يتميز بدعم كبير للبحث العميق وتحسين النماذج الكبيرة 1 اقتباس
0 Ali Ahmed55 نشر منذ 15 ساعة الكاتب أرسل تقرير نشر منذ 15 ساعة الا مش من الكود الان انا استخدم الGUP 4 اشغل عادي ولكن انا الاسف مش عارف جيب لحضرتك copy الخطاء الان بسخدم الkaggle Notebook بتاريخ 5 دقائق مضت قال Mustafa Suleiman: ما هي المشكلة التي حدثت هل ظهر لك خطأ؟ في الغالب المشكلة من الكود. هو ده --------------------------------------------------------------------------- NotFoundError Traceback (most recent call last) Cell In[24], line 2 1 # Training the Keras model with the specified data, epochs, batch size, and callbacks ----> 2 deep_hit_model.fit( 3 x_train_scaled, 4 {"time-output": y_time_train, "event-output": y_event_train}, 5 validation_data=(x_test_scaled, {"time-output": y_time_test, "event-output": y_event_test}), 6 epochs=50, 7 batch_size=128, 8 callbacks=[keras.callbacks.EarlyStopping(monitor="val_loss", patience=10, restore_best_weights=True)] 9 ) File /usr/local/lib/python3.10/site-packages/keras/src/utils/traceback_utils.py:122, in filter_traceback.<locals>.error_handler(*args, **kwargs) 119 filtered_tb = _process_traceback_frames(e.__traceback__) 120 # To get the full stack trace, call: 121 # `keras.config.disable_traceback_filtering()` --> 122 raise e.with_traceback(filtered_tb) from None 123 finally: 124 del filtered_tb File /usr/local/lib/python3.10/site-packages/tensorflow/python/eager/execute.py:53, in quick_execute(op_name, num_outputs, inputs, attrs, ctx, name) 51 try: 52 ctx.ensure_initialized() ---> 53 tensors = pywrap_tfe.TFE_Py_Execute(ctx._handle, device_name, op_name, 54 inputs, attrs, num_outputs) 55 except core._NotOkStatusException as e: 56 if name is not None: NotFoundError: Graph execution error: Detected at node StatefulPartitionedCall defined at (most recent call last): File "/usr/local/lib/python3.10/runpy.py", line 196, in _run_module_as_main File "/usr/local/lib/python3.10/runpy.py", line 86, in _run_code File "/usr/local/lib/python3.10/site-packages/ipykernel_launcher.py", line 18, in <module> File "/usr/local/lib/python3.10/site-packages/traitlets/config/application.py", line 1075, in launch_instance File "/usr/local/lib/python3.10/site-packages/ipykernel/kernelapp.py", line 737, in start File "/usr/local/lib/python3.10/site-packages/anyio/_core/_eventloop.py", line 74, in run File "/usr/local/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 2303, in run File "/usr/local/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 216, in run File "/usr/local/lib/python3.10/asyncio/base_events.py", line 636, in run_until_complete File "/usr/local/lib/python3.10/asyncio/base_events.py", line 603, in run_forever File "/usr/local/lib/python3.10/asyncio/base_events.py", line 1909, in _run_once File "/usr/local/lib/python3.10/asyncio/events.py", line 80, in _run File "/usr/local/lib/python3.10/site-packages/ipykernel/kernelbase.py", line 428, in process_shell File "/usr/local/lib/python3.10/site-packages/ipykernel/kernelbase.py", line 501, in process_shell_message File "/usr/local/lib/python3.10/site-packages/ipykernel/ipkernel.py", line 337, in execute_request File "/usr/local/lib/python3.10/site-packages/ipykernel/kernelbase.py", line 752, in execute_request File "/usr/local/lib/python3.10/site-packages/ipykernel/ipkernel.py", line 433, in do_execute File "/usr/local/lib/python3.10/site-packages/ipykernel/zmqshell.py", line 582, in run_cell File "/usr/local/lib/python3.10/site-packages/IPython/core/interactiveshell.py", line 3075, in run_cell File "/usr/local/lib/python3.10/site-packages/IPython/core/interactiveshell.py", line 3130, in _run_cell File "/usr/local/lib/python3.10/site-packages/IPython/core/async_helpers.py", line 128, in _pseudo_sync_runner File "/usr/local/lib/python3.10/site-packages/IPython/core/interactiveshell.py", line 3334, in run_cell_async File "/usr/local/lib/python3.10/site-packages/IPython/core/interactiveshell.py", line 3517, in run_ast_nodes File "/usr/local/lib/python3.10/site-packages/IPython/core/interactiveshell.py", line 3577, in run_code File "/tmp/ipykernel_10/1147730535.py", line 2, in <module> File "/usr/local/lib/python3.10/site-packages/keras/src/utils/traceback_utils.py", line 117, in error_handler File "/usr/local/lib/python3.10/site-packages/keras/src/backend/tensorflow/trainer.py", line 371, in fit File "/usr/local/lib/python3.10/site-packages/keras/src/backend/tensorflow/trainer.py", line 219, in function File "/usr/local/lib/python3.10/site-packages/keras/src/backend/tensorflow/trainer.py", line 132, in multi_step_on_iterator could not find registered transfer manager for platform Host -- check target linkage [[{{node StatefulPartitionedCall}}]] [Op:__inference_multi_step_on_iterator_6647] اقتباس
السؤال
Ali Ahmed55
السلام عليكم
هو اي الفرق مابين GPU T4 * 2 - GPU P100 - TPU vm v3-8 ؟
5 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.