اذهب إلى المحتوى

السؤال

Recommended Posts

  • 1
نشر

بشكل عام مع آدم ليس بالضرورة استخدام مفهوم ال learning rate decay لأن آدم يقوم بعملية optimization لل learning rate بشكل تلقائي "هذا ماتقوله المراجع". حيث يقوم ADAM بتحديث أي parameter  بمعدل تعلم فردي "individual learning rate". هذا يعني أن كل parameter في الشبكة له معدل تعلم محدد مرتبط به.  ولكن يتم حساب معدل التعلم الفردي لكل parameter  باستخدام lambda (معدل التعلم الأولي أو الابتدائي)  كحد أعلى. هذا يعني أن كل معدل تعلم فردي يمكن أن يختلف من 0 (بدون تحديث) إلى لامدا (الحد الأقصى لعملية التحديث). وبالرغم من أن معدلات التعلم تتكيف مع نفسها أثناء خطوات التدريب ، ولكن إذا كنت تريد التأكد من أن كل خطوة تحديث لا تتجاوز قيمة لامدا ، فيمكنك استخدام قيمة لامدا المنخفضة باستخدام exponential decay  أو أي خوارزمية تخفيض أخرى. وهذا يمكن أن يساعد في تقليل التكلفة loss خلال الخطوة الأخيرة من التدريب، وذلك عندما تتوقف ال loss التي تم حسابها من خلال معلمة لامدا المرتبطة بها عن الانخفاض.

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...