عامر ابراهيم نشر 26 أغسطس 2021 أرسل تقرير نشر 26 أغسطس 2021 قمت ببناء شبكة عصبية لتصنيف الصور، واستخدمت فبها المحسن Adam لكن أحد الأشخاص يقترح أن استخدم ال exponential decay لكي يتم تخفيض قيم معدل التعلم خلال التدريب، فما رأيكم؟ اقتباس
1 Ali Haidar Ahmad نشر 26 أغسطس 2021 أرسل تقرير نشر 26 أغسطس 2021 بشكل عام مع آدم ليس بالضرورة استخدام مفهوم ال learning rate decay لأن آدم يقوم بعملية optimization لل learning rate بشكل تلقائي "هذا ماتقوله المراجع". حيث يقوم ADAM بتحديث أي parameter بمعدل تعلم فردي "individual learning rate". هذا يعني أن كل parameter في الشبكة له معدل تعلم محدد مرتبط به. ولكن يتم حساب معدل التعلم الفردي لكل parameter باستخدام lambda (معدل التعلم الأولي أو الابتدائي) كحد أعلى. هذا يعني أن كل معدل تعلم فردي يمكن أن يختلف من 0 (بدون تحديث) إلى لامدا (الحد الأقصى لعملية التحديث). وبالرغم من أن معدلات التعلم تتكيف مع نفسها أثناء خطوات التدريب ، ولكن إذا كنت تريد التأكد من أن كل خطوة تحديث لا تتجاوز قيمة لامدا ، فيمكنك استخدام قيمة لامدا المنخفضة باستخدام exponential decay أو أي خوارزمية تخفيض أخرى. وهذا يمكن أن يساعد في تقليل التكلفة loss خلال الخطوة الأخيرة من التدريب، وذلك عندما تتوقف ال loss التي تم حسابها من خلال معلمة لامدا المرتبطة بها عن الانخفاض. اقتباس
السؤال
عامر ابراهيم
قمت ببناء شبكة عصبية لتصنيف الصور، واستخدمت فبها المحسن Adam لكن أحد الأشخاص يقترح أن استخدم ال exponential decay لكي يتم تخفيض قيم معدل التعلم خلال التدريب، فما رأيكم؟
1 جواب على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.