هل يجب أن نستخدم تقنية learning rate decay مع المحسن Adam في تنسرفلو Tensorflow؟

عامر ابراهيم · 26 أغسطس 2021

قمت ببناء شبكة عصبية لتصنيف الصور، واستخدمت فبها المحسن Adam لكن أحد الأشخاص يقترح أن استخدم ال exponential decay لكي يتم تخفيض قيم معدل التعلم خلال التدريب، فما رأيكم؟

Ali Haidar Ahmad · 26 أغسطس 2021

بشكل عام مع آدم ليس بالضرورة استخدام مفهوم ال learning rate decay لأن آدم يقوم بعملية optimization لل learning rate بشكل تلقائي "هذا ماتقوله المراجع". حيث يقوم ADAM بتحديث أي parameter بمعدل تعلم فردي "individual learning rate". هذا يعني أن كل parameter في الشبكة له معدل تعلم محدد مرتبط به. ولكن يتم حساب معدل التعلم الفردي لكل parameter باستخدام lambda (معدل التعلم الأولي أو الابتدائي) كحد أعلى. هذا يعني أن كل معدل تعلم فردي يمكن أن يختلف من 0 (بدون تحديث) إلى لامدا (الحد الأقصى لعملية التحديث). وبالرغم من أن معدلات التعلم تتكيف مع نفسها أثناء خطوات التدريب ، ولكن إذا كنت تريد التأكد من أن كل خطوة تحديث لا تتجاوز قيمة لامدا ، فيمكنك استخدام قيمة لامدا المنخفضة باستخدام exponential decay أو أي خوارزمية تخفيض أخرى. وهذا يمكن أن يساعد في تقليل التكلفة loss خلال الخطوة الأخيرة من التدريب، وذلك عندما تتوقف ال loss التي تم حسابها من خلال معلمة لامدا المرتبطة بها عن الانخفاض.

هل يجب أن نستخدم تقنية learning rate decay مع المحسن Adam في تنسرفلو Tensorflow؟

السؤال

عامر ابراهيم

1 جواب على هذا السؤال

Recommended Posts

Ali Haidar Ahmad

انضم إلى النقاش

إعلانات

تابعنا على

الرئيسية

كيف أتعلم؟

تابعنا

دروس ومقالات

أسئلة وأجوبة

كتب

دورات

بطاقات هدية