Mengapa lstm memecahkan gradien yang hilang?

Daftar Isi:

Mengapa lstm memecahkan gradien yang hilang?
Mengapa lstm memecahkan gradien yang hilang?

Video: Mengapa lstm memecahkan gradien yang hilang?

Video: Mengapa lstm memecahkan gradien yang hilang?
Video: What is LSTM (Long Short Term Memory)? 2024, November
Anonim

LSTM memecahkan masalah menggunakan struktur gradien aditif unik yang mencakup akses langsung ke aktivasi gerbang pelupa, memungkinkan jaringan untuk mendorong perilaku yang diinginkan dari gradien kesalahan menggunakan pembaruan gerbang yang sering pada setiap tahapan proses pembelajaran.

Bagaimana LSTM menyelesaikan gradien yang meledak?

Jawaban yang sangat singkat: LSTM memisahkan status sel (biasanya dilambangkan dengan c) dan lapisan/output tersembunyi (biasanya dilambangkan dengan h), dan hanya melakukan pembaruan aditif ke c, yang membuat memori di c lebih stabil. Jadi gradien mengalir melalui c dipertahankan dan sulit dihilangkan (oleh karena itu gradien keseluruhan sulit dihilangkan).

Bagaimana masalah gradien menghilang dapat diselesaikan?

Solusi: Solusi paling sederhana adalah menggunakan fungsi aktivasi lain, seperti ReLU, yang tidak menyebabkan turunan kecil. Jaringan residual adalah solusi lain, karena menyediakan koneksi residual langsung ke lapisan sebelumnya.

Masalah apa yang dipecahkan LSTM?

LSTM. LSTM (kependekan dari long short-term memory) terutama memecahkan masalah gradien menghilang di backpropagation. LSTM menggunakan mekanisme gating yang mengontrol proses memoizing. Informasi dalam LSTM dapat disimpan, ditulis, atau dibaca melalui gerbang yang membuka dan menutup.

Mengapa LSTM menghentikan gradien Anda agar tidak menghilangkan pemandangan dari lintasan mundur?

Alasannya adalah karena, untuk menegakkan aliran kesalahan konstan ini, perhitungan gradien dipotong agar tidak mengalir kembali ke gerbang input atau kandidat.

Direkomendasikan: