RNs > Vanishing GradientO que é backpropagation?Como ocorre o problema do vanishing gradient?Consequências do vanishing gradient:Soluções para o vanishing gradient:

RNs > Vanishing Gradient

O problema do vanishing gradient (gradiente que desaparece) é um desafio comum em redes neurais profundas, especialmente quando usamos o algoritmo de backpropagation. Ele ocorre quando os gradientes que são calculados durante o treinamento da rede tornam-se muito pequenos à medida que propagamos de volta pelas camadas, o que dificulta o ajuste efetivo dos pesos das camadas iniciais.

O que é backpropagation?

Backpropagation é o algoritmo mais comum usado para treinar redes neurais. Ele ajusta os pesos dos neurônios com base na diferença (erro) entre a saída real da rede e a saída desejada. O algoritmo funciona de trás para frente, ajustando os pesos a partir da última camada até a primeira.

Como ocorre o problema do vanishing gradient?

Quando treinamos redes neurais muito profundas, os gradientes calculados durante o backpropagation podem se tornar muito pequenos nas camadas iniciais da rede. Isto acontece porque, durante a multiplicação de muitas derivadas de funções de ativação, o valor do gradiente pode diminuir exponencialmente. Funções de ativação comuns, como a sigmoide e a tangente hiperbólica, são especialmente propensas a esse problema, pois suas derivadas são menores que 1 para muitos valores de entrada.

Consequências do vanishing gradient:

Treinamento lento ou estagnado: Com gradientes muito pequenos, os pesos das camadas iniciais são ajustados muito lentamente, ou praticamente não são ajustados.
Perda de informações: As camadas iniciais têm um papel importante na extração de características fundamentais dos dados de entrada. Se esses pesos não são bem ajustados, a rede pode perder informações importantes.

Soluções para o vanishing gradient:

Funções de ativação alternativas: Usar funções de ativação como ReLU (Rectified Linear Unit), que têm derivadas maiores e constantes, pode ajudar a mitigar o problema — ver: YouTube: A Review of 10 Most Popular Activation Functions in Neural Networks, Machine Learning Studio, 25 fev 2023, 13.625 visualizações (acessado 01/03/2025), 15:58.
Inicialização de pesos: Métodos de inicialização de pesos, como a inicialização de He ou Xavier, podem ajudar a manter os gradientes em uma faixa útil durante o treinamento — ver RNs > Inicialização de pesos.
Normalização: Técnicas como batch normalization podem ajudar a estabilizar e acelerar o treinamento de redes profundas. <— ver material do curso do MIT sobre Deep Learning —> MIT Deeep Leaning 6.S191 (⭐️⭐️⭐️⭐️⭐️).

28/02/2025