RNs > Inicialização de pesos

RNs > Inicialização de pesosMétodo de Xavier (ou Glorot)Método de HeDiferenças entre Xavier e HePor que essas abordagens são melhores?Método de XavierMétodo de HeComparação de Métodos de Inicialização

Vamos ver como os métodos de He e Xavier funcionam, no que diferem e como se comparam à inicialização com valores aleatórios baixos.

Método de Xavier (ou Glorot)

O método de Xavier, também conhecido como Glorot, foi proposto por Xavier Glorot e Yoshua Bengio. Ele é projetado para manter os sinais que passam pela rede em uma faixa que evita tanto explosões quanto desaparecimentos de valores. A ideia é fazer com que a variância dos gradientes seja a mesma em todas as camadas.

A inicialização de Xavier usa a seguinte fórmula:

onde:

Obs.: FALTA mostrar gráfico da função acima...

Método de He

O método de He, proposto por Kaiming He et al., é uma variação do método de Xavier, ajustada para funções de ativação ReLU (Rectified Linear Unit). A ReLU, por sua natureza, faz com que a metade dos gradientes seja zero. Para compensar isso, o método de He multiplica por 2 a variância utilizada no método de Xavier.

A inicialização de He usa a seguinte fórmula:

onde:

Diferenças entre Xavier e He

  1. Fórmulas: A fórmula de He tem um fator de 2 a mais no numerador em comparação com a fórmula de Xavier.
  2. Funções de Ativação: Xavier é geralmente usado com funções de ativação sigmoide ou tanh, enquanto He é otimizado para a função de ativação ReLU.

Por que essas abordagens são melhores?

Inicializar os pesos de forma adequada é crucial para evitar problemas como o vanishing gradient (gradiente que desaparece) e o exploding gradient (gradiente explosivo). Com a inicialização adequada, os gradientes mantêm-se em uma faixa útil para todas as camadas da rede neural.

  1. Distribuição Uniforme de Baixos Valores Aleatórios: Se simplesmente inicializarmos a rede com baixos valores aleatórios usando uma distribuição uniforme, podemos ter problemas de gradientes que desaparecem ou explodem. Isso ocorre porque esses valores não são escalados para manter a variância dos gradientes uniforme em todas as camadas.
  2. Provas e Resultados Empíricos: As técnicas de Xavier e He foram testadas empiricamente e mostraram melhorias significativas no treinamento de redes profundas. Artigos científicos e experimentos práticos demonstraram que essas técnicas ajudam a rede a convergir mais rapidamente e de forma mais estável em comparação com a inicialização com valores aleatórios baixos.

Referências:

Método de Xavier

  1. Xavier Glorot, Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, pp. 249-256. JMLR Workshop and Conference Proceedings, 2010. PDF (Citado por 26730)

Resumo: Considerando que antes de 2006 parece que as redes neurais multicamadas profundas não foram treinadas com sucesso, desde então vários algoritmos demonstraram treiná-las com sucesso, com resultados experimentais mostrando a superioridade de arquiteturas mais profundas versus menos profundas. Todos esses resultados experimentais foram obtidos com novos mecanismos de inicialização ou treinamento. Nosso objetivo aqui é entender melhor por que o gradiente descendente padrão realizado sobre uma inicialização aleatória está indo tão mal com redes neurais profundas, para entender melhor esses sucessos relativos recentes e ajudar a projetar algoritmos melhores no futuro. Primeiro observamos a influência das funções de ativações não lineares. Descobrimos que a função ativação sigmóide logística não é adequada para redes profundas com inicialização aleatória devido ao seu valor médio, que pode levar especialmente a camada oculta superior à saturação. Surpreendentemente, descobrimos que as unidades saturadas podem sair da saturação por si mesmas, embora lentamente, e explicando os platôs às vezes vistos ao treinar redes neurais. Descobrimos que uma nova não linearidade que satura menos pode ser benéfica. Finalmente, estudamos como as ativações e gradientes variam entre as camadas e durante o treinamento, com a ideia de que o treinamento pode ser mais difícil quando os valores singulares do jacobiano associados a cada camada estão longe de 1. Com base nessas considerações, propomos um novo esquema de inicialização que traz uma convergência substancialmente mais rápidas.

Método de He

  1. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. "Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification." In Proceedings of the IEEE international conference on computer vision, pp. 1026-1034. 2015. PDF (citado 26857 vezes, 02/03/2025).

Abstract

Rectified activation units (rectifiers) are essential for state-of-the-art neural networks. In this work, we study rectifier neural networks for image classification from two aspects. First, we propose a Parametric Rectified Linear Unit (PReLU) that generalizes the traditional rectified unit. PReLU improves model fitting with nearly zero extra computational cost and little overfitting risk. Second, we derive a robust initialization method that particularly considers the rectifier nonlinearities. This method enables us to train extremely deep rectified models directly from scratch and to investigate deeper or wider network architectures. Based on the learnable activation and advanced initialization, we achieve 4.94% top-5 test error on the ImageNet 2012 classification dataset. This is a 26% relative improvement over the ILSVRC 2014 winner (GoogLeNet, 6.66%). To our knowledge, our result is the first to surpass the reported human-level performance (5.1%) on this dataset.

Comparação de Métodos de Inicialização

  1. Leonardo Tavares. "INICIALIZACAO DE REDES NEURAIS MLP BASEADA EM DIVISOES SIMÉTRICAS." Este estudo investiga diferentes critérios de inicialização de pesos em redes MLP e propõe um método que gera um número de condição baixo. PDF.

Abstract

O principal objetivo de uma máquina de aprendizagem é o adequado mapeamento do sinal entrada saída apresentado à ela. Para tal, é utilizado um critério de aprendizagem baseado em minimização do erro empíırico. No entanto, é sabido que os valores iniciais dos pesos de uma rede neural MLP (Multi-layer perceptron) podem influenciar na probabilidade da convergência bem como na taxa de aprendizagem. O presente trabalho visa investigar outro critério que é o número de condicionamento do espaço gerado pela camada oculta e propor um méetodo que gere um número de condicionamento baixo.


11/03/2025