RNs > Inicialização de pesosMétodo de Xavier (ou Glorot)Método de HeDiferenças entre Xavier e HePor que essas abordagens são melhores?Método de XavierMétodo de HeComparação de Métodos de Inicialização
Vamos ver como os métodos de He e Xavier funcionam, no que diferem e como se comparam à inicialização com valores aleatórios baixos.
O método de Xavier, também conhecido como Glorot, foi proposto por Xavier Glorot e Yoshua Bengio. Ele é projetado para manter os sinais que passam pela rede em uma faixa que evita tanto explosões quanto desaparecimentos de valores. A ideia é fazer com que a variância dos gradientes seja a mesma em todas as camadas.
A inicialização de Xavier usa a seguinte fórmula:
onde:
Obs.: FALTA mostrar gráfico da função acima...
O método de He, proposto por Kaiming He et al., é uma variação do método de Xavier, ajustada para funções de ativação ReLU (Rectified Linear Unit). A ReLU, por sua natureza, faz com que a metade dos gradientes seja zero. Para compensar isso, o método de He multiplica por 2 a variância utilizada no método de Xavier.
A inicialização de He usa a seguinte fórmula:
onde:
Inicializar os pesos de forma adequada é crucial para evitar problemas como o vanishing gradient (gradiente que desaparece) e o exploding gradient (gradiente explosivo). Com a inicialização adequada, os gradientes mantêm-se em uma faixa útil para todas as camadas da rede neural.
Referências:
@InProceedings{pmlr-v9-glorot10a,
title = {Understanding the difficulty of training deep feedforward neural networks},
author = {Glorot, Xavier and Bengio, Yoshua},
booktitle = {Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics},
pages = {249--256},
year = {2010},
editor = {Teh, Yee Whye and Titterington, Mike},
volume = {9},
series = {Proceedings of Machine Learning Research},
address = {Chia Laguna Resort, Sardinia, Italy},
month = {13--15 May},
publisher = {PMLR},
pdf = {http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf},
url = {https://proceedings.mlr.press/v9/glorot10a.html}
}
Resumo: Considerando que antes de 2006 parece que as redes neurais multicamadas profundas não foram treinadas com sucesso, desde então vários algoritmos demonstraram treiná-las com sucesso, com resultados experimentais mostrando a superioridade de arquiteturas mais profundas versus menos profundas. Todos esses resultados experimentais foram obtidos com novos mecanismos de inicialização ou treinamento. Nosso objetivo aqui é entender melhor por que o gradiente descendente padrão realizado sobre uma inicialização aleatória está indo tão mal com redes neurais profundas, para entender melhor esses sucessos relativos recentes e ajudar a projetar algoritmos melhores no futuro. Primeiro observamos a influência das funções de ativações não lineares. Descobrimos que a função ativação sigmóide logística não é adequada para redes profundas com inicialização aleatória devido ao seu valor médio, que pode levar especialmente a camada oculta superior à saturação. Surpreendentemente, descobrimos que as unidades saturadas podem sair da saturação por si mesmas, embora lentamente, e explicando os platôs às vezes vistos ao treinar redes neurais. Descobrimos que uma nova não linearidade que satura menos pode ser benéfica. Finalmente, estudamos como as ativações e gradientes variam entre as camadas e durante o treinamento, com a ideia de que o treinamento pode ser mais difícil quando os valores singulares do jacobiano associados a cada camada estão longe de 1. Com base nessas considerações, propomos um novo esquema de inicialização que traz uma convergência substancialmente mais rápidas.
Abstract
Rectified activation units (rectifiers) are essential for state-of-the-art neural networks. In this work, we study rectifier neural networks for image classification from two aspects. First, we propose a Parametric Rectified Linear Unit (PReLU) that generalizes the traditional rectified unit. PReLU improves model fitting with nearly zero extra computational cost and little overfitting risk. Second, we derive a robust initialization method that particularly considers the rectifier nonlinearities. This method enables us to train extremely deep rectified models directly from scratch and to investigate deeper or wider network architectures. Based on the learnable activation and advanced initialization, we achieve 4.94% top-5 test error on the ImageNet 2012 classification dataset. This is a 26% relative improvement over the ILSVRC 2014 winner (GoogLeNet, 6.66%). To our knowledge, our result is the first to surpass the reported human-level performance (5.1%) on this dataset.
xxxxxxxxxx
@InProceedings{He_2015_ICCV,
author = {He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
title = {Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification},
booktitle = {Proceedings of the IEEE International Conference on Computer Vision (ICCV)},
month = {December},
year = {2015}
}
Abstract
O principal objetivo de uma máquina de aprendizagem é o adequado mapeamento do sinal entrada saída apresentado à ela. Para tal, é utilizado um critério de aprendizagem baseado em minimização do erro empíırico. No entanto, é sabido que os valores iniciais dos pesos de uma rede neural MLP (Multi-layer perceptron) podem influenciar na probabilidade da convergência bem como na taxa de aprendizagem. O presente trabalho visa investigar outro critério que é o número de condicionamento do espaço gerado pela camada oculta e propor um méetodo que gere um número de condicionamento baixo.
xxxxxxxxxx
@InProceedings{Tavares2013,
author ={L. D. Tavares, R. R. Saldanha, D. A. G. Vieira},
title={INICIALIZA ¸CAO DE REDES NEURAIS MLP BASEADA EM DIVIS ˜ OES ˜
SIMETRICAS},
booktitle = {Proceedings of the SBAI'2013},
year={2013}
}
11/03/2025