Épocas, batches e mini-batches

Épocas, batches e mini-batches1. Questões2. O que é uma "época"?3. Quantas épocas devo usar?Heurísticas comuns4. Quando executar o backpropagation?a) Gradiente Descendente em Lote (Batch Gradient Descent)b) Gradiente Descendente Estocástico (SGD - Stochastic Gradient Descent)c) Mini-Batch Gradient Descent (o mais comum hoje) 5. Se "atraso" o backpropagation, o desempenho é afetado?Caso 1: Aumentar o tamanho do mini-batchCaso 2: Atraso dentro de uma época (ex.: atualização a cada 2 mini-batches)Caso 3: Atrasar várias épocas sem backpropagation 6. Critérios para definir a frequência do backpropagationResumo

1. Questões

Uma questão comum que assola quem inicia no ramo de RNs é: ﹣ Quantas épocas se deve usar para treinar uma RN?

Outras perguntas: ﹣ Existe alguma heurística para definir quando o algoritmo de backpropagation deve ser executado e os pesos da rede atualizados? ﹣ Se o algoritmo de backpropagation "demora" para ser executado o desempenho da rede pode ser comprometido?

Seguem-se algumas respostas...

2. O que é uma "época"?

Uma época (epoch) corresponde a uma passagem completa por todo o conjunto de dados de treinamento. Ou seja, durante uma época, a rede neural processa todos os exemplos de treinamento pelo menos uma vez, atualizando seus pesos (parâmetros) conforme a estratégia de treinamento adotada (mais sobre isso adiante).

Exemplobatch size $\frac{1000}{100} = 10$ ).

3. Quantas épocas devo usar?

Não existe um número fixo, pois depende de fatores como:

Complexidade do modelo (redes mais profundas podem precisar de mais épocas).
Tamanho do conjunto de dados (conjuntos maiores podem exigir mais épocas).
Taxa de aprendizado (valores muito altos podem levar a convergência rápida, mas instável).
Critério de parada (alguns treinamentos usam early stopping para evitar overfitting).

Heurísticas comuns

Monitorar a perda (Loss): Pare quando a perda no conjunto de validação parar de melhorar (early stopping).
Número empírico: Em muitos casos, entre 10 e 100 épocas são suficientes, mas problemas complexos (ex.: treinar um modelo do zero em ImageNet) podem exigir centenas ou milhares de épocas.
Se o erro no treino ainda está diminuindo, pode valer a pena continuar. Se o erro de validação começar a subir (overfitting), pare o treinamento.

4. Quando executar o backpropagation?

Depende do método de treino: O backpropagation é o algoritmo que calcula os gradientes para atualizar os pesos da rede, mas quando ele é aplicado depende da estratégia de treinamento:

a) Gradiente Descendente em Lote (Batch Gradient Descent)

Backpropagation é executado após passar todo o conjunto de treinamento (uma época = uma atualização).
Vantagem: Mais estável, mas computacionalmente caro para grandes conjuntos de dados.

b) Gradiente Descendente Estocástico (SGD - Stochastic Gradient Descent)

a cada exemplo individual $N$ $N$ é o número de amostras).
Vantagem: Mais rápido e pode escapar de mínimos locais, mas com alta variância.

c) Mini-Batch Gradient Descent (o mais comum hoje)

Backpropagation é executado após um subconjunto (mini-batch) dos dados (ex.: 32, 64, ou 128 amostras por vez).
Equilíbrio entre estabilidade e velocidade.

5. Se "atraso" o backpropagation, o desempenho é afetado?

Depende do que você chama de "atraso":

Caso 1: Aumentar o tamanho do mini-batch

Se você acumula mais amostras antes do backpropagation (ex.: mini-batch maior), a atualização será mais estável, mas pode perder fineza na otimização.
Efeito: Pode tornar o treinamento mais lento (precisa de mais épocas) e menos capaz de escapar de mínimos locais.

Caso 2: Atraso dentro de uma época (ex.: atualização a cada 2 mini-batches)

Isso é equivalente a aumentar o tamanho do batch indiretamente. Pode introduzir ruído na otimização, mas às vezes ajuda na generalização.

Caso 3: Atrasar várias épocas sem backpropagation

Isso não é comum, pois a rede não aprenderia nada até o backpropagation ser executado.

6. Critérios para definir a frequência do backpropagation

Hardware: GPUs são otimizadas para mini-batches (ex.: 32, 64, 128).
Convergência: Mini-batches menores podem ajudar a generalizar melhor.
Memória: Batch muito grande pode não caber na GPU.

Resumo

Use mini-batch (tamanho 32-128) para equilibrar velocidade e estabilidade.
Número de épocas: Comece com 10-50 e use early stopping se o erro de validação parar de cair.
Backpropagation: Execute a cada mini-batch (não espere acumular muitos dados).
Se o desempenho estruggle, experimente reduzir o batch size ou ajustar a taxa de aprendizado.

Se você estiver usando frameworks como PyTorch ou TensorFlow, isso é gerenciado automaticamente pelos DataLoaders (que dividem os dados em mini-batches).

Próximo tópico sugerido >> Definições de épocas e batches no Keras, com eventual atualização nos parâmetros de treino.

Fernando Passold, em 10/06/2025