Data Food & Data Folding
Os termos "data food" e "data folding" não são exatamente reconhecidos na literatura clássica de Machine Learning, mas eles podem estar relacionados a conceitos já estabelecidos.
1. Data Food
O termo data food não é amplamente documentado na literatura acadêmica, mas pode ser interpretado como a alimentação contínua de dados para um modelo de Machine Learning. Isso se relaciona a conceitos como data pipeline e data augmentation, essenciais para melhorar a performance dos modelos (Goodfellow, Bengio e Courville, 2016). Modelos de aprendizado profundo, especialmente aqueles utilizados para visão computacional e processamento de linguagem natural, dependem fortemente de grandes volumes de dados bem preparados (LeCun, Bengio e Hinton, 2015).
Esse termo pode ser uma metáfora para "alimentação de dados", ou seja, o fornecimento contínuo de dados para treinar e melhorar modelos de aprendizado de máquina. Pode estar relacionado a conceitos como:
- Data pipeline: processos automatizados para coleta, limpeza e entrada de dados em um modelo.
- Data augmentation: técnicas para gerar mais dados sintéticos e melhorar a robustez do modelo. Usualmente adotado em redes CNN para gerar novos padrões (figuras para treino) baseados em padrões já existentes na base de treino
- Data distillation: resumir informações úteis de um grande conjunto de dados para treinar modelos menores.
2. Data Folding
Está relacionado à:
- K-fold cross-validation: técnica de validação cruzada onde os dados são divididos em k subconjuntos (folds), treinando e testando o modelo em diferentes divisões para avaliar sua generalização. Método usado para usada para avaliar a capacidade de generalização de um modelo ao dividir os dados em múltiplos subconjuntos (folds) (Hastie, Tibshirani e Friedman, 2009).
- Data reshaping (folding data): transformação da estrutura dos dados, como converter uma sequência 1D para uma matriz 2D ou 3D, comum em redes neurais e processamento de séries temporais, comum no caso de redes neurais convolucionais para imagens (Bishop, 2006).
- Manifold learning / folding in latent space: técnicas como autoencoders ou t-SNE que tentam aprender uma representação de menor dimensão dos dados, podendo ser interpretadas como "dobrar" os dados em um espaço latente (van der Maaten e Hinton, 2008).
Referências Bibliográficas
- Bishop, C. M. (2006) Pattern Recognition and Machine Learning. New York: Springer.
- Goodfellow, I., Bengio, Y. e Courville, A. (2016) Deep Learning. Cambridge, MA: MIT Press.
- Hastie, T., Tibshirani, R. e Friedman, J. (2009) The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd edn. New York: Springer.
- LeCun, Y., Bengio, Y. e Hinton, G. (2015) ‘Deep learning’, Nature, 521(7553), pp. 436-444. doi:10.1038/nature14539.
- van der Maaten, L. e Hinton, G. (2008) ‘Visualizing data using t-SNE’, Journal of Machine Learning Research, 9, pp. 2579-2605.
Fernando Passold, em 29/03/2025