Estratégias de Seleção Informada de Dados para Aprendizado com Dados Escassos e Desbalanceados

Autores

DOI:

https://doi.org/10.21814/lm.17.1.451

Palavras-chave:

pln, transformers, aprendizagem de poucas amostras, busca semântica reversa, dados desbalanceados

Resumo

A obtenção de dados anotados de alta qualidade é um dos principais desafios no Processamento de Linguagem Natural (PLN), especialmente em métodos de aprendizado supervisionado. Em cenários onde dados previamente anotados não estão disponíveis, soluções comuns como o crowdsourcing e a abordagem zero-shot frequentemente apresentam limitações, incluindo a necessidade de grandes volumes de dados e a falta de garantias quanto à qualidade das anotações. Tradicionalmente, os dados para anotação humana são selecionados de forma aleatória, uma prática que não só é custosa e ineficiente, mas também suscetível a viés, particularmente em conjuntos de dados desbalanceados, onde as classes minoritárias são sub-representadas. Para enfrentar esses desafios, este trabalho apresenta uma arquitetura de seleção automática e informada de dados, projetada para minimizar o volume de anotações necessárias enquanto maximiza a diversidade e representatividade dos dados selecionados. Entre os métodos avaliados, a Busca Semântica Reversa (RSS) se destacou, superando consistentemente a seleção por amostragem aleatória em cenários desbalanceados e melhorando o desempenho dos classificadores treinados. Além disso, realiza-se uma comparação entre a RSS e outros métodos baseados em agrupamento, discutindo seus pontos fortes e fracos.

Referências

Downloads

Publicado

2025-06-30

Edição

Secção

PROPOR 2024 | Artigos Convidados

Como Citar

Estratégias de Seleção Informada de Dados para Aprendizado com Dados Escassos e Desbalanceados. (2025). Linguamática, 17(1), 105-120. https://doi.org/10.21814/lm.17.1.451