Estratégias de Seleção Informada de Dados para Aprendizado com Dados Escassos e Desbalanceados

  • Alexandre Alcoforado Universidade de São Paulo
  • Lucas Okamura
  • Thomas Ferraz
  • Israel Campos Fama
  • Bárbara Dias Bueno
  • Bruno Miguel Veloso
  • Anna Helena Reali Costa

Resumen

A obtenção de dados anotados de alta qualidade é um dos principais desafios no Processamento de Linguagem Natural (PLN), especialmente em métodos de aprendizado supervisionado. Em cenários onde dados previamente anotados não estão disponíveis, soluções comuns como o crowdsourcing e a abordagem zero-shot frequentemente apresentam limitações, incluindo a necessidade de grandes volumes de dados e a falta de garantias quanto à qualidade das anotações. Tradicionalmente, os dados para anotação humana são selecionados de forma aleatória, uma prática que não só é custosa e ineficiente, mas também suscetível a viés, particularmente em conjuntos de dados desbalanceados, onde as classes minoritárias são sub-representadas. Para enfrentar esses desafios, este trabalho apresenta uma arquitetura de seleção automática e informada de dados, projetada para minimizar o volume de anotações necessárias enquanto maximiza a diversidade e representatividade dos dados selecionados. Entre os métodos avaliados, a Busca Semântica Reversa (RSS) se destacou, superando consistentemente a seleção por amostragem aleatória em cenários desbalanceados e melhorando o desempenho dos classificadores treinados. Além disso, realiza-se uma comparação entre a RSS e outros métodos baseados em agrupamento, discutindo seus pontos fortes e fracos.

Publicado
2025-06-26
Cómo citar
Alcoforado, A., Okamura, L., Ferraz, T., Campos Fama, I., Dias Bueno, B., Veloso, B. M., & Reali Costa, A. H. (2025). Estratégias de Seleção Informada de Dados para Aprendizado com Dados Escassos e Desbalanceados. Linguamática, 17(1), preprint. Recuperado a partir de https://www.linguamatica.com/index.php/linguamatica/article/view/451
Sección
PROPOR 2024 | Artículos Invitados