Análise e Classificação Automática de Domínios Discursivos no Português do Brasil

Autores/as

DOI:

https://doi.org/10.21814/lm.17.2.476

Palabras clave:

classificação automática de textos, identificação de propriedades textuais, análise textual automatizada, domínios discursivos, português brasileiro, reconhecimento de padrões discursivos, estudo computacional da linguagem

Resumen

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Referencias

Publicado

2026-01-07

Número

Sección

PROPOR 2024 | Artículos Invitados

Cómo citar

Análise e Classificação Automática de Domínios Discursivos no Português do Brasil. (2026). Linguamática, 17(2), 131-171. https://doi.org/10.21814/lm.17.2.476