Análise e Classificação Automática de Domínios Discursivos no Português do Brasil

Autores

DOI:

https://doi.org/10.21814/lm.17.2.476

Palavras-chave:

classificação automática de textos, identificação de propriedades textuais, análise textual automatizada, domínios discursivos, português brasileiro, reconhecimento de padrões discursivos, estudo computacional da linguagem

Resumo

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Referências

Downloads

Publicado

2026-01-07

Edição

Secção

PROPOR 2024 | Artigos Convidados

Como Citar

Análise e Classificação Automática de Domínios Discursivos no Português do Brasil. (2026). Linguamática, 17(2), 131-171. https://doi.org/10.21814/lm.17.2.476