Aperfeiçoando a Hifenização Automática em Português no TeX

Autores

DOI:

https://doi.org/10.21814/lm.16.2.435

Palavras-chave:

hifenização, padrões de hifenização, hifenização automática em português

Resumo

 As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e sejam irrelevantes para fins tipográficos no TeX, podem ser relevantes em contextos específicos, como ao lidar com palavras fora do léxico padrão ou com aplicações que fazem o uso da segmentação silábica/tipográfica. A partir de uma análise de 49.528 palavras hifenizadas, obtidas de dicionários online, propusemos 120 novas regras para serem incorporadas às regras existentes de hifenização do português. Além disso, utilizamos o patgen para criar novas regras ou melhorar as já existentes. No entanto, as regras geradas pelo patgen não demonstraram boa capacidade de generalização. Em última análise, as regras manuais ajustadas apresentaram o melhor desempenho, resultando em um aumento de 2.1% na taxa de acertos. O número de pontos de hifenização corretos aumentou de 38.519 para 39.808, enquanto os pontos de hifenização incorretos diminuíram drasticamente de 2.059 para 33. Importante ressaltar também que as regras elaboradas manualmente demonstraram uma melhor capacidade de generalização do que as regras geradas automaticamente pelo patgen.

Referências

Downloads

Publicado

2024-12-30

Edição

Secção

Artigos Técnicos

Como Citar

Aperfeiçoando a Hifenização Automática em Português no TeX. (2024). Linguamática, 16(2), 23-37. https://doi.org/10.21814/lm.16.2.435