Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?

Hernani Costa, Isabel Dúran Muñoz, Gloria Corpas Pastor, Ruslan Mitkov

Resumo


Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado.
Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação.
Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo.
Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos.
Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.


Palavras-chave


comparable corpora; computational linguistics; distributional similarity measures, manual and semi-automatic compilation, natural language processing

Texto Completo: PDF

Licença Creative Commons
Este trabalho está licenciado sob uma Licença Creative Commons Attribution 3.0 .

Indexed by Scopus Indexed by Linguistics & Language Behavior Abstracts DBLP Indexed by Directory of Open Access Journals Indexed by REDIB Indexed by Google Scholar