Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?

Hernani Costa; Isabel Dúran Muñoz; Gloria Corpas Pastor; Ruslan Mitkov

Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?

Autores/as

Hernani Costa Universidad de Málaga
Isabel Dúran Muñoz Universidad de Málaga
Gloria Corpas Pastor Universidad de Málaga
Ruslan Mitkov University of Wolverhampton

Palabras clave:

comparable corpora, computational linguistics, distributional similarity measures, manual and semi-automatic compilation, natural language processing

Resumen

<p>Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado. Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação.</p>
<p>Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.</p>

Descargas

PDF (portugués)

Publicado

2016-07-22

Número

Vol. 8 Núm. 1

Sección

Artículos de investigación

Licencia

Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:

Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).

Cómo citar

Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas? (2016). Linguamática, 8(1), 3-19. https://www.linguamatica.com/index.php/linguamatica/article/view/v8n1-1

Descargar cita