Reconocimiento de términos en español mediante la aplicación de un enfoque de comparación entre corpus

Autores

  • Olga Lidia Acosta Pontificia Universidad Católica de Chile image/svg+xml
  • César Antonio Aguilar Pontificia Universidad Católica de Chile image/svg+xml
  • Tomás Infante Pontificia Universidad Católica de Chile image/svg+xml

Palavras-chave:

Término, unithood, termhood, extracción terminológica, lenguaje especializado.

Resumo

En este artículo presentamos una metodología para la identificación y extracción de términos a partir de fuentes textuales en español correspondientes a dominios de conocimiento especializados mediante un enfoque de contraste entre corpus. El enfoque de contraste entre corpus hace uso de medidas para asignar relevancia a palabras que ocurren tanto en el corpus de dominio como en corpus de lengua general o de otro dominio diferente al de interés. Dado lo anterior, en este trabajo realizamos una exploración de cuatro medidas usadas para asignar relevancia a palabras con el objetivo de incorporar la de mejor desempeño a nuestra metodología. Los resultados obtenidos muestran un desempeño mejor de las medidas diferencia de rangos y razón de frecuencias relativas comparado con la razón log-likelihood y la medida usada en Termostat.

Biografias do Autor

  • Olga Lidia Acosta, Pontificia Universidad Católica de Chile

    Investigadora post-doctoral afiliada al Departamento de Ciencias del Lenguaje, Facultad de Letras de la Pontificia Universidad Católica de Chile. Áreas de investigación:

    • Desarrollo de ontologías y taxonomías basadas en información textual
    • Corpus lingüísticos
    • Recuperación y extracción de información
    • Análisis estocástico aplicado al procesamiento del lenguaje natural
  • César Antonio Aguilar, Pontificia Universidad Católica de Chile

    Profesor asistente afiliado al Departamento de Ciencias del Lenguaje de la Facultad de Letras de la Pontificia Universidad Católica de Chile. Áreas de investigación:

    • Desarrollo de ontologías y taxonomías basadas en información textual
    • Lexicografía computacional
    • Semántica formal
    • Gramáticas formales y probabilísticas para el español
    • Corpus lingüísticos
    • Extracción de información
  • Tomás Infante, Pontificia Universidad Católica de Chile

    Egresado del Magíster en Procesamiento y Gestión de la Información. Áreas de investigación:

    • Extracción terminológica
    • Corpus lingüísticos
    • Análisis estocástico aplicado al procesamiento del lenguaje natural

Referências

Downloads

Publicado

2015-12-30

Edição

Secção

Artigos de Investigação

Como Citar

Reconocimiento de términos en español mediante la aplicación de un enfoque de comparación entre corpus. (2015). Linguamática, 7(2), 19-34. https://www.linguamatica.com/index.php/linguamatica/article/view/V7N2.2