Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

Carlos-Emiliano González-Gallardo; Juan-Manuel Torres-Moreno; Azucena Montes Rendón; Gerardo Sierra

Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

Autores/as

Carlos-Emiliano González-Gallardo LIA-Université d’Avignon
Juan-Manuel Torres-Moreno Laboratoire Informatique d'Avignon - UAPV
Azucena Montes Rendón CENIDET
Gerardo Sierra GIL - UNAM

Palabras clave:

Minería de textos, Aprendizaje automático, Clasificación, n-gramas, Blogs, Tweets, Redes sociales

Resumen

En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.).

El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.

Biografía del autor/a

Juan-Manuel Torres-Moreno, Laboratoire Informatique d'Avignon - UAPV

Responsable del Equipo de Procesamiento de Lenguaje Natural (TALNE - LIA)

Descargas

PDF (portugués)

Publicado

2016-07-22

Número

Vol. 8 Núm. 1

Sección

Artículos de investigación

Licencia

Los autores que envíen sus trabajos a esta revista implícitamente estón de acuerdo con los siguientes términos:

Los autores retienen los derechos de autor de sus trabajos, permitiendo a esta revista su primera publicación bajo licencia de Creative Commons Attribution License, que permite a otros acceder libremente, usar y compartir dicho trabajo, citando adecuadamente la autoría del trabajo y su presentación en esta revista.
Los autores pueden prescindir de los términos de licencia de CC y acordar por su cuenta arreglos contractuales adicionales independientes para la distribución no exclusiva y posterior publicación de este trabajo (p.e., para incluirlo en un repositorio institucional o publicarlo en un libro), citando adecuadamente su publicación inicial en esta revista.
Además, se anima a los autores a poner en línea su trabajo (p.e., en repositorios institucionales o en su propio sitio web) en cualquier momento antes o durante el proceso de envío, ya que eso puede conducir a intercambios productivos y a un número mayor y más temprano de citas del trabajo publicado (Ver The Effect of Open Access).

Cómo citar

Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales. (2016). Linguamática, 8(1), 21-29. https://www.linguamatica.com/index.php/linguamatica/article/view/v8n1-2