Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento

  • Maria Lucia del Rosario Castro Jorge Universidade de São Paulo
  • Thiago Alexandre Salgueiro Pardo Universidade de São Paulo

Resumo

O presente trabalho apresenta a definição, formalização e avaliação de estratégias de seleção de conteúdo para sumarização automática multidocumento com base na teoria discursiva CST (Cross-document Structure Theory). A tarefa de seleção de conteúdo foi modelada por meio de operadores que representam possíveis preferências do usuário para a sumarização. Estes operadores são especificados em templates contendo regras e funções que relacionam essas preferências às relações CST. Em particular, definimos operadores para extrair a informação principal, apresentar informação de contexto, identificar autoria, tratar redundâncias e identificar informação contraditória. Nossos experimentos foram feitos usando um córpus jornalístico de textos escritos em português brasileiro e mostram que o uso da CST melhora a qualidade do conteúdo selecionado para os sumários, já que se exploram as relações entre os conteúdos dos diferentes textos.
 

Biografia Autor

Maria Lucia del Rosario Castro Jorge, Universidade de São Paulo

Aluna de Mestrado.

Publicado
2010-04-07
Como Citar
Jorge, M. L. del R. C., & Pardo, T. A. S. (2010). Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento. Linguamática, 2(1), 95-109. Obtido de https://www.linguamatica.com/index.php/linguamatica/article/view/52
Edição
Secção
Artigos de Investigação