Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português

Miguel Ângelo Abrantes Costa; Bruno Martins

Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português

Autores

Miguel Ângelo Abrantes Costa Instituto Superior Técnico - INESCID
Bruno Martins Instituto Superior Técnico - INESCID

Palavras-chave:

Sumarização Extrativa, Recuperção de Informação, Processamento de Linguagem Natural,

Resumo

A sumarização automática consiste na tarefa de gerar automaticamente versões condensadas de textos fonte, apresentando-se como um dos problemas fundamentais nas áreas da Recuperação de Informação e do Processamento de Linguagem Natural. Neste artigo, considerando metodologias puramente extrativas, são comparadas diferentes abordagens na tarefa de sumarizar documentos individuais correspondendo a textos jornalísticos escritos em Português. Através da utilização da bancada ROUGE como forma de medir a qualidade dos sumários produzidos, são reportados resultados para dois domínios experimentais diferentes, respetivamente envolvendo (i) a geração de títulos para textos jornalísticos escritos na variante Europeia do Português, e (ii) a geração de sumários com base em artigos jornalísticos escritos na variante Brasileira do Português. Os resultados obtidos demonstram que uma baseline simples, baseada na seleção da primeira frase, obtém melhores resultados na construção de títulos de notícias de forma extrativa, em termos de várias métricas ROUGE. No segundo domínio experimental, envolvendo a geração de sumários de notícias, o método que obteve melhores resultados foi o algoritmo LSA Squared, para as várias métricas ROUGE consideradas neste trabalho.

Downloads

Publicado

2015-07-31

Edição

Vol. 7 N.º 1

Secção

Artigos de Investigação

Licença

Ao publicar na presente revista, os autores concordam com os seguintes termos:

os direitos sobre a obra pertencem aos autores, que apenas concedem à Linguamática o direito de primeira publicação sob a licença Creative Commons, que permite que outros possam redistribuir a obra desde que acompanhada de referência ao autor e à Linguamática.
os autores podem estabelecer outros contratos para a distribuição não exclusiva da obra, desde que mencionem que a sua primeira publicação foi efectuada na Linguamática.
para aumentar as referências ao seu trabalho, os autores são encorajados a disponibilizar a obra, como "pré-publicação", antes de ou durante o processo de apreciação pela Linguamática, por exemplo em repositórios institucionais ou nas suas páginas pessoais na rede.

Como Citar

Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português. (2015). Linguamática, 7(1), 23-40. https://www.linguamatica.com/index.php/linguamatica/article/view/V7N1-2

Descarregar Citação

Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português

Autores

Palavras-chave:

Resumo

Downloads

Publicado

Edição

Secção

Licença

Como Citar

Idioma

logos