BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura

  • Brett Drury National University of Ireland Galway
  • Robson Fernandes ICMC, University of São Paulo
  • Alneu de Andrade Lopes ICMC, University of São Paulo
Palavras-chave: Mineração de Texto, Agricultura, Relações Causais

Resumo

Recentemente tem havido um aumento no interesse, tanto no meio acadêmico quanto na indústria, em aplicações de aprendizagem de máquina e técnicas de inteligência artificial relacionadas com problemas agrícolas. Mineração de texto e técnicas relacionadas com o processamento da língua natural, raramente foram usadas para resolver problemas agrícolas, e muito menos para a língua portuguesa. É possível que um dos fatores que influenciam a escassez no uso técnicas de mineração de texto, para analisar textos em português e resolver problemas agrícolas, pode ser devido à falta de um corpus anotado livremente disponível. Para colmatar a falta de um corpus agrícola em língua portuguesa, estamos liberando um recurso em português-brasileiro voltado para agricultura, descrito neste artigo. O corpus abrange um período parcialmente contínuo de tempo entre 1996 e 2016, consistindo de notícias em português-brasileiro que foram anotadas com o seguinte tipo de informação: causal, sentimento, entidades nomeadas que incluem expressões temporais. O corpus tem recursos adicionais como: treebank, listas de termos frequentes (sem stop-words): unigramas, bigramas e trigramas, bem como palavras ou frases que foram identificados por jornalistas como de domínio específico. Espera-se que a liberação do corpus estimule a adoção da mineração de texto na agricultura na comunidade de pesquisa lusófona.

Biografias Autor

Brett Drury, National University of Ireland Galway

Brett is currently a Senior Research Fellow at the National University of Ireland Galway and is a member of the machine learning group. Prior to this position he was a post-doctoral researcher and FAPESP grant holder at the University of Sao Paulo under the supervision of Alneu Lopes. He gained his doctoral degree in computer science at the University of Porto under the guidance of Luis Torgo and José João Almeida. Prior to this Brett spent 14 years in industry as a software engineer. He holds undergraduate and post-graduate qualifications from Plymouth University and the University of London.

Robson Fernandes, ICMC, University of São Paulo

Robson is a Master's student in Mathematics, Statistics and Computing Applied to Industry at the Institute of Mathematical and Computer Sciences of the University of São Paulo - ICMC -USP, under the supervision of Alneu Lopes and co-supervision of Brett Drury.He holds a Post-Graduate qualification in Distributed Software Architecture at the Pontifical Catholic University of Minas Gerais - PUC-MG, Brazil; MBA in Service Oriented Software Engineering (SOA) from METROCAMP, Brazil; Graduation in Information Technology Management from Anhanguera Educacional College, Brazil. He is currently a lecturer on the Post-Graduate course in Software Engineering and Management and Governance in Information Technology at Sacred Heart University (USC), Brazil; and a Software Developer.

Alneu de Andrade Lopes, ICMC, University of São Paulo

Alneu is Assistant Professor in the University of São Paulo at São Carlos. Member of the Machine Learning Group (LABIC). My research interests lie in the fields of Machine Learning and Data Mining. In particular I am interested in Graph-Based Relational Learning.

Publicado
2017-07-01
Como Citar
Drury, B., Fernandes, R., & Lopes, A. (2017). BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura. Linguamática, 9(1), 41-54. https://doi.org/10.21814/lm.9.1.245
Edição
Secção
Projectos, Apresentam-se