Extração Automática de Conteúdo Semi-Estruturado na Web:  Estudo de Caso do Futebol Brasileiro

Alexandre S. de Melo; Hendrik T. Macedo

Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro

Autores

Alexandre S. de Melo Departamento de Ciência da Computação - Universidade Federal de Minas Gerais (UFMG)
Hendrik T. Macedo Departamento de Computação – Universidade Federal de Sergipe (UFS)

Palavras-chave:

Extração de Informação, Regras de Produção, JEOPS, Wrapper, Crawler

Resumo

Técnicas de Extração de Informação possibilitam geração automática de uma representação estruturada a partir de conteúdo não estruturado ou semi-estruturado. Informação estruturada possibilita ou facilita seu processamento por parte de aplicações Web diversas. Este trabalho descreve a implementação de um sistema de extração automática de informação semi-estruturada na Web orientada a domínio. O sistema utiliza regras de produção baseada em objetos que produzem instâncias de classes que representam o domínio considerado. O sistema faz uso da API JEOPS, um motor de inferência de primeira ordem com encadeamento progressivo integrado à linguagem Java. Como estudo de caso, foi definido classes que representam o Campeonato Brasileiro de Futebol. O sistema recebe como entrada o endereço eletrônico de um portal Web e, fazendo uso de fatos e regras de sua base de conhecimento relacionada ao Campeonato Brasileiro, identifica links relacionados e navega no portal a fim de localizar a tabela de classificação do campeonato e extrair dados da tabela, produzindo de forma automática instâncias das classes especificadas.

Biografia do Autor

Alexandre S. de Melo, Departamento de Ciência da Computação - Universidade Federal de Minas Gerais (UFMG)

Hendrik T. Macedo, Departamento de Computação – Universidade Federal de Sergipe (UFS)

Downloads

Como Citar

de Melo, A. S., & Macedo, H. T. (2011). Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro. Scientia Plena, 5(8). Recuperado de https://scientiaplena.org.br/sp/article/view/640

Baixar Citação

Edição

v. 5 n. 8 (2009): August/Agosto 2009

Seção

Artigos

Licença

Autores que publicam nesta revista concordam com os seguintes termos:

Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) após a sua publicação, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.