Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro
Palavras-chave:
Extração de Informação, Regras de Produção, JEOPS, Wrapper, CrawlerResumo
Técnicas de Extração de Informação possibilitam geração automática de uma representação estruturada a partir de conteúdo não estruturado ou semi-estruturado. Informação estruturada possibilita ou facilita seu processamento por parte de aplicações Web diversas. Este trabalho descreve a implementação de um sistema de extração automática de informação semi-estruturada na Web orientada a domínio. O sistema utiliza regras de produção baseada em objetos que produzem instâncias de classes que representam o domínio considerado. O sistema faz uso da API JEOPS, um motor de inferência de primeira ordem com encadeamento progressivo integrado à linguagem Java. Como estudo de caso, foi definido classes que representam o Campeonato Brasileiro de Futebol. O sistema recebe como entrada o endereço eletrônico de um portal Web e, fazendo uso de fatos e regras de sua base de conhecimento relacionada ao Campeonato Brasileiro, identifica links relacionados e navega no portal a fim de localizar a tabela de classificação do campeonato e extrair dados da tabela, produzindo de forma automática instâncias das classes especificadas.Downloads
Como Citar
de Melo, A. S., & Macedo, H. T. (2011). Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro. Scientia Plena, 5(8). Recuperado de https://scientiaplena.org.br/sp/article/view/640
Edição
Seção
Artigos
Licença
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) após a sua publicação, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.