O wrapper na mineração de dados é um programa que extrai o conteúdo de uma fonte de informação específica e o converte em um formato relacional. Muitas páginas da Web apresentam dados estruturados - diretórios telefônicos, catálogos de produtos etc. formatados para navegação humana usando a linguagem HTML. Dados estruturados são normalmente descrições de objetos recuperados de bancos de dados subjacentes e exibidos em páginas da Web seguindo alguns modelos fixos.[1]
Geração Wrapper
Há duas abordagens principais para a geração de wrappers: indução de wrappers e extração automatizada de dados. A indução de wrrapers utiliza a aprendizagem supervisionada para aprender as regras de extração de dados a partir de exemplos de formação rotulada manualmente. As desvantagens da indução de wrappers são:
- o demorado processo de etiquetagem manual e
- a dificuldade de manutenção do wrapper.
Devido ao esforço de etiquetagem manual, é difícil extrair dados de um grande número de sítios, visto que cada sítio tem os seus próprios modelos e requer uma etiquetagem manual separada para a aprendizagem do wrapper. A manutenção do wrapper é também uma questão importante porque sempre que um sítio muda, os wrappers construídos para o sítio tornam-se obsoletos. Devido a estas deficiências, os investigadores estudam a geração automática de wrapperss utilizando a extração de padrões sem supervisão. A extração automatizada é possível porque a maioria dos objetos de dados da Web seguem modelos fixos. A descoberta de tais modelos ou padrões permite que o sistema faça a extração automaticamente [2]
Referências