Mineração na Web mostra padrões de comportamento no uso da Web, para isso, são aplicadas técnicas de
Data Mining no conteúdo Web. A análise pode ser feita sobre páginas visitadas, tempo gasto em cada uma, quais as mais freqüentadas, associações entre páginas e padrões transversos (páginas não ligadas diretamente por Hyperlinks, e sim por meio de outras páginas).
Estão sendo discutidas estratégias para analisar seqüências de páginas para definir comportamento de usuários. Identificar certos tipos de usuários, comparar padrões de compradores e não compradores, identificar diferenças entre usuários visitantes rápidos, usuários investigadores e usuários compradores. O conhecimento obtido com essa investigação pode servir para projetar páginas com o objetivo de maximizar a eficiência de contato com o cliente.
Web Mining é freqüentemente associado com "Recuperação de Informação", mas na verdade trata-se de um processo mais amplo, interdisciplinar, envolvendo técnicas de Recuperação de Informação, estatística, inteligência artificial e mineração de dados.
Em geral, as tarefas principais de Web Mining são as seguintes:
- Busca de documentos: consiste em se encontrar sites Web contendo documentos especificados por palavras-chave. É o processo de se extrair dados a partir de fontes de textos disponíveis na Internet, tais como conteúdos de textos de documentos HTML obtidos removendo-se as tags HTML, textos extraídos de grupos de discussão, newsletters, etc. Esta tarefa envolve a utilização de técnicas de Recuperação de Informação.
- Seleção e pré-processamento da informação: consiste em selecionar e pré-processar automaticamente informações obtidas na Internet. O pré-processamento envolve qualquer tipo de transformação da informação obtida na busca, como, por exemplo, corte de textos, transformação da representação da informação em outros formalismos.
- Generalização: consiste em descobrir automaticamente padrões gerais em sites Web ou entre vários sites Web. Esta tarefa envolve a utilização de técnicas de inteligência artificial e de mineração de dados.
- Análise: validação e interpretação dos padrões minerados.