Mineração de Dados - 01.3


 

Descrição geral desta (classe de) disciplina, incluindo ementa, avaliação e material bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html

Informações Gerais

Professor: Paulo Adeodato
Horários: 2a.  8 as 10 e 4a.  10 as 12

Local: Sala M8

Bibliografia

1) Data Mining: Concepts and Techniques
Jiawei Han and Micheline Kamber. Morgan Kaufmann Publishers, 2001.

2) Data Mining
Ian H. Witten and Eibe Frank. Morgan Kaufmann Publishers, 2000.

3) Data Mining Cookbook: Modeling Data for Marketing, Risk and Customer Relationship Management
Olivia Parr Rud. John Wiley & Sons, 2001.

Sites Recomendados

1.      www.dmreview.com (softwares, aplicações comerciais, problemas reais)

2.      www.kdnuggets.com (conferências, softwares, repositórios de dados)

3.      http://www.spss.com/ (softwares da SPSS, aplicações reais, eventos e apresentações de mineração de dados)

Palestrantes convidados

Adrian L. Arnaud

Prof. Francisco A. T. Carvalho

Prof. Roberto A. F. Santos

Rodrigo C. L. V. Cunha

Ferramentas

Clementine:  http://www.spss.com.br/ (em negociação)

Weka : http://www.cs.waikato.ac.nz/~ml/weka/index.html

 R: http://www.r-project.org/

NeuralScorer

Excel

Avaliação

Graduação

Prova (30% da avaliação)
Exercício sobre resolução de problemas (10% da avaliação)
Projeto (60% da avaliação)

Pós-Graduação

Prova (25% da avaliação)
Exercício sobre resolução de problemas (10% da avaliação)
Projeto (50% da avaliação)
Seminários (15% da avaliação)

 


Calendário:

Aula 1: Apresentação da disciplina (30/04/03), Paulo

Aula 2: O processo de descoberta de conhecimento em banco de dados (07/05/03), Paulo

Aula 3: Princípios da aprendizagem baseada em dados (12/05/03), Paulo

Aula 4: Erros típicos em projetos de KDD (14/05/03), Paulo

Aula 5: Aplicações práticas da descoberta de conhecimento em banco de dados (19/05/03), Paulo

Aula 6: Modelagem I (21/05/03), Paulo

Aula 7: Modelagem II (26/05/03), Paulo

Aula 8: Apresentação dos assuntos de projeto e Seminários (28/05/03), Paulo

Aula 9: OLAP: consultas analíticas em um data warehouse (02/06/03), Roberto

Aula 10: OLAP: Aula Prática (04/06/03), Roberto

Aula 11: Tipologia dos dados de entrada e Problemática geral da preparação de dados (09/06/03), Roberto

Aula 12: NeuroMiner: um sistema de mineração de dados híbrido conexionista e simbólico (11/07/03), Roberto ou Rodrigo

Aula 13: Weka: uma caixa de ferramenta Java para associação, classificação, previsão e clustering (16/07/03), Aluno de Chico

Aula 14: Orientação de projetos I (18/06/03), Paulo

Aula 15: Visão geral das técnicas de classificação - I (23/06/03), Paulo

Aula 16: Visão geral das técnicas de classificação - II (25/06/03), Paulo

Aula 17: Regressão (resposta contínua): interpolação e extrapolação (previsão) (30/06/03), Adrian

Aula 18: Clustering (02/07/03), Francisco

Aula 19: Caracterização e comparação analítica de dados (07/07/03), Adrian

Aula 20: Indução de regras atributivas de associação (09/07/03), Adrian

Aula 21: Mineração de exceções (14/07/03), Rodrigo

Aula 22: Tipologia do conhecimento de saída e Validação estatística do conhecimento minerado (21/07/03), Paulo

Aula 23: Orientação de projetos II (23/07/03), Paulo

Aula 24: Medidas de interesse do conhecimento minerado (28/07/03), Rodrigo ou Paulo

Aula 25: Comparação e combinação de métodos de mineração (30/07/03), Paulo

Aula 26: Seminários (06/08/03)

Aula 27: Revisão (11/08/03)

Aula 28: Prova (13/08/03)

Aula 29: Apresentação de Projeto I (18/08/03)

Aula 30: Apresentação de Projeto II (20/08/03)

Aula 31: Prova final (27/08/03)


Caderneta Escolar


Aula 1: Apresentação da disciplina (30/04/03)


Aula 2: O processo de descoberta de conhecimento em banco de dados (07/05/03)


 Aula 3: Princípios da aprendizagem baseada em dados (12/05/03)


Aula 4: Erros típicos em projetos de KDD (14/05/03)


Aula 5: Tipologia dos dados de entrada (19/05/03)


Aula 6: Tipologia do conhecimento de saída (21/05/03)


Aula 7: Aplicações práticas da descoberta de conhecimento em banco de dados (26/05/03)


Aula 8: Apresentação dos assuntos de projeto e Seminários (28/05/03)


Aula 9: Problemática geral da preparação de dados (02/06/03)


Aula 10: OLAP: consultas analíticas em um data warehouse (04/06/03)


Aula 11: OLAP: Aula Pratica (09/06/03)


Aula 12: Orientação de projetos I (11/06/03)


Aula 13: Caracterização e comparação analítica de dados (16/06/03)


Aula 14: Indução de regras atributivas de associação (18/06/03)


Aula 15: Visão geral das técnicas de classificação - I (23/06/03)


Aula 16: Visão geral das técnicas de classificação - II (25/06/03)


Aula 17: Clustering (02/07/03)


Aula 18: Modelagem I (07/07/03)


Aula 19: Modelagem II (09/07/03)


Aula 20: NeuroMiner: um sistema de mineração de dados híbrido conexionista e simbólico (14/07/03)


Aula 21: Mineração de exceções (21/07/03)


Aula 22: Weka: uma caixa de ferramenta Java para associação, classificação, previsão e clustering (23/07/03)


Aula 23: Validação estatística do conhecimento minerado (28/07/03)


Aula 24: Medidas de interesse do conhecimento minerado (30/07/03)

·         Transparências: Interestingness.ppt


Aula 25: Comparação e combinação de métodos de mineração (04/08/03)


 Aula 26: Seminário I (06/08/03)


Aula 27: Revisão (11/08/03)


Aula 28: Prova (13/08/03)


Aula 29: Apresentação de Projeto I (18/08/03)


Aula 30: Apresentação de Projeto II (20/08/03)


·         Plano das apresentações de projetos de desenvolvimento de ferramentas

    1. Introdução: o problema

o      Funcionalidade da ferramenta

o      Utilidade prática e motivação pelo desenvolvimento de tal ferramenta

    1. Projeto e arquitetura de software:

o      Identificação dos componentes do software e motivação por tal decomposição

o      Dados de entrada e saída de cada componente com motivação

o      Fluxo de controle e interação dinâmica entre os componentes e sua motivação

o      Dificuldades encontradas durante o projeto e soluções adotadas para superar ou contorná-las com motivação

    1. Implementação

o      Identificação dos componentes prontos usados com motivação da sua escolha

o      Estruturas de dados usadas por cada o novo componente implementado com motivação

o      Algoritmo usado por cada o novo componente implementado com motivação

o      Linguagens de programação, ferramentas de implementação e plataforma de execução subjascente usado para a implementação e implantação de cada componente, com motivação de escolha

o      Dificuldades encontradas durante a implementação e soluções adotadas para superar ou contorná-las com motivação

    1. Teste e validação

o      Estudo de caso usado para validar a ferramentas

o      Conjunto de entradas e saída de teste usado

o      Dificuldades encontradas durante a validação e soluções adotadas para superar ou contorná-las com motivação

    1. Limitações da versão atual e desenvolvimentos futuros

o      Identificações da limitações da versão atual da ferramentas

o      Sugestões de modificações e extensões para futuras versões superando essas limitações

    1. Como usar a ferramenta

o      Onde está disponível?

o      Como instalá-la?

o      Onde encontrar o manual do usuário (ou pelo menos o arquivo README)?

o      Onde encontrar arquivos de entrada e saída demo que demonstram o funcionamento da ferramenta?

    1. Introdução: caracterização da tarefa de descoberta de conhecimento

o      Tipos de dados disponíveis em entrada

o      Tipos de conhecimento esperado em sáida

o      Utilidade prática de tal conhecimento: decicões que podem ser tomadas ou alteradas a partir do conhecimento a minerar

    1. Preparação dos dados

o      Descrição funcional, qualitativa, quantitativa e estatística das fontes de dados brutos

o      Seleção dos dados: descrição e motivação das tabelas, campos e registros selecionados para a mineração

o      Limpeza de dados: descrição do estado de limpeza do dados brutos selecionados e do processamento de limpeza efetuado com motivação

o      Transformação de dados: descrição e motivação dos processos de transformação dos dados efetuados, como:

§       agregação ou agrupamento de registros

§       discretização ou categorização de campos

§       derivação de novos campos ou novas tabelas por meio de dedução ou junção

§       construção de hierarquias conceituais de valores de campos

§       reformatação de um modelo de dado para outro

o      Dificuldades encontradas durante a preparação dos dados e soluções adotadas para superar ou contorná-las com motivação

    1. Mineração dos dados

o      Identificação e motivação das técnicas de mineração usadas

o      Identificação e motivação das ferramentas de mineração usadas

o      Parametrização das tarefas de mineração executadas com motivação dos valores dos parâmetros

o      Dificuldades encontradas durante a mineração dos dados e soluções adotadas para superar ou contorná-las com motivação

    1. Validação do conhecimento minerado

o      Identificação e motivação das técnicas de avaliação estatística da confiabilidade e generalidade do conhecimento minerado

o      Interpretação do conhecimento minerado

o      Insights decisionais decorrentes do conhecimento minerado

o      Dificuldades encontradas durante a validação e interpretação dos dados e soluções adotadas para superar ou contorná-las com motivação

    1. Iterações no processo de descoberta de conhecimento

o      Descrição e motivação das iterações efetuadas no processo de descoberta de conhecimento

    1. Conhecimento descoberto após da conclusão do processo

o      Descrição funcional, qualitativa, quantitativa e estatística do conhecimento minerado


Aula 31: Prova final (27/08/03)