Descrição geral desta (classe de) disciplina, incluindo ementa, avaliação e material bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html
Professor: Paulo Adeodato
Horários: 2a. 8 as 10 e 4a. 10 as 12
Local: Sala M8
Bibliografia
1) Data Mining: Concepts and Techniques
Jiawei Han and Micheline Kamber. Morgan Kaufmann Publishers, 2001.
2) Data Mining
Ian H. Witten and Eibe Frank. Morgan Kaufmann Publishers, 2000.
3) Data Mining Cookbook: Modeling Data for Marketing, Risk and Customer
Relationship Management
Olivia Parr Rud. John Wiley & Sons, 2001.
Sites Recomendados
1. www.dmreview.com (softwares, aplicações comerciais, problemas reais)
2. www.kdnuggets.com (conferências, softwares, repositórios de dados)
3. http://www.spss.com/ (softwares da SPSS, aplicações reais, eventos e apresentações de mineração de dados)
Palestrantes convidados
Adrian L. Arnaud
Prof. Francisco A. T. Carvalho
Prof. Roberto A. F. Santos
Rodrigo C. L. V. Cunha
Ferramentas
Clementine: http://www.spss.com.br/ (em negociação)
Weka : http://www.cs.waikato.ac.nz/~ml/weka/index.html
NeuralScorer
Excel
Avaliação
Graduação
Prova (30% da avaliação)
Exercício sobre resolução de problemas (10% da avaliação)
Projeto (60% da avaliação)
Pós-Graduação
Prova (25% da avaliação)
Exercício sobre resolução de problemas (10% da avaliação)
Projeto (50% da avaliação)
Seminários (15% da avaliação)
Aula
1: Apresentação da disciplina (30/04/03), Paulo
Aula 2: O processo
de descoberta de conhecimento em banco de dados (07/05/03), Paulo
Aula 3: Princípios
da aprendizagem baseada em dados (12/05/03), Paulo
Aula 4: Erros
típicos em projetos de KDD (14/05/03), Paulo
Aula 5: Aplicações
práticas da descoberta de conhecimento em banco de dados (19/05/03), Paulo
Aula 6: Modelagem
I (21/05/03), Paulo
Aula 7: Modelagem
II (26/05/03), Paulo
Aula 8:
Apresentação dos assuntos de projeto e Seminários (28/05/03), Paulo
Aula 9: OLAP:
consultas analíticas em um data warehouse (02/06/03), Roberto
Aula 10: OLAP:
Aula Prática (04/06/03), Roberto
Aula 11: Tipologia
dos dados de entrada e Problemática geral da preparação de dados (09/06/03),
Roberto
Aula 12:
NeuroMiner: um sistema de mineração de dados híbrido conexionista e simbólico
(11/07/03), Roberto ou Rodrigo
Aula
13: Weka: uma caixa de ferramenta Java
para associação, classificação, previsão e clustering (16/07/03), Aluno de
Chico
Aula
14: Orientação de projetos I (18/06/03),
Paulo
Aula 15: Visão
geral das técnicas de classificação - I (23/06/03), Paulo
Aula 16: Visão
geral das técnicas de classificação - II (25/06/03), Paulo
Aula 17: Regressão
(resposta contínua): interpolação e extrapolação (previsão) (30/06/03), Adrian
Aula 18:
Clustering (02/07/03), Francisco
Aula 19:
Caracterização e comparação analítica de dados (07/07/03), Adrian
Aula 20: Indução
de regras atributivas de associação (09/07/03), Adrian
Aula 21: Mineração
de exceções (14/07/03), Rodrigo
Aula 22: Tipologia
do conhecimento de saída e Validação estatística do conhecimento minerado
(21/07/03), Paulo
Aula
23: Orientação de projetos II (23/07/03),
Paulo
Aula 24: Medidas
de interesse do conhecimento minerado (28/07/03), Rodrigo ou Paulo
Aula 25:
Comparação e combinação de métodos de mineração (30/07/03), Paulo
Aula 26:
Seminários (06/08/03)
Aula 27: Revisão
(11/08/03)
Aula 28: Prova
(13/08/03)
Aula 29:
Apresentação de Projeto I (18/08/03)
Aula 30:
Apresentação de Projeto II (20/08/03)
Aula
31: Prova final (27/08/03)
Caderneta Escolar
Aula 12:
Orientação de projetos I (11/06/03)
Aula 22: Weka:
uma caixa de ferramenta Java para associação, classificação, previsão e
clustering (23/07/03)
· Transparências: Interestingness.ppt
· Plano das apresentações de projetos de
desenvolvimento de ferramentas
o Funcionalidade da ferramenta
o Utilidade prática e motivação pelo desenvolvimento de tal ferramenta
o Identificação dos componentes do software e motivação por tal decomposição
o Dados de entrada e saída de cada componente com motivação
o Fluxo de controle e interação dinâmica entre os componentes e sua motivação
o Dificuldades encontradas durante o projeto e soluções adotadas para superar ou contorná-las com motivação
o Identificação dos componentes prontos usados com motivação da sua escolha
o Estruturas de dados usadas por cada o novo componente implementado com motivação
o Algoritmo usado por cada o novo componente implementado com motivação
o Linguagens de programação, ferramentas de implementação e plataforma de execução subjascente usado para a implementação e implantação de cada componente, com motivação de escolha
o Dificuldades encontradas durante a implementação e soluções adotadas para superar ou contorná-las com motivação
o Estudo de caso usado para validar a ferramentas
o Conjunto de entradas e saída de teste usado
o Dificuldades encontradas durante a validação e soluções adotadas para superar ou contorná-las com motivação
o Identificações da limitações da versão atual da ferramentas
o Sugestões de modificações e extensões para futuras versões superando essas limitações
o Onde está disponível?
o Como instalá-la?
o Onde encontrar o manual do usuário (ou pelo menos o arquivo README)?
o Onde encontrar arquivos de entrada e saída demo que demonstram o funcionamento da ferramenta?
o Tipos de dados disponíveis em entrada
o Tipos de conhecimento esperado em sáida
o Utilidade prática de tal conhecimento: decicões que podem ser tomadas ou alteradas a partir do conhecimento a minerar
o Descrição funcional, qualitativa, quantitativa e estatística das fontes de dados brutos
o Seleção dos dados: descrição e motivação das tabelas, campos e registros selecionados para a mineração
o Limpeza de dados: descrição do estado de limpeza do dados brutos selecionados e do processamento de limpeza efetuado com motivação
o Transformação de dados:
descrição e motivação dos processos de transformação dos dados efetuados, como:
§ agregação ou agrupamento de registros
§ discretização ou categorização de campos
§ derivação de novos campos ou novas tabelas por meio de dedução ou junção
§ construção de hierarquias conceituais de valores de campos
§ reformatação de um modelo de dado para outro
o Dificuldades encontradas durante a preparação dos dados e soluções adotadas para superar ou contorná-las com motivação
o Identificação e motivação das técnicas de mineração usadas
o Identificação e motivação das ferramentas de mineração usadas
o Parametrização das tarefas de mineração executadas com motivação dos valores dos parâmetros
o Dificuldades encontradas durante a mineração dos dados e soluções adotadas para superar ou contorná-las com motivação
o Identificação e motivação das técnicas de avaliação estatística da confiabilidade e generalidade do conhecimento minerado
o Interpretação do conhecimento minerado
o Insights decisionais decorrentes do conhecimento minerado
o Dificuldades encontradas durante a validação e interpretação dos dados e soluções adotadas para superar ou contorná-las com motivação
o Descrição e motivação das iterações efetuadas no processo de descoberta de conhecimento
o Descrição funcional, qualitativa, quantitativa e estatística do conhecimento minerado
Aula 31: Prova
final (27/08/03)