Mineração
de Dados - 02.2
Descrição geral
desta (classe de) disciplina, incluindo ementa, avaliação e material
bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html
Informações Gerais
Professores: Francisco Carvalho e Paolo Adeodato
Horários: 3a. 8 as 10 e 5a. 10 as 12
Local: Salas M2 (3a) e M1 (5a)
Turma:
- Graduação:
- Luiz André (lasb)
- Alexandra (avms)
- Zilma (zfga)
- Shenia (slar)
- Erick
- Leonardo
- Wanderley
- Sidney
- Pós-graduação:
- Sergio (srmq)
- Adalberto (affj)
- Denise (dmrhv)
- Ana (aibc)
- Bruno (bpa)
- Franklin (fsr)
- Byron (bldb)
- Clebson (kss)
- Ernesto (etl)
- Disciplina isolada:
- Rodrigo
- Eufrásio (eufrásio@datagro.com.br)
- Juliana
Bibliografia
1)
Data
Mining Concepts and Techniques
Jiawei Han and Micheline Kamber
2)
Data
Mining
Ian H. Witten and Eibe Frank
Sites
1. www.dmreview.com
(softwares, aplicações comerciais, problemas reais)
2. www.kdnuggets.com
(conferencias, softwares, repositories de dados)
Avaliação
Graduação
Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (60% da avaliação)
Pós-Graduação
Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (50% da avaliação)
Seminarios (10% da avaliação)
Ferramentas
Weka :
http://www.cs.waikato.ac.nz/~ml/weka/index.html
Neuroscorer
R: http://www.r-project.org/
Calendário:
Caderneta Escolar
Aula 1: Apresentação da
disciplina (29/10/02)
- Chico e Paulo
- Plano:
- Objetivo da
disciplina
- Metodologia didática
e de avaliação
- Ementa
- Material
bibliográfica
- Chico 1
- Fichas de leitura a entregar:
- Seções 1.1-1-2,
1.5-1.7 do Han & Kamber
- Seções 1.1-1.3, 1.4-1.5 do Witten & Frank
- Tranparencias: KDDprocess.ppt
Aula 3: Tipologia dos dados de
entrada (05/11/02)
- Chico 2
- Fichas de leitura a entregar:
- Seção 1.3-1.4 do Han
& Kamber
- Seções 2.1-2.3 e
Capítulo 3 do Witten & Frank
- Tranparencias: MiningInput.ppt
Aula 4: Tipologia do conhecimento
de saída (07/11/02)
- Chico 3
- Fichas de leitura a entregar:
- Seção 1.4 do Han
& Kamber
- Capítulo 3 do Witten
& Frank
- Tranparencias: MiningOutput.ppt
Aula 5: Aplicações práticas da
descoberta de conhecimento em banco de dados (19/11/02)
- Chico 4
- Fichas de leitura a entregar:
- Capítulo 10 do Han
& Kamber
- Seção
1.3 do Witten & Frank
- AplicacoesKDD
- Chico e Paulo
- Projetos:
- orientados por
Chico:
- Minerar dados do
Covest usando árvores de decisão regras (Zilma, Erik)
- Minerar dados do
Prodoc usando árvores de decisão regras (Alexandra, Shenia)
- Classificação de
páginas web em termos de frequencia de atualização
- Agrupamento
de páginas similares da Web tanto em termo de contéudo quanto em termos de links
- Minerar arquivo de
log do servidor Web do CIn-UFPE
ou do CTI-UFPE
- Abordagem Simbólica em Filtragem de
Informação para Sistemas de Recomendação (Byron)
- Uma abordagem
simbólica para recomendação de itens para grupos (Sergio)
- Abordagem simbólica
versus abordagem usual para a análise de gestões municipais (Eufrasio,
Juliana)
- orientados por
Paulo:
- Mineração do “Zé
Bolão” (Franklin, Klebson, Ernesto)
- Minerar dados de
saúde (Adalberto e ?)
- Minerar dados de
crédito: Abordagem I (Ana)
- Minerar dados de
crédito: Abordagem II (Denise,
Bruno))
- Minerar dados do
Covest usando redes neurais e classificação bayesiana ingênua
(Wanderley, Sidney)
- Minerar dados do Prodoc
usando redes neurais e classificação bayesiana ingênua (Luiz André,
Leonardo)
- Minerar dados de
fila única da Cagepa
- Montar data
warehouse de saúde pública, a partir dos BD e das páginas disponíveis no
site DataSus do ministério da saúde,
e minerá-lo com Weka
- Minerar dados de
audiência de radio e tv (Rodrigo)
- Seminários
- orientados por
Chico:
- Mining the Word Wide Web (Franklin, Rodrigo)
- Mining time-series and sequence data (Eufrasio,
Juliana)
- Symbolic Data Analysis (Byron e Sergio)
- orientados por Paulo:
- Softwares para
Mineração de Dados (Ana Isabel,Adalberto.)
- Mining spatial Data
Bases (Bruno, Denise)
- Mining Multimedia
Data Bases (Adalberto)
- KDDproj.ppt
- Paulo 1
- Fichas de leitura a entregar:
- Seções 3.1-3.2,
3.4.2-3.4.4 do Han & Kimber
- Seções 7.1-7.3 do Witten & Frank
- Plano:
- Motivação do
préprocessamento
- Seleção de atributos
e redução da dimensionalidade
- Compressão de dados
- Redução da
numerosidade
- Discretização dos
atributos intervalares, fracionais e contínuos
- Limpagem de dados
- Tranparencias: DataPreparation.ppt
Aula 8: OLAP: consultas
analíticas em um data warehouse (28/11/02)
- Paulo 2
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6
e do Han & Kimber
- Seções 27 e 28 do
Patterson et al.
- Tranparencias: OLAP.ppt
Aula 9: OLAP: Aula Pratica
(03/12/02)
- Paulo 3
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6
e do Han & Kimber
- Seções 27 e 28 do
Patterson et al.
- Tranparencias: OLAP.ppt
Aula 10:
Orientação de projetos I (05/12/02)
- Paulo 4
- Fichas de leitura a entregar:
- Seções 5.1, 5.2.1,
5.2.2, 5.3, 5.4.1, 5.5.1, 5.5.2, 5.6 do Han & Kimber
- Tranparencias: CharacterizationComparison.ppt
Aula 12: Indução de regras
atributivas de associação (12/12/02)
- Chico 5
- Fichas de leitura a entreguar:
- Capítulo 6 do Han
& Kamber (falta ainda 6.3, 6.4, 6.5. 6.6)
- Tranparencias: Associations.ppt
Aula 13: Visão geral das técnicas
de classificação (17/12/02)
- Paulo 5
- Fichas de leitura a entregar:
- Plano:
- Problemática geral
da classificação
- Classificação por
indução de árvores de decisão
- Classificação
por indução de regras attributivas
- Classificação
por programação em lógica indutiva
- Classificação
bayesiana ingênua
- Classificação
por redes bayesianas
- Classificação por
regressão global
- Classificação por
perceptrão multi-camada
- Classificação por
funções de bases radiais
- Classificação
por support vector machines
- Classificação por
k-vizinhos mais próximos
- Classificação
por regressão localmente ponderada
- Classificação
por raciocínio baseado em casos
- Classificação
por rough sets
- Classificação
por algoritmos genéticos
- Tranparencias: Classificação.ppt
Aula
14: Clustering (19/12/02)
- Chico 6
- Fichas de leitura a entregar:
- Capítulo 8 do Han
& Kamber exceto 8.9
- Tranparencias: Clustering
Aula 15: Modelagem (07/01/03)
- Paulo 6
- Fichas de leitura a entregar:
- Plano:
- Tranparencias:
Aula 16: NeuroMiner: um sistema de
mineração de dados híbrido conexionista e simbólico (09/01/03)
- Paulo 7
- Ficha de leitura a entregar:
- Plano:
- Transparências: NeuroMiner.ppt
Aula 17: Mineração de exceções
(14/01/03)
- Chico 8
- Fichas de leitura a entregar:
- Tranparencias: Outliers.ppt
Aula 18: Weka:
uma caixa de ferramenta Java para associação, classificação, previsão e clustering
(16/01/03)
- Chico 7
- Ficha de leitura a entregar: Capítulo
8 do Witten & Frank
Tranparencias: Weka.ppt
- Chico 9
- Fichas de leitura a
entregar:
- Seção 7.9.1 e 7.9.3
do Han & Kimber
- Capítulo 5 e Seção
7.4 do Witten & Frank
- Tranparencias: AvaliacaoClassificadores
Aula 20: Medidas de interesse do
conhecimento minerado (23/01/03)
·
Tranparencias:
Interestingness.ppt
Aula 21: Comparação e combinação
de métodos de mineração (28/01/03)
- Paulo 9
- Fichas de leitura a entregar:
- Seções 7.9.2 do Han
& Kimber
- Seções 7.4 do Witten & Frank
- Tranparencias: ComparisonCombination.ppt
Aula
22: Seminário I (30/01/03)
Aula 23: Seminário II (04/02/03)
Aula 24: Seminário III (06/02/03)
Aula 25: Revisão (11/02/03)
Aula 26: Prova (13/02/03)
Aula
27: Apresentação de Projeto I (18/02/03)
- Abordagem Simbólica
em Filtragem de Informação para Sistemas de Recomendação (Byron)
- Uma abordagem
simbólica para recomendação de itens para grupos (Sergio)
Aula 28: Apresentação de Projeto
II (20/02/03)
- Minerar dados do
Prodoc usando árvores de decisão regras (Alexandra, Shenia)
- Minerar dados do
Prodoc usando redes neurais e classificação bayesiana ingênua (Luiz André,
Leonardo)
- Minerar dados do
Covest usando redes neurais e classificação bayesiana ingênua (Wanderley,
Sidney)
- Minerar dados do
Covest usando árvores de decisão regras (Zilma, Erik)
Aula 29: Apresentação de Projeto
III (25/02/03)
- Mineração do “Zé Bolão”
(Franklin, Klebson, Ernesto)
- Abordagem simbólica
versus abordagem usual para a análise de gestões municipais (Eufrasio,
Juliana)
- Mineração
de Dados de Saúde e Epidemiologia (Adalberto)
Aula 30: Apresentação de Projeto
IV (27/02/03)
- Minerar dados de crédito:
Abordagem I (Ana)
- Minerar dados de
crédito: Abordagem II (Denise,
Bruno))
- Minerar dados de
audiência de radio e tv (Rodrigo)
·
Plano das
apresentações de projetos de desenvolvimento de ferramentas
- Introdução: o
problema
o Funcionalidade da ferramenta
o Utilidade prática e
motivação pelo desenvolvimento de tal ferramenta
- Projeto e
arquitetura de software:
o Identificação dos
componentes do software e motivação por tal decomposição
o Dados de entrada e saída
de cada componente com motivação
o Fluxo de controle e
interação dinámica entre os componentes e sua motivação
o Dificuldades encontradas
durante o projeto e soluções adotadas para superar ou contorna-lás com
motivação
- Implementação
o Identificação dos
componentes prontos usados com motivação da sua escolha
o Estruturas de dados usadas
por cada o novo componente implementado com motivação
o Algoritmo usado por cada o
novo componente implementado com motivação
o Linguagens de programação,
ferramentas de implementação e plataforma de execução sub-jacente usado para a
implementação e implantação de cada componente, com motivção de escolha
o Dificuldades encontradas
durante a implementação e soluções adotadas para superar ou contorna-lás com
motivação
- Teste e validação
o Estudo de caso usado para
validar a ferramentas
o Conjunto de entradas e
saída de teste usado
o Dificuldades encontradas
durante a validação e soluções adotadas para superar ou contorna-lás com
motivação
- Limitações da versão
atual e desenvolvimentos futuros
o Identificações da
limitações da versão atual da ferramentas
o Sugestões de modificações
e extensões para futuras versões superando essas limitações
- Como usar a
ferramenta
o Onde está disponível?
o
Como instalá-la?
o Onde encontrar o manual do
usuário (ou pelo menos o arquivo README)?
o Onde encontrar arquivos de
entrada e saída demo que demonstram o funcionamento da ferramenta?
- Plano das apresentações de projetos de descoberta de
conhecimento com ferramentas existentes
- Introdução:
caracterização da tarefa de descoberta de conhecimento
o Tipos de dados disponíveis
em entrada
o Tipos de conhecimento
esperado em sáida
o Utilidade prática de tal
conhecimento: decicões que podem ser tomadas ou alteradas a partir do
conhecimento a minerar
- Preparação dos dados
o Descrição funcional,
qualitativa, quantitativa e estatística das fontes de dados brutos
o Seleção dos dados:
descrição e motivação das tabelas, campos e registros selecionados para a
mineração
o Limpeza de dados:
descrição do estado de limpeza do dados brutos selecionados e do processamento de
limpeza efetuado com motivação
o
Transformação
de dados: descrição e motivação dos processos de transformação dos dados
efetuados, como:
§
agregação
ou agrupamento de registros
§
discretização
ou categorização de campos
§
derivação
de novos campos ou novas tabelas por meio de dedução ou junção
§
construção
de hierarquias conceituais de valores de campos
§
reformatação
de um modelo de dado para outro
o Dificuldades encontradas
durante a preparação dos dados e soluções adotadas para superar ou contorna-lás
com motivação
- Mineração dos dados
o Identificação e motivação
das técnicas de mineração usadas
o Identificação e motivação
das ferramentas de mineração usadas
o Parametrização das tarefas
de mineração executadas com motivação dos valores dos parametros
o Dificuldades encontradas
durante a mineração dos dados e soluções adotadas para superar ou contorna-lás
com motivação
- Validação do
conhecimento minerado
o Identificação e motivação
das técnicas de avaliação estatística da confiabilidade e generalidade do
conhecimento minerado
o Interpretação do
conhecimento minerado
o Insights decisionais
decorrentes do conhecimento minerado
o Dificuldades encontradas
durante a validação e interpretação dos dados e soluções adotadas para superar ou
contorna-lás com motivação
- Iterações no
processo de descoberta de conhecimento
o Descrição e motivação das
iterações efetuadas no processo de descoberta de conhecimento
- Conhecimento
descoberto após da conclusão do processo
o Descrição funcional,
qualitativa, quantitativa e estatística do conhecimento minerado
Aula 31: Prova
final (07/03/03)