Mineração
de Dados - 04.2
Descrição geral
desta (classe de) disciplina, incluindo ementa, avaliação e material
bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html
Informações Gerais
Professores: Francisco Carvalho e
Paolo Adeodato
Horários:
·
4a. 10 as 12 e 6a. 8 as 10
o
Local: Salas 4 e M2
Turma:
- Graduação:
- Afonso (agaf)
- Aércio (acmf)
- José Almir (jafmj)
- Max (mjlt)
- Pós-graduação:
- Adriana (acdas)
- Diogo (dfv)
- Erick (ejfp)
- Fernanda (flm)
- Fábio (ffrv)
- Gustavo (gsa)
- Kátia (kcs2)
- Patrícia (pms)
- Disciplina isolada:
Bibliografia
1)
Data
Mining Concepts and Techniques
Jiawei Han and Micheline Kamber
2)
Data
Mining
Ian H. Witten and Eibe Frank
Sites
1. www.dmreview.com (softwares, aplicações comerciais, problemas reais)
2. www.kdnuggets.com
(conferencias, softwares, repositories de dados)
Avaliação
Graduação
Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (60% da avaliação)
Pós-Graduação
Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (50% da avaliação)
Seminários (10% da avaliação)
Ferramentas
Weka :
http://www.cs.waikato.ac.nz/~ml/weka/index.html
Tanagra: http://eric.univ-lyon2.fr/~ricco/tanagra/
R: http://www.r-project.org/
Estrutura do Curso
A: Introdução.
B: Sistemas de Apoio à
Decisão, Data Waherouse e OLAP.
C: Pré-processamento de
dados: limpeza, integração, transformação, redução.
D: Mineração de Dados
E: Validação
Calendário:
Caderneta Escolar
A: INTRODUÇÃO
Aula 1: Apresentação da
disciplina (20/10/04)
- Chico e Paulo
- Plano:
- Objetivo da
disciplina
- Metodologia didática
e de avaliação
- Ementa
- Material
bibliográfica
- Transparências: IntroducaoKDD
- Chico 1
- Fichas de leitura a entregar:
- Seções 1.1-1-2,
1.5-1.7 do Han & Kamber
- Seções 1.1-1.3, 1.4-1.5 do Witten & Frank
- Tranparencias: KDDprocess.ppt
B: SISTEMAS DE APOIO À
DECISÃO, DATA WAREHOUSE E OLAP
Aula 3: Metodologia para
desenvolvimento de soluções de mineração de dados – Crisp-DM (27/10/04)
- Paulo 1
- Fichas de leitura a entregar:
- Seções 1.1-1-2,
1.5-1.7 do Han & Kamber
- Seções 1.1-1.3, 1.4-1.5 do Witten & Frank
- Tranparencias: AulaCRISP-DM-OK.ppt
Aula 4: OLAP: consultas
analíticas em um data warehouse (29/10/04)
- Paulo 2
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6
e do Han & Kimber
- Seções 27 e 28 do
Patterson et al.
- Tranparencias: DW(Roberto)-Ok.pdf
Aula 5: OLAP: Aula Pratica
(03/11/04)
- Paulo 3
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6
e do Han & Kimber
- Seções 27 e 28 do
Patterson et al.
- Tranparencias: OLAP.ppt
Aula 6: Modelagem e Aplicações
práticas da descoberta de conhecimento em banco de dados (05/11/04)
- Paulo 4
- Fichas de leitura a entregar:
- Capítulo 10 do Han
& Kamber
- Seção
1.3 do Witten & Frank
- AplicacoesKDD
C: PRÉ-PROCESSAMENTO DE DADOS:
LIMPESA, INTEGRAÇÃO, TRANSFORMAÇÃO, REDUÇÃO
Aula 7: Tipologia dos dados de
entrada e Tipologia do Conhecimento de Saída (10/11/04)
- Chico 2
- Fichas de leitura a entregar:
- Seção 1.3-1.4 do Han
& Kamber
- Seções 2.1-2.3 e
Capítulo 3 do Witten & Frank
- Tranparencias: MiningInputMiningOutput.ppt
Aula 8: Problematica geral da
preparação de dados I (12/11/04)
- Fichas de leitura a entregar:
- Seções 3.1-3.2,
3.4.2-3.4.4 do Han & Kimber
- Seções 7.1-7.3 do Witten & Frank
- Plano:
- Motivação do
pré-processamento
- Seleção de atributos
e redução da dimensionalidade
- Compressão de dados
- Redução da
numerosidade
- Discretização dos
atributos intervalares, fracionais e contínuos
- Limpagem de dados
- Tranparencias: DataPreparation.ppt
- Chico 4
- Fichas de leitura a entregar:
- Seções 3.1-3.2,
3.4.2-3.4.4 do Han & Kimber
- Seções 7.1-7.3 do Witten & Frank
- Plano:
- Motivação do
pré-processamento
- Seleção de atributos
e redução da dimensionalidade
- Compressão de dados
- Redução da
numerosidade
- Discretização dos
atributos intervalares, fracionais e contínuos
- Limpagem de dados
- Tranparencias: DataPreparation.ppt
Aula
10: Caracterização e comparação analítica de dados (19/11/04)
- Paulo 5
- Fichas de leitura a entregar:
- Seções 5.1, 5.2.1,
5.2.2, 5.3, 5.4.1, 5.5.1, 5.5.2, 5.6 do Han & Kimber
- Tranparencias: CharacterizationComparison.ppt
Aula 11: Classificação (24/11/04)
- Paulo 6
- Fichas de leitura a entregar:
- Plano:
- Problemática geral
da classificação
- Classificação por
indução de árvores de decisão
- Classificação
por indução de regras attributivas
- Classificação
por programação em lógica indutiva
- Classificação
bayesiana ingênua
- Classificação
por redes bayesianas
- Classificação por
regressão global
- Classificação por
perceptrão multi-camada
- Classificação por
funções de bases radiais
- Classificação
por support vector machines
- Classificação por
k-vizinhos mais próximos
- Classificação
por regressão localmente ponderada
- Classificação
por raciocínio baseado em casos
- Classificação
por rough sets
- Classificação
por algoritmos genéticos
- Tranparencias: Classificação.ppt
- Chico e Paulo
- Projetos:
- orientados por
Chico:
- Minerar dados do
Covest usando árvores de decisão regras
- Minerar dados do
Prodoc usando árvores de decisão regras
- Agrupamento
de páginas similares da Web tanto em termo de contéudo quanto em termos de links
- Minerar
arquivo de log do servidor Web do CIn-UFPE ou do CTI-UFPE (Alzennyr)
- Montar data
warehouse de saúde pública, a partir dos BD e das páginas disponíveis no
site DataSus do ministério da saúde,
e minerá-lo com Weka
- orientados por
Paulo:
- Minerar dados de
crédito:
- Minerar dados do
Covest usando redes neurais e classificação bayesiana ingênua
- Minerar dados do
Prodoc usando redes neurais e classificação bayesiana ingênua
- Minerar dados de
fila única da Cagepa
- Montar data
warehouse de saúde pública, a partir dos BD e das páginas disponíveis no
site DataSus do ministério da saúde,
e minerá-lo com Weka
- Dados de
Natalidade
- Dados de
Internamento Hospitalar
- Minerar dados de
audiência de radio e tv
- Seminários
- orientados por
Chico:
- Mining the Word Wide Web (Alzennyr)
- Mining time-series and sequence data (Eleonora)
- Mining Text Data
Bases
- Weka (Paulemir)
- orientados por
Paulo:
- Softwares para
Mineração de Dados (André)
- Seleção de
Variáveis (Amanda)
- Mining spatial Data
Bases
- Mining Multimedia Data
Bases
- KDDproj.ppt
Aula
13: Clustering (03/12/04)
- Chico 6
- Fichas de leitura a entregar:
- Capítulo 8 do Han
& Kamber exceto 8.9
- Tranparencias: Clustering
Aula 14:
Seminário I: Weka: uma caixa de ferramenta Java para associação,
classificação, previsão e clustering (08/12/04)
- Chico 7
- Alunos: Diogo, Gustavo
Tranparencias: Weka.ppt
Aula
15: Seminário II: Tanagra: uma caixa de ferramenta para associação,
classificação, previsão e clustering (17/12/04)
- Paulo
8
- Alunos:
Kátia, Fábio
Tranparencias: Weka.ppt
E:
VALIDAÇÃO
Aula
16: Previsão (19/01/05)
- Paulo
7
- Fichas
de leitura a entregar:
- Capítulo 8 do Han & Kamber exceto
8.9
- Tranparencias:
Clustering
Aula
17: Indução de regras atributivas de associação e Regras de Classificação
(21/01/05)
- Chico
5
- Fichas
de leitura a entreguar:
- Capítulo 6 do Han & Kamber (falta ainda 6.3, 6.4, 6.5. 6.6)
- Tranparencias:
Associations.ppt
Aula
18: Validação estatística do conhecimento minerado (26/01/05)
- Chico 8
- Fichas de leitura a
entregar:
- Seção 7.9.1 e 7.9.3
do Han & Kimber
- Capítulo 5 e Seção
7.4 do Witten & Frank
- Tranparencias: AvaliacaoClassificadores
Aula 19: Sistema Real de Apoio a Decisão
(28/01/05)
Aula 20: Mineração de exceções e
Medidas de Interesse (02/02/05)
- Chico 9
- Fichas de leitura a entregar:
- Tranparencias: Outliers.ppt
Aula
21: Orientação de Projeto I (11/02/05)
Aula 22: Seminário III (16/02/05)
- Chico
- Mining the Word Wide Web
- Mining time-series and sequence data
Aula 23:
Orientação de Projeto II (18/02/05)
Aula 24: Seminário IV (23/02/05)
- Paulo
- Seleção de Variáveis
- Softwares para
Mineração de Dados
Aula 25: Revisão (25/02/05)
Aula 26: Prova (02/03/05)
Aula 27:
Apresentação de Projeto I (04/03/05)
Aula 28: Apresentação de Projeto
II (09/03/05)
Aula 29: Apresentação de Projeto
III (11/03/05)
Aula 30: Apresentação de Projeto
IV (16/03/05)
·
Plano das
apresentações de projetos de desenvolvimento de ferramentas
- Introdução: o
problema
o Funcionalidade da ferramenta
o Utilidade prática e
motivação pelo desenvolvimento de tal ferramenta
- Projeto e arquitetura
de software:
o Identificação dos
componentes do software e motivação por tal decomposição
o Dados de entrada e saída
de cada componente com motivação
o Fluxo de controle e
interação dinámica entre os componentes e sua motivação
o Dificuldades encontradas
durante o projeto e soluções adotadas para superar ou contorna-lás com
motivação
- Implementação
o Identificação dos
componentes prontos usados com motivação da sua escolha
o Estruturas de dados usadas
por cada o novo componente implementado com motivação
o Algoritmo usado por cada o
novo componente implementado com motivação
o Linguagens de programação,
ferramentas de implementação e plataforma de execução sub-jacente usado para a
implementação e implantação de cada componente, com motivção de escolha
o Dificuldades encontradas
durante a implementação e soluções adotadas para superar ou contorna-lás com
motivação
- Teste e validação
o Estudo de caso usado para
validar a ferramentas
o Conjunto de entradas e
saída de teste usado
o Dificuldades encontradas durante
a validação e soluções adotadas para superar ou contorna-lás com motivação
- Limitações da versão
atual e desenvolvimentos futuros
o Identificações da
limitações da versão atual da ferramentas
o Sugestões de modificações
e extensões para futuras versões superando essas limitações
- Como usar a
ferramenta
o Onde está disponível?
o
Como instalá-la?
o Onde encontrar o manual do
usuário (ou pelo menos o arquivo README)?
o Onde encontrar arquivos de
entrada e saída demo que demonstram o funcionamento da ferramenta?
- Plano das apresentações de projetos de descoberta de
conhecimento com ferramentas existentes
- Introdução:
caracterização da tarefa de descoberta de conhecimento
o Tipos de dados disponíveis
em entrada
o Tipos de conhecimento
esperado em sáida
o Utilidade prática de tal
conhecimento: decicões que podem ser tomadas ou alteradas a partir do
conhecimento a minerar
- Preparação dos dados
o Descrição funcional,
qualitativa, quantitativa e estatística das fontes de dados brutos
o Seleção dos dados:
descrição e motivação das tabelas, campos e registros selecionados para a
mineração
o Limpeza de dados:
descrição do estado de limpeza do dados brutos selecionados e do processamento
de limpeza efetuado com motivação
o
Transformação
de dados: descrição e motivação dos processos de transformação dos dados
efetuados, como:
§
agregação
ou agrupamento de registros
§
discretização
ou categorização de campos
§
derivação
de novos campos ou novas tabelas por meio de dedução ou junção
§
construção
de hierarquias conceituais de valores de campos
§
reformatação
de um modelo de dado para outro
o Dificuldades encontradas
durante a preparação dos dados e soluções adotadas para superar ou contorna-lás
com motivação
- Mineração dos dados
o Identificação e motivação
das técnicas de mineração usadas
o Identificação e motivação
das ferramentas de mineração usadas
o Parametrização das tarefas
de mineração executadas com motivação dos valores dos parametros
o Dificuldades encontradas
durante a mineração dos dados e soluções adotadas para superar ou contorna-lás
com motivação
- Validação do
conhecimento minerado
o Identificação e motivação
das técnicas de avaliação estatística da confiabilidade e generalidade do
conhecimento minerado
o Interpretação do
conhecimento minerado
o Insights decisionais decorrentes
do conhecimento minerado
o Dificuldades encontradas
durante a validação e interpretação dos dados e soluções adotadas para superar
ou contorna-lás com motivação
- Iterações no
processo de descoberta de conhecimento
o Descrição e motivação das
iterações efetuadas no processo de descoberta de conhecimento
- Conhecimento
descoberto após da conclusão do processo
o Descrição funcional,
qualitativa, quantitativa e estatística do conhecimento minerado
Aula 31: Prova
final (07/03/03)