Mineração
de Dados - 03.2
Descrição geral
desta (classe de) disciplina, incluindo ementa, avaliação e material
bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html
Informações Gerais
Professores:
Francisco Carvalho e Paolo Adeodato
Horários: 2a. 14 as 16 e 4a. 16 as 18
Local: Sala M1
Turma:
- Graduação:
- Pós-graduação:
- Alzennyr (acgs2)
- Amanda (apsl)
- Eleonora (emjo)
- Paulemir (pgc)
- Disciplina isolada:
Bibliografia
1)
Data
Mining Concepts and Techniques
Jiawei Han and Micheline Kamber
2)
Data
Mining
Ian H. Witten and Eibe Frank
Sites
1. www.dmreview.com
(softwares, aplicações comerciais, problemas reais)
2. www.kdnuggets.com
(conferencias, softwares, repositories de dados)
Avaliação
Graduação
Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (60% da avaliação)
Pós-Graduação
Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (50% da avaliação)
Seminários (10% da avaliação)
Ferramentas
Weka :
http://www.cs.waikato.ac.nz/~ml/weka/index.html
Neuroscorer
R: http://www.r-project.org/
Calendário:
Caderneta Escolar
Aula 1: Apresentação da
disciplina (17/11/03)
- Chico e Paulo
- Plano:
- Objetivo da
disciplina
- Metodologia didática
e de avaliação
- Ementa
- Material
bibliográfica
- Transparências: IntroducaoKDD
- Chico 1
- Fichas de leitura a entregar:
- Seções 1.1-1-2,
1.5-1.7 do Han & Kamber
- Seções 1.1-1.3, 1.4-1.5 do Witten & Frank
- Tranparencias: KDDprocess.ppt
Aula 3: Tipologia dos dados de
entrada (24/11/03)
- Chico 2
- Fichas de leitura a entregar:
- Seção 1.3-1.4 do Han
& Kamber
- Seções 2.1-2.3 e
Capítulo 3 do Witten & Frank
- Tranparencias: MiningInput.ppt
Aula 4: Tipologia do conhecimento
de saída (26/11/03)
- Chico 3
- Fichas de leitura a entregar:
- Seção 1.4 do Han
& Kamber
- Capítulo 3 do Witten
& Frank
- Tranparencias: MiningOutput.ppt
Aula 5: Aplicações práticas da
descoberta de conhecimento em banco de dados (01/12/03)
- Chico 4
- Fichas de leitura a entregar:
- Capítulo 10 do Han
& Kamber
- Seção
1.3 do Witten & Frank
- AplicacoesKDD
- Chico e Paulo
- Projetos:
- orientados por
Chico:
- Minerar dados do
Covest usando árvores de decisão regras
- Minerar dados do
Prodoc usando árvores de decisão regras
- Agrupamento
de páginas similares da Web tanto em termo de contéudo quanto em termos de links
- Minerar
arquivo de log do servidor Web do CIn-UFPE ou do CTI-UFPE (Alzennyr)
- Montar data
warehouse de saúde pública, a partir dos BD e das páginas disponíveis no
site DataSus do ministério da saúde,
e minerá-lo com Weka
- orientados por
Paulo:
- Minerar dados de
crédito:
- Minerar dados do
Covest usando redes neurais e classificação bayesiana ingênua
- Minerar dados do
Prodoc usando redes neurais e classificação bayesiana ingênua
- Minerar dados de
fila única da Cagepa
- Montar data
warehouse de saúde pública, a partir dos BD e das páginas disponíveis no
site DataSus do ministério da saúde,
e minerá-lo com Weka
- Dados de
Natalidade
- Dados de
Internamento Hospitalar
- Minerar dados de
audiência de radio e tv
- Seminários
- orientados por
Chico:
- Mining the Word Wide Web (Alzennyr)
- Mining time-series and sequence data (Eleonora)
- Mining Text Data
Bases
- Weka (Paulemir)
- orientados por
Paulo:
- Softwares para
Mineração de Dados (André)
- Seleção de
Variáveis (Amanda)
- Mining spatial Data
Bases
- Mining Multimedia
Data Bases
- KDDproj.ppt
- Paulo 1
- Fichas de leitura a entregar:
- Seções 3.1-3.2,
3.4.2-3.4.4 do Han & Kimber
- Seções 7.1-7.3 do Witten & Frank
- Plano:
- Motivação do
pré-processamento
- Seleção de atributos
e redução da dimensionalidade
- Compressão de dados
- Redução da
numerosidade
- Discretização dos
atributos intervalares, fracionais e contínuos
- Limpagem de dados
- Tranparencias: DataPreparation.ppt
Aula 8: OLAP: consultas
analíticas em um data warehouse (10/12/03)
- Paulo 2
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6
e do Han & Kimber
- Seções 27 e 28 do
Patterson et al.
- Tranparencias: OLAP.ppt
Aula 9: OLAP: Aula Pratica (15/12/03)
- Paulo 3
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6
e do Han & Kimber
- Seções 27 e 28 do
Patterson et al.
- Tranparencias: OLAP.ppt
Aula 10:
Orientação de projetos I (17/12/03)
- Paulo 4
- Fichas de leitura a entregar:
- Seções 5.1, 5.2.1,
5.2.2, 5.3, 5.4.1, 5.5.1, 5.5.2, 5.6 do Han & Kimber
- Tranparencias: CharacterizationComparison.ppt
Aula 12: Indução de regras
atributivas de associação (19/01/04)
- Chico 5
- Fichas de leitura a entreguar:
- Capítulo 6 do Han
& Kamber (falta ainda 6.3, 6.4, 6.5. 6.6)
- Tranparencias: Associations.ppt
Aula 13: Regras de Classificação
(21/01/04)
Aula 13: Visão geral das técnicas
de classificação (26/01/04)
- Paulo 5
- Fichas de leitura a entregar:
- Plano:
- Problemática geral
da classificação
- Classificação por
indução de árvores de decisão
- Classificação
por indução de regras attributivas
- Classificação
por programação em lógica indutiva
- Classificação
bayesiana ingênua
- Classificação
por redes bayesianas
- Classificação por
regressão global
- Classificação por
perceptrão multi-camada
- Classificação por
funções de bases radiais
- Classificação
por support vector machines
- Classificação por
k-vizinhos mais próximos
- Classificação
por regressão localmente ponderada
- Classificação
por raciocínio baseado em casos
- Classificação
por rough sets
- Classificação
por algoritmos genéticos
- Tranparencias: Classificação.ppt
Aula
14: Clustering (28/01/04)
- Chico 7
- Fichas de leitura a entregar:
- Capítulo 8 do Han
& Kamber exceto 8.9
- Tranparencias: Clustering
Aula 15: Modelagem (02/02/04)
- Paulo 6
- Fichas de leitura a entregar:
- Plano:
- Tranparencias:
Aula 16: NeuroMiner: um sistema
de mineração de dados híbrido conexionista e simbólico (04/02/04)
- Paulo 7
- Ficha de leitura a entregar:
- Plano:
- Transparências: NeuroMiner.ppt
Aula 17: Mineração de exceções
(09/02/04)
- Chico 8
- Fichas de leitura a entregar:
- Tranparencias: Outliers.ppt
Aula 18: Weka:
uma caixa de ferramenta Java para associação, classificação, previsão e
clustering (11/02/04)
- Chico 9 (Seminário
Paulemir)
- Ficha de leitura a entregar: Capítulo
8 do Witten & Frank
Tranparencias: Weka.ppt
- Chico 10
- Fichas de leitura a
entregar:
- Seção 7.9.1 e 7.9.3
do Han & Kimber
- Capítulo 5 e Seção 7.4
do Witten & Frank
- Tranparencias: AvaliacaoClassificadores
Aula 20: Medidas de interesse do
conhecimento minerado (18/02/04)
·
Tranparencias:
Interestingness.ppt
Aula 21: Comparação e combinação
de métodos de mineração (01/03/04)
- Paulo 9
- Fichas de leitura a entregar:
- Seções 7.9.2 do Han
& Kimber
- Seções 7.4 do Witten & Frank
- Tranparencias: ComparisonCombination.ppt
Aula
22: Seminário I (03/03/04)
- Chico
- Mining the Word Wide Web (Alzennyr)
- Mining time-series and sequence data (Eleonora)
Aula 23: Seminário II (08/03/04)
- Paulo
- Seleção de Variáveis
(Amanda)
- Softwares para
Mineração de Dados (André)
Aula 24: Revisão (10/03/04)
Aula 25: Prova (15/03/04)
Aula 26:
Apresentação de Projeto I (17/03/04)
Aula 27: Apresentação de Projeto
II (22/03/04)
- Minerar dados do
Prodoc usando árvores de decisão regras
- Minerar dados do
Prodoc usando redes neurais e classificação bayesiana ingênua
- Minerar dados do Covest
usando redes neurais e classificação bayesiana ingênua
- Minerar dados do
Covest usando árvores de decisão regras
Aula 28: Apresentação de Projeto
III (24/03/04)
·
Plano das
apresentações de projetos de desenvolvimento de ferramentas
- Introdução: o
problema
o Funcionalidade da ferramenta
o Utilidade prática e
motivação pelo desenvolvimento de tal ferramenta
- Projeto e
arquitetura de software:
o Identificação dos
componentes do software e motivação por tal decomposição
o Dados de entrada e saída
de cada componente com motivação
o Fluxo de controle e interação
dinámica entre os componentes e sua motivação
o Dificuldades encontradas
durante o projeto e soluções adotadas para superar ou contorna-lás com
motivação
- Implementação
o Identificação dos
componentes prontos usados com motivação da sua escolha
o Estruturas de dados usadas
por cada o novo componente implementado com motivação
o Algoritmo usado por cada o
novo componente implementado com motivação
o Linguagens de programação,
ferramentas de implementação e plataforma de execução sub-jacente usado para a implementação
e implantação de cada componente, com motivção de escolha
o Dificuldades encontradas
durante a implementação e soluções adotadas para superar ou contorna-lás com
motivação
- Teste e validação
o Estudo de caso usado para
validar a ferramentas
o Conjunto de entradas e
saída de teste usado
o Dificuldades encontradas
durante a validação e soluções adotadas para superar ou contorna-lás com
motivação
- Limitações da versão
atual e desenvolvimentos futuros
o Identificações da
limitações da versão atual da ferramentas
o Sugestões de modificações
e extensões para futuras versões superando essas limitações
- Como usar a
ferramenta
o Onde está disponível?
o
Como instalá-la?
o Onde encontrar o manual do
usuário (ou pelo menos o arquivo README)?
o Onde encontrar arquivos de
entrada e saída demo que demonstram o funcionamento da ferramenta?
- Plano das apresentações de projetos de descoberta de
conhecimento com ferramentas existentes
- Introdução:
caracterização da tarefa de descoberta de conhecimento
o Tipos de dados disponíveis
em entrada
o Tipos de conhecimento
esperado em sáida
o Utilidade prática de tal
conhecimento: decicões que podem ser tomadas ou alteradas a partir do
conhecimento a minerar
- Preparação dos dados
o Descrição funcional,
qualitativa, quantitativa e estatística das fontes de dados brutos
o Seleção dos dados:
descrição e motivação das tabelas, campos e registros selecionados para a
mineração
o Limpeza de dados:
descrição do estado de limpeza do dados brutos selecionados e do processamento de
limpeza efetuado com motivação
o
Transformação
de dados: descrição e motivação dos processos de transformação dos dados
efetuados, como:
§
agregação
ou agrupamento de registros
§
discretização
ou categorização de campos
§
derivação
de novos campos ou novas tabelas por meio de dedução ou junção
§
construção
de hierarquias conceituais de valores de campos
§
reformatação
de um modelo de dado para outro
o Dificuldades encontradas
durante a preparação dos dados e soluções adotadas para superar ou contorna-lás
com motivação
- Mineração dos dados
o Identificação e motivação
das técnicas de mineração usadas
o Identificação e motivação
das ferramentas de mineração usadas
o Parametrização das tarefas
de mineração executadas com motivação dos valores dos parametros
o Dificuldades encontradas
durante a mineração dos dados e soluções adotadas para superar ou contorna-lás
com motivação
- Validação do
conhecimento minerado
o Identificação e motivação
das técnicas de avaliação estatística da confiabilidade e generalidade do
conhecimento minerado
o Interpretação do
conhecimento minerado
o Insights decisionais
decorrentes do conhecimento minerado
o Dificuldades encontradas
durante a validação e interpretação dos dados e soluções adotadas para superar
ou contorna-lás com motivação
- Iterações no
processo de descoberta de conhecimento
o Descrição e motivação das
iterações efetuadas no processo de descoberta de conhecimento
- Conhecimento
descoberto após da conclusão do processo
o Descrição funcional, qualitativa,
quantitativa e estatística do conhecimento minerado
Aula 31: Prova
final (07/03/03)