Mineração de Dados - 01.2
Descrição geral desta (classe de) disciplina,
incluindo ementa, avaliação e material bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html
Informações
Gerais
Professores: Jacques Robin e
Paolo Adeodato
(Esta) Homepage: www.di.ufpe.br/~compint/aulas-IAS/kdd-012/Welcome.html
Newsgroup: depto.cursos.grad.if131, depto.cursos.posgrad.taci3
Horários:
·
Aulas: 2a 10:00-12:00 &
5a 08:00-10:00
·
Aulas de reposição: 2a
12:00-14:00
·
Orientação seminários Jacques: 2a
14:00-15h30
·
Orientação projetos Jacques: 2a
15h30-17h
·
Orientação seminários Paulo: ??
·
Orientação projetos Paulo: ??
Local: sala 3
Turma:
- Graduação:
- Pós-graduação:
- Disciplina isolada:
Calendário:
Caderneta Escolar
Aula
1: Apresentação da disciplina (17/12)
- Jacques e Paulo
- Plano:
- Objetivo da disciplina
- Metodologia didática e de avaliação
- Ementa
- Material bibliográfica
- Jacques 1
- Fichas de leitura a entregar:
- Seções 1.1-1-2, 1.5-1.7 do Han & Kamber
- Seções 1.1-1.3, 1.4-1.5 do Witten & Frank
- Tranparencias: KDDprocess.ppt
Aula
3: Tipologia dos dados de entrada (10/01)
- Jacques 2
- Fichas de leitura a entregar:
- Seção 1.3-1.4 do Han & Kamber
- Seções 2.1-2.3 e Capítulo 3 do Witten & Frank
- Tranparencias: MiningInput.ppt
Aula
4: Tipologia do conhecimento de saída (14/01)
- Jacques 3
- Fichas de leitura a entregar:
- Seção 1.4 do Han & Kamber
- Capítulo 3 do Witten & Frank
- Tranparencias: MiningOutput.ppt
Aula
5: Arquiteturas de software e linguagens de consultas para descoberta de conhecimento (17/01)
- Jacques 4
- Fichas de leitura a entregar:
- Tranparencias: KDDarchQL.ppt
Aula
6: Aplicações práticas da descoberta de conhecimento em banco de dados (21/01)
- Jacques 5
- Fichas de leitura a entregar:
- Capítulo 10 do Han & Kamber
- Seção 1.3 do Witten & Frank
- KDDapps.ppt
- Jacques e Paulo
- Tópicos:
- orientados por Jacques:
- Minerar data warehouse de estatísticas de futebol de robôs
(RoboCup):
- Estender data warehouse da RoboCup com dados
derivados para cobrir todos o arquivos de log disponíveis na web
- Erivan, Adjamir e Thiago Moura
- Extrair insights tácticos sobre jogos de futebol de robôs via
consultas OLAP sobre esse data warehouse
- Minerar regras atributivas de classificação e de associação no
data warehouse de estatística de futebol de robôs com Weka
- Minerar regras relacionais no data warehouse
de estatística de futebol de robôs com Progol
- Minerar data warehouse de estatística da NBA
disponíveis em páginas Web com Weka:
- Construir data warehouse de dados da seleção da
pós-graduação do CIn com SQL-Server e DTS e minera-lo com Weka
- Avaliar e comparar as ferramentas disponíveis
de construção e mineração de data warehouse da Microsoft (SQL Server), IBM (DB/2 e Intelligent Miner) e Oracle (9i e Darwin)
- orientados por Paulo:
- Estender data warehouse a partir do BD ProDoc sobre produtividade
dos docentes da UFPE, e minerá-lo com Weka
- Estender data warehouse a partir do BD ProDoc sobre produtividade
dos docentes da UFPE, e minerá-lo com NeuroMiner
- Minerar data warehouse da Covest sobre resultados do vestibular
com Weka
- Minerar data warehouse da Covest sobre resultados do vestibular
com NeuroMiner
- Classificação de páginas web em termos de
frequencia de atualização: Luciano
- Minerar BD de dados sobre fila única do Detran:
Aida e Tiago Ferreira
- Visualização de clustering N dimensional:
Laplace ?
- KDDproj.ppt
- Paulo 1
- Fichas de leitura a entregar:
- Seções 3.1-3.2, 3.4.2-3.4.4 do Han & Kimber
- Seções 7.1-7.3 do Witten & Frank
- Plano:
- Motivação do préprocessamento
- Seleção de atributos e redução da dimensionalidade
- Compressão de dados
- Redução da numerosidade
- Discretização dos atributos intervalares, fracionais e contínuos
- Limpagem de dados
- Tranparencias: DataPreparation.ppt
Aula
9: OLAP: consultas analíticas em um data warehouse (31/01)
- Jacques 6
- Fichas de leitura a entregar:
- Seções 2.1-2.3, 2.6 e do Han & Kimber
- Seções 27 e 28 do Patterson et al.
- Tranparencias: OLAP.ppt
Aula
10: Preparação de dados por construção de um data warehouse (04/01)
Aula
11: Construção de data warehouse com Microsoft DTS (Data Transformation
Service) (11/03)
- Fábio
- Fichas de leitura a entregar:
- Seções 6, 7, 10, 15 e 16 do Patterson et al.
- Tranparencias: DTS.ppt
Aula
12: Consultas OLAP em data warehouse com Microsoft OLAP Server (11/03)
- Fábio
- Fichas de leitura a entregar:
- Seções 6, 7, 10, 15 e 16 do Patterson et al.
- Tranparencias: MsOLAP.ppt
Aula 13: Orientação de projetos I (18/02)
- Paulo 2
- Fichas de leitura a entregar:
- Seções 5.1, 5.2.1, 5.2.2, 5.3, 5.4.1, 5.5.1, 5.5.2, 5.6 do Han & Kimber
- Tranparencias: CharacterizationComparison.ppt
Aula
15: Indução de regras atributivas de associação (25/02 e
25/03)
- Paulo 3
- Fichas de leitura a entreguar:
- Capítulo 6 do Han & Kamber (falta ainda 6.3, 6.4, 6.5. 6.6)
- Tranparencias: Associations.ppt
Aula
16: Visão geral das técnicas de classificação (28/02 e
??)
- Paulo
- Fichas de leitura a entregar:
- Plano:
- Problemática geral da classificação
- Classificação por indução de árvores de decisão
- Classificação por indução de regras attributivas
- Classificação por programação em lógica indutiva
- Classificação bayesiana ingênua
- Classificação por redes bayesianas
- Classificação por regressão global
- Classificação por perceptrão multi-camada
- Classificação por funções de bases radiais
- Classificação por support vector machines
- Classificação por k-vizinhos mais próximos
- Classificação por regressão localmente ponderada
- Classificação por raciocínio baseado em casos
- Classificação por rough sets
- Classificação por algoritmos genéticos
- Tranparencias: Classificação.ppt
Aula
17: Regressão e previsão numérica (14/03)
- Seminário: Aida orientada por Paulo
- Fichas de leitura a entregar:
- Plano:
- Tranparencias: Regression.ppt
Aula
18: Mineração de series temporais (18/03)
- Seminário: Tiago Ferreira orientado por Paulo
- Fichas de leitura a entregar:
- Seções 7.8 e 9.4 do Han & Kimbler
- Seções 4.6, 6.3, 6.5 do Witten & Frank
- Tranparencias: TimeSeries.ppt
Aula
19: NeuroMiner: um sistema de mineração de dados híbrido conexionista e
simbólico (21/03 e 25/03)
- Paulo 8
- Ficha de leitura a entregar:
- Plano:
- Transparências: NeuroMiner.ppt
Aula 20: Weka: uma caixa de ferramenta Java
para associação, classificação, previsão e clustering (01/04)
- João
- Ficha de leitura a entregar: Capítulo 8 do Witten & Frank
Tranparencias: Weka.ppt
Aula
21: Mineração de exceções (01/04)
- Seminário: Erivan orientado por Jacques
- Fichas de leitura a entregar:
- Tranparencias: Outliers.ppt
- Paulo 8
- Fichas de leitura a entregar:
- Seção 7.9.1 e 7.9.3 do Han & Kimber
- Capítulo 5 e Seção 7.4 do Witten & Frank
- Tranparencias: StatisticalValidation.ppt
Aula
23: Medidas de interesse do conhecimento minerado (08/04)
- Seminário: Thiago Moura orientado por Paulo
·
Tranparencias: Interestingness.ppt
Aula
24: Comparação e combinação de métodos de mineração (08/04)
- Seminário: Mariano orientado por Paulo
- Fichas de leitura a entregar:
- Seções 7.9.2 do Han & Kimber
- Seções 7.4 do Witten & Frank
- Tranparencias: ComparisonCombination.ppt
Aula 25: Apresentação de projetos I: preparação de
dados (11/04)
Aula
26: Interfaces para interpretação e divulgação do conhecimento descoberto (15/04)
- Seminário: Adjamir orientado por Jacques
- Fichas de leitura a entregar:
- Tranparencias: UserInterfaces.ppt
Aula
27: Minerar bancos de dados não-convencionais (15/04)
- Seminário: Claudia orientado por Jacques
- Ficha de leitura a entregar: Seções 9.1-9.3 do Han & Kimber
- Tranparencias: MiningNonConventionalData.ppt
Aula
28: Minerar a web (18/04)
- Seminário: Luciano orientado por Jacques
- Fichas de leitura a entregar:
- Tranparencias: WebMining.ppt
Aula
29: Apresentação de projeto parte II: resultados da 1a iteração no processo de
KDD (22/04)
Aula
30: Prova (25/04)
Aulas
31 e 32: Apresentação de projetos parte III
(06/05)
- Plano das
apresentações de projetos de desenvolvimento de ferramentas
- Introdução: o problema
o Funcionalidade da ferramenta
o Utilidade prática e motivação pelo desenvolvimento de tal ferramenta
- Projeto e arquitetura de software:
o Identificação dos componentes do software e motivação por tal
decomposição
o Dados de entrada e saída de cada componente com motivação
o Fluxo de controle e interação dinámica entre os componentes e sua
motivação
o Dificuldades encontradas durante o projeto e soluções adotadas para
superar ou contorna-lás com motivação
- Implementação
o Identificação dos componentes prontos usados com motivação da sua
escolha
o Estruturas de dados usadas por cada o novo componente implementado com
motivação
o Algoritmo usado por cada o novo componente implementado com motivação
o Linguagens de programação, ferramentas de implementação e plataforma de execução
sub-jacente usado para a implementação e implantação de cada componente, com
motivção de escolha
o Dificuldades encontradas durante a implementação e soluções adotadas
para superar ou contorna-lás com motivação
- Teste e validação
o Estudo de caso usado para validar a ferramentas
o Conjunto de entradas e saída de teste usado
o Dificuldades encontradas durante a validação e soluções adotadas para
superar ou contorna-lás com motivação
- Limitações da versão atual e desenvolvimentos futuros
o Identificações da limitações da versão atual da ferramentas
o Sugestões de modificações e extensões para futuras versões superando
essas limitações
- Como usar a ferramenta
o Onde está disponível?
o Como instalá-la?
o Onde encontrar o manual do usuário (ou pelo menos o arquivo README)?
o Onde encontrar arquivos de entrada e saída demo que demonstram o
funcionamento da ferramenta?
- Plano das
apresentações de projetos de descoberta de conhecimento com ferramentas
existentes
- Introdução: caracterização da tarefa de descoberta de conhecimento
o Tipos de dados disponíveis em entrada
o Tipos de conhecimento esperado em sáida
o Utilidade prática de tal conhecimento: decicões que podem ser tomadas ou
alteradas a partir do conhecimento a minerar
- Preparação dos dados
o Descrição funcional, qualitativa, quantitativa e estatística das fontes
de dados brutos
o Seleção dos dados: descrição e motivação das tabelas, campos e registros
selecionados para a mineração
o Limpeza de dados: descrição do estado de limpeza do dados brutos selecionados
e do processamento de limpeza efetuado com motivação
o
Transformação de dados: descrição e
motivação dos processos de transformação dos dados efetuados, como:
§
agregação ou agrupamento de registros
§
discretização ou categorização de
campos
§
derivação de novos campos ou novas
tabelas por meio de dedução ou junção
§
construção de hierarquias conceituais
de valores de campos
§
reformatação de um modelo de dado para
outro
o Dificuldades encontradas durante a preparação dos dados e soluções
adotadas para superar ou contorna-lás com motivação
- Mineração dos dados
o Identificação e motivação das técnicas de mineração usadas
o Identificação e motivação das ferramentas de mineração usadas
o Parametrização das tarefas de mineração executadas com motivação dos
valores dos parametros
o Dificuldades encontradas durante a mineração dos dados e soluções
adotadas para superar ou contorna-lás com motivação
- Validação do conhecimento minerado
o Identificação e motivação das técnicas de avaliação estatística da
confiabilidade e generalidade do conhecimento minerado
o Interpretação do conhecimento minerado
o Insights decisionais decorrentes do conhecimento minerado
o Dificuldades encontradas durante a validação e interpretação dos dados e
soluções adotadas para superar ou contorna-lás com motivação
- Iterações no processo de descoberta de conhecimento
o Descrição e motivação das iterações efetuadas no processo de descoberta
de conhecimento
- Conhecimento descoberto após da conclusão do processo
o Descrição funcional, qualitativa, quantitativa e estatística do
conhecimento minerado
Aula 34: Prova final (09/05)