Mineração de
Dados - 01.1
Descrição geral desta
(classe de) disciplina, incluindo ementa, avaliação e material
bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html
Informações Gerais
Professores: Jacques Robin e Franciso Carvalho
(Esta) Homepage: www.di.ufpe.br/~compint/aulas-IAS/kdd-011/Welcome.html
Newsgroup: depto.cursos.grad.if131, depto.cursos.posgrad.taci3
Horários:
- aulas: 3a 12:00-14:00
& 5a 14:00-16:00
- orientação de
seminários e projetos:
- 2a feira
12:00-14:00 com Chico
- 5a feira
12:00-14:00 com Jacques
Local: sala 3
Turma:
Calendário:
Caderneta
Escolar
- Jacques 1
- Fichas de leitura a
entregar:
- Seções
1.1-1-2, 1.5-1.7 do Han & Kamber
- Seções
1.1-1.3, 1.4-1.5 do Witten & Frank
- Tranparencias: KDDprocess.ppt
Aula 2: Tipologia dos dados de entrada (20/03)
- Jacques 2
- Fichas de leitura a
entregar:
- Seção
1.3-1.4 do Han & Kamber
- Seções
2.1-2.3 e Capítulo 3 do Witten & Frank
- Tranparencias: MiningInput.ppt
Aula 3: Tipologia do conhecimento de saída (22/03)
- Jacques 3
- Fichas de leitura a
entregar:
- Seção 1.4
do Han & Kamber
- Capítulo 3
do Witten & Frank
- Tranparencias: MiningOutput.ppt
Aula 4: Arquiteturas de software e linguagens de
consultas para descoberta de conhecimento (27/03)
- Jacques 4
- Fichas de leitura a
entregar:
- Tranparencias: KDDarchQL.ppt
- Jacques 5 e Chico
1
- Fichas de leitura a
entregar:
- Capítulo 10
do Han & Kamber
- Seção 1.3
do Witten & Frank
- Tópicos:
- co-orientados
por Chico e Jacques:
- Implementar
algoritmo de mineração de exceções em
cuboides OLAP
Fábio Moura
- Minerar
sequências de ações de usuário de um
software educacional em matématica com
Weka e Progol
Ana e Cícero
- orientados
por Jacques:
- Implementar
processador de consultas DMQL usando o
Weka
- Extender
uma API para consulta de data warehouses
multidimensionais a partir de bancos de
dados dedutivos orientado a objetos
- Enriquecer
data warehouse de estatística de futebol
de robôs com dados derivados e descobrir
insights tácticos por meio de consultas
OLAP do warehouse enriquecido
- Minerar
data warehouse de estatística de futebol
de robôs com Weka
- Minerar
data warehouse de estatística de futebol
de robôs com Progol
André e Rafael
- Montar
e minerar data warehouse de estatística
da NBA disponíveis em páginas Web
Fábio Avila e Mariano
- orientados
por Chico:
- Estender
engenho de busca na Web com agrupamento
de páginas similares tanto em termo de
contéudo quanto em termos de links
Leonardo e Rodrigo
- Estender
data warehouse a partir do BD ProDoc
sobre produtividade dos docentes da UFPE,
e minerá-lo com Weka
- Montar
data warehouse sobre candidatos e
resultados do vestibular da CoVest, e
minerá-lo com Weka
Georges e Andrey
- Montar
data warehouse de saúde pública, a
partir dos BD e das páginas disponíveis
no site DataSus do ministério da saúde,
e minerá-lo com Weka
- Montar data warehouse
a partir de arquivos de log do servidor Web do CIn, e
minerá-lo usando MS OLAP Server e Weka
- Montar data warehouse
a partir de arquivos de log do servidor Web do radix.com,
e minerá-lo usando MS OLAP Server e Weka
- Chico 2
- Fichas de leitura a
entregar:
- Seções
3.1-3.2, 3.4.2-3.4.4 do Han & Kimber
- Seções
7.1-7.3 do Witten & Frank
- Plano:
- Motivação
do préprocessamento
- Seleção de
atributos e redução da dimensionalidade
- Compressão
de dados
- Redução da
numerosidade
- Discretização
dos atributos intervalares, fracionais e
contínuos
- Limpagem de
dados
- Tranparencias: DataPreparation.ppt
Aula 7: OLAP: consultas analíticas em um data
warehouse (05/04)
- Jacques 6
- Fichas de leitura a
entregar:
- Seções
2.1-2.3, 2.6 e do Han & Kimber
- Seções 27 e
28 do Patterson et al.
- Tranparencias: OLAP.ppt
Aula 8: Preparação de dados por construção de um
data warehouse (19/04)
Aula 9: Ferramentas de construção e consultas de
data warehouse (26/04)
- Alexandre e
Marcelino
- Fichas de leitura a
entregar:
- Tranparencias: DWOLAPtools.ppt
- Chico 3
- Fichas de leitura a
entregar:
- Seções 5.1,
5.2.1, 5.2.2, 5.3, 5.4.1, 5.5.1, 5.5.2, 5.6 do
Han & Kimber
- Tranparencias: CharacterizationComparison.ppt
Aula 11: Indução de regras de associação (03/05)
- Seminário 4:
Leonardo e Rodrigo, orientados por Chico
- Fichas de leitura a
entreguar:
- Capítulo 6
do Han & Kamber
- Tranparencias: Associations.ppt
Aula 12: Indução de árvores e regras
proposicionais de decisão (17/04)
- Chico 4
- Fichas de leitura a
entregar:
- Seção 7.3
do Han & Kimber
- Seções 4.1,
4.3, 4.4, 6.1 e 6.2 do Witten & Frank
- Tranparencias: ID3attributiveRules.ppt
Aula 13:
Orientação de projetos 1 (15/05)
Aula 14: Indução de regras da 1a ordem (10/05)
- Jacques 8
- Fichas de leitura a
entregar:
- Capítulo 5
do Fayyad et al.
- Seção
10.4-10.8 do Mitchell
- Tranparencias: ILP.ppt
Aula 15: Progol:
uma ferramenta de mineração de regras da 1a
ordem (31/05)
- Jacques 9
- Fichas de leitura a
entregar:
- Tranparencias: Progol.ppt
Aula 16: Classificação Bayesiana e indução de
redes Bayesianas (19/05)
- Chico 5
- Fichas de leitura a
entregar:
- Seção 7.4
do Han & Kimbler
- Seção 4.2
do Witten & Frank
- Seções
15.1-154, 19.6 do Russell & Norvig
- Tranparencias: Bayes.ppt
Aula 17: Regressão, previsão numérica e
mineração de series temporais (22/05)
- Chico 6
- Fichas de leitura a
entregar:
- Seções 7.8
e 9.4 do Han & Kimbler
- Seções 4.6,
6.3, 6.5 do Witten & Frank
- Tranparencias: RegressionTimeSeries.ppt
Aula 18: Classificação e previsão por similaridade
entre instâncias (24/05)
Aula 19: Clustering (29/05)
- Chico 8
- Fichas de leitura a
entregar:
- Seções
8.1-8.8 do Han & Kimber
- Seção 6.6
do Witten & Frank
- Tranparencias: Clustering.ppt
Aula 20: Mineração de exceções, comparação e
combinação de métodos de mineração (31/05)
- Seminário 6:
Fábio Moura, orientado por Chico
- Tranparencias: Evaluation.ppt
Aula 22: Weka:
uma caixa de ferramenta Java para associação, classificação,
previsão e clustering (07/06)
- João e Marcelino
- Ficha de leitura a
entregar: Capítulo 8 do Witten & Frank
- Tranparencias: Weka.ppt
Aula 23: Orientação de projetos
1 (12/06)
Aula 24: Orientação de projetos
2 (14/06)
Aula 25: Interfaces para interpretação e
divulgação do conhecimento descoberto (19/06)
- Seminário 8: Ana
e Cícero, orientados por Jacques
- Fichas de leitura a
entregar:
- Tranparencias: UserInterfaces.ppt
- Seminário 9:
André e Rafael, orientados por Jacques
- Ficha de leitura a
entregar: Seções 9.1-9.3 do Han & Kimber
- Tranparencias: MiningNonConventionalData.ppt
Aula 27: Orientação de projetos
4 (21/06)
Aula 28: Minerar a web (26/06)
- Seminário 10:
Mariano e Fábio Avila, orientados por Jacques
- Fichas de leitura a
entregar:
- Tranparencias: WebMining.ppt
Aula 29: Prova (03/06)
Aulas 30 e 31: Apresentação de
projetos (05/06)
- Plano das
apresentações de projetos de desenvolvimento de
ferramentas
- Introdução:
o problema
- Funcionalidade da
ferramenta
- Utilidade
prática e motivação pelo
desenvolvimento de tal ferramenta
- Projeto e
arquitetura de software:
- Identificação
dos componentes do software e motivação
por tal decomposição
- Dados
de entrada e saída de cada componente
com motivação
- Fluxo
de controle e interação dinámica entre
os componentes e sua motivação
- Dificuldades
encontradas durante o projeto e
soluções adotadas para superar ou
contorna-lás com motivação
- Implementação
- Identificação
dos componentes prontos usados com
motivação da sua escolha
- Estruturas
de dados usadas por cada o novo
componente implementado com motivação
- Algoritmo
usado por cada o novo componente
implementado com motivação
- Linguagens
de programação, ferramentas de
implementação e plataforma de
execução sub-jacente usado para a
implementação e implantação de cada
componente, com motivção de escolha
- Dificuldades
encontradas durante a implementação e
soluções adotadas para superar ou
contorna-lás com motivação
- Teste e
validação
- Estudo
de caso usado para validar a ferramentas
- Conjunto
de entradas e saída de teste usado
- Dificuldades
encontradas durante a validação e
soluções adotadas para superar ou
contorna-lás com motivação
- Limitações
da versão atual e desenvolvimentos futuros
- Identificações
da limitações da versão atual da
ferramentas
- Sugestões
de modificações e extensões para
futuras versões superando essas
limitações
- Como usar a
ferramenta
- Onde
está disponível?
- Como
instalá-la?
- Onde
encontrar o manual do usuário (ou pelo
menos o arquivo README)?
- Onde
encontrar arquivos de entrada e saída
demo que demonstram o funcionamento da
ferramenta?
- Plano das
apresentações de projetos de descoberta de conhecimento
com ferramentas existentes
- Introdução:
caracterização da tarefa de descoberta de
conhecimento
- Tipos
de dados disponíveis em entrada
- Tipos
de conhecimento esperado em sáida
- Utilidade
prática de tal conhecimento: decicões
que podem ser tomadas ou alteradas a
partir do conhecimento a minerar
- Preparação
dos dados
- Descrição
funcional, qualitativa, quantitativa e
estatística das fontes de dados brutos
- Seleção
dos dados: descrição e motivação das
tabelas, campos e registros selecionados
para a mineração
- Limpeza
de dados: descrição do estado de
limpeza do dados brutos selecionados e do
processamento de limpeza efetuado com
motivação
- Transformação
de dados: descrição e motivação dos
processos de transformação dos dados
efetuados, como:
- agregação
ou agrupamento de registros
- discretização
ou categorização de campos
- derivação
de novos campos ou novas tabelas
por meio de dedução ou junção
- construção
de hierarquias conceituais de
valores de campos
- reformatação
de um modelo de dado para outro
- Dificuldades
encontradas durante a preparação dos
dados e soluções adotadas para superar
ou contorna-lás com motivação
- Mineração
dos dados
- Identificação
e motivação das técnicas de
mineração usadas
- Identificação
e motivação das ferramentas de
mineração usadas
- Parametrização
das tarefas de mineração executadas com
motivação dos valores dos parametros
- Dificuldades
encontradas durante a mineração dos
dados e soluções adotadas para superar
ou contorna-lás com motivação
- Validação
do conhecimento minerado
- Identificação
e motivação das técnicas de
avaliação estatística da
confiabilidade e generalidade do
conhecimento minerado
- Interpretação
do conhecimento minerado
- Insights
decisionais decorrentes do conhecimento
minerado
- Dificuldades
encontradas durante a validação e
interpretação dos dados e soluções
adotadas para superar ou contorna-lás
com motivação
- Iterações
no processo de descoberta de conhecimento
- Descrição
e motivação das iterações efetuadas
no processo de descoberta de conhecimento
- Conhecimento
descoberto após da conclusão do processo
- Descrição
funcional, qualitativa, quantitativa e
estatística do conhecimento minerado
Aula 32: Prova
final (11/06)