Mineração de Dados - 04.2


 

Descrição geral desta (classe de) disciplina, incluindo ementa, avaliação e material bibliográfico encontram-se em: www.cin.ufpe.br/~compint/kdd.html

Informações Gerais

Professores: Francisco Carvalho e Paolo Adeodato

Horários:

·         4a.  10 as 12 e 6a.  8 as 10

o        Local:  Salas 4 e M2

Turma:

Bibliografia

1)      Data Mining Concepts and Techniques
Jiawei Han and Micheline Kamber

2)      Data Mining
Ian H. Witten and Eibe Frank

Sites

1.      www.dmreview.com (softwares, aplicações comerciais, problemas reais)

2.      www.kdnuggets.com (conferencias, softwares, repositories de dados)

 

Avaliação

Graduação

Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (60% da avaliação)

Pós-Graduação

Prova (30% da avaliação)
Resumos (10% da avaliação)
Projeto (50% da avaliação)
Seminários (10% da avaliação)

Ferramentas

Weka : http://www.cs.waikato.ac.nz/~ml/weka/index.html
Tanagra: http://eric.univ-lyon2.fr/~ricco/tanagra/
R: http://www.r-project.org/

Estrutura do Curso

A: Introdução.

B: Sistemas de Apoio à Decisão, Data Waherouse e OLAP.

C: Pré-processamento de dados: limpeza, integração, transformação, redução.

D: Mineração de Dados

E: Validação


Calendário:


Caderneta Escolar


A: INTRODUÇÃO


Aula 1: Apresentação da disciplina (20/10/04)


Aula 2: O processo de descoberta de conhecimento em banco de dados (22/10/04)


B: SISTEMAS DE APOIO À DECISÃO, DATA WAREHOUSE E OLAP


Aula 3: Metodologia para desenvolvimento de soluções de mineração de dados – Crisp-DM (27/10/04)


Aula 4: OLAP: consultas analíticas em um data warehouse (29/10/04)


Aula 5: OLAP: Aula Pratica (03/11/04)


Aula 6: Modelagem e Aplicações práticas da descoberta de conhecimento em banco de dados (05/11/04)


C: PRÉ-PROCESSAMENTO DE DADOS: LIMPESA, INTEGRAÇÃO, TRANSFORMAÇÃO, REDUÇÃO


Aula 7: Tipologia dos dados de entrada e Tipologia do Conhecimento de Saída (10/11/04)


Aula 8: Problematica geral da preparação de dados I (12/11/04)


Aula 9: Problematica geral da preparação de dados  II (17/11/04)


D: MINERAÇÃO DE DADOS


Aula 10: Caracterização e comparação analítica de dados (19/11/04)


Aula 11: Classificação (24/11/04)


Aula 12: Apresentação dos assuntos de projeto e Seminários (01/12/04)


Aula 13: Clustering (03/12/04)


Aula 14: Seminário I: Weka: uma caixa de ferramenta Java para associação, classificação, previsão e clustering (08/12/04)

Tranparencias: Weka.ppt


Aula 15: Seminário II: Tanagra: uma caixa de ferramenta para associação, classificação, previsão e clustering (17/12/04)

Tranparencias: Weka.ppt


E: VALIDAÇÃO


Aula 16: Previsão (19/01/05)


Aula 17: Indução de regras atributivas de associação e Regras de Classificação (21/01/05)


Aula 18: Validação estatística do conhecimento minerado (26/01/05)


Aula 19: Sistema Real de Apoio a Decisão (28/01/05)


Aula 20: Mineração de exceções e Medidas de Interesse (02/02/05)


Aula 21: Orientação de Projeto I (11/02/05)


Aula 22: Seminário III (16/02/05)


Aula 23: Orientação de Projeto II (18/02/05)


Aula 24: Seminário IV (23/02/05)


Aula 25: Revisão (25/02/05)


Aula 26: Prova (02/03/05)


Aula 27: Apresentação de Projeto I (04/03/05)


Aula 28: Apresentação de Projeto II (09/03/05)


Aula 29: Apresentação de Projeto III (11/03/05)


Aula 30: Apresentação de Projeto IV (16/03/05)


·         Plano das apresentações de projetos de desenvolvimento de ferramentas

    1. Introdução: o problema

o      Funcionalidade da ferramenta

o      Utilidade prática e motivação pelo desenvolvimento de tal ferramenta

    1. Projeto e arquitetura de software:

o      Identificação dos componentes do software e motivação por tal decomposição

o      Dados de entrada e saída de cada componente com motivação

o      Fluxo de controle e interação dinámica entre os componentes e sua motivação

o      Dificuldades encontradas durante o projeto e soluções adotadas para superar ou contorna-lás com motivação

    1. Implementação

o      Identificação dos componentes prontos usados com motivação da sua escolha

o      Estruturas de dados usadas por cada o novo componente implementado com motivação

o      Algoritmo usado por cada o novo componente implementado com motivação

o      Linguagens de programação, ferramentas de implementação e plataforma de execução sub-jacente usado para a implementação e implantação de cada componente, com motivção de escolha

o      Dificuldades encontradas durante a implementação e soluções adotadas para superar ou contorna-lás com motivação

    1. Teste e validação

o      Estudo de caso usado para validar a ferramentas

o      Conjunto de entradas e saída de teste usado

o      Dificuldades encontradas durante a validação e soluções adotadas para superar ou contorna-lás com motivação

    1. Limitações da versão atual e desenvolvimentos futuros

o      Identificações da limitações da versão atual da ferramentas

o      Sugestões de modificações e extensões para futuras versões superando essas limitações

    1. Como usar a ferramenta

o      Onde está disponível?

o      Como instalá-la?

o      Onde encontrar o manual do usuário (ou pelo menos o arquivo README)?

o      Onde encontrar arquivos de entrada e saída demo que demonstram o funcionamento da ferramenta?

    1. Introdução: caracterização da tarefa de descoberta de conhecimento

o      Tipos de dados disponíveis em entrada

o      Tipos de conhecimento esperado em sáida

o      Utilidade prática de tal conhecimento: decicões que podem ser tomadas ou alteradas a partir do conhecimento a minerar

    1. Preparação dos dados

o      Descrição funcional, qualitativa, quantitativa e estatística das fontes de dados brutos

o      Seleção dos dados: descrição e motivação das tabelas, campos e registros selecionados para a mineração

o      Limpeza de dados: descrição do estado de limpeza do dados brutos selecionados e do processamento de limpeza efetuado com motivação

o      Transformação de dados: descrição e motivação dos processos de transformação dos dados efetuados, como:

§       agregação ou agrupamento de registros

§       discretização ou categorização de campos

§       derivação de novos campos ou novas tabelas por meio de dedução ou junção

§       construção de hierarquias conceituais de valores de campos

§       reformatação de um modelo de dado para outro

o      Dificuldades encontradas durante a preparação dos dados e soluções adotadas para superar ou contorna-lás com motivação

    1. Mineração dos dados

o      Identificação e motivação das técnicas de mineração usadas

o      Identificação e motivação das ferramentas de mineração usadas

o      Parametrização das tarefas de mineração executadas com motivação dos valores dos parametros

o      Dificuldades encontradas durante a mineração dos dados e soluções adotadas para superar ou contorna-lás com motivação

    1. Validação do conhecimento minerado

o      Identificação e motivação das técnicas de avaliação estatística da confiabilidade e generalidade do conhecimento minerado

o      Interpretação do conhecimento minerado

o      Insights decisionais decorrentes do conhecimento minerado

o      Dificuldades encontradas durante a validação e interpretação dos dados e soluções adotadas para superar ou contorna-lás com motivação

    1. Iterações no processo de descoberta de conhecimento

o      Descrição e motivação das iterações efetuadas no processo de descoberta de conhecimento

    1. Conhecimento descoberto após da conclusão do processo

o      Descrição funcional, qualitativa, quantitativa e estatística do conhecimento minerado


Aula 31: Prova final (07/03/03)