|
|
Mineração de Textos
(Ricardo Prudêncio – Prof.
Adjunto – Centro de Informática - UFPE) 1.
Introdução – 2. Tarefas Importantes – 3. Publicações Recentes – 4. Orientações Atuais 1.
Introdução Definição Básica: Processo de descoberta de conhecimento em bases de textos. Envolve
tópicos diversos como recuperação de informação, processamento de linguagem
natural, aprendizado de máquina, mineração de dados e
estatística. Embora não exista um procedimento único para mineração de
textos, podemos destacar diferentes tarefas
importantes
que são associadas ao tema. Material
Introdutório Hotho, A.; Nürnberger, A.; Paaß, G. A
brief survey of text mining. Journal for Computational Linguistics and
Language Technology, Vol. 20(1), pp. 19-62, 2005. (hotho2005) |
2.1
Classificação de Textos
·
Definição Básica: Visa
associar documentos de texto a classes temáticas pré-definidas. Os documentos
são classificados a partir de características do texto como termos ou palavras
presentes nos documentos. Classificação de texto tem sido usada, por exemplo,
para indexação de documentos, filtragem de documentos, e extração de
informação. As técnicas aplicadas envolvem comumente o uso de Engenharia de
Conhecimento (envolvendo sistemas de classificação com regras definidas por
especialistas) e o uso de Algoritmos de Aprendizagem
de Máquina Supervisionada (e.g. aprendizado
bayesiano, kNN, redes MLP, Support Vector Machines,...),
onde o classificador de texto é induzido a parir de um corpus de documentos
previamente etiquetados.
·
Material Introdutório
Sebastiani, F. Machine
learning in automated text categorization. ACM Comput. Surv. 34(1), pp. 1-47, 2002. (sebastiani2002)
2.2
Agrupamento de Textos
·
Definição Básica: Corresponde
a identificar grupos de documentos similares entre si. Cada documento é similar
aos documentos pertencentes ao mesmo grupo, e diferente dos documentos
pertencentes a outros grupos. Ao contrário da classificação de texto, o
objetivo do agrupamento é encontrar classes ou grupos de documentos não
conhecidos a priori. Agrupamento de documentos textuais tem sido usado para a
navegação de uma coleção de documentos (i.e. gerar uma taxonomia de documentos
semelhante, por exemplo, aos diretórios do Yahoo), e para organizar os
resultados de uma consulta resolvida por um engenho de busca (e.g. Vivisimo). Envolve em geral o uso de técnicas de Aprendizagem de Máquina Não-Supervisionada (e.g. k-means, clustering hierárquico, redes SOM,...).
·
Material Introdutório
Steinbach, M.; Karypis, G.; Kumar, V. A comparison of document clustering techniques. KDD Workshop on Text Mining, 2000. (steinbach2000)
2.3
Extração de Informação
·
Definição Básica: Identificar dentro de um documento
textual, trechos que correspondem a dados relevantes para um usuário (ex.: extrair
nome e preço de produtos a partir de anúncios em páginas web). Os dados
extraídos são armazenados em um banco de dados que podem ser acessados
diretamente pelo usuário, ou que podem servir como entrada para processos
posteriores de mineração de dados. Sistemas de Extração de Informação envolvem
comumente o uso de Engenharia de Conhecimento, Processamento de Linguagem
Natural e
Aprendizado de Máquina.
·
Material Introdutório
Silva. E. Extração de Informação. In.: Um sistema para extração de informação em referências
bibliográficas baseado em aprendizagem de máquina. Dissertação de Mestrado,
Centro de Informática, UFPE, Cap.2, pp. 5-29, 2004. (silva2004)
2.4
Análise de Sentimentos
·
Definição Básica: Identificar a opinião expressa
sobre um determinado objeto (produtos, pessoas, empresas, etc...)
a partir da análise de documentos de texto contendo como reviews,
comentários, opiniões, dentre outros. Em uma forma mais simples consiste em
determinar graus de polaridade (positiva ou negativa) que um texto expressa
sobre determinado assunto. Análise de sentimentos é associada ao tema de
mineração de opiniões e tem sido usada em aplicações práticas para
monitoramento de mídias sociais, a fim de se identificar de forma automática o
que se fala sobre determinado objeto ou pessoa e se fala de forma positiva ou
negativa. Envolve técnicas de Recuperação de Informação, Processamento de
Linguagem Natural e Aprendizagem de Máquina.
·
Material Introdutório
Pang, B; Lee, L. E. Opinion mining and sentiment
analysis. Foundations and Trends in
Information Retrieval, Vol. 2, pp. 1-135, 2008. (peng2008)
·
CAVALCANTI,
D. ; PRADHAN, S. ; SHAH, J. ; PRUDENCIO, R. B. C. ;
PIETROBON, R. . Good to be bad? Distinguishing between positive and negative
citations in scientific impact. In: International Conference on Tools with
Artificial Intelligence, 2011, Boca Raton. Proceedings of the International
Conference on Tools with Artificial Intelligence, 2011
·
SA, H. ; PRUDENCIO, R.
B. C. . Supervised Link
Prediction in Weighted Networks. In: International Joint Conference on
Artificial Neural Networks (IJCNN 2011), 2011, San Jose. Proceedings of the
2011 International Joint Conference on Artificial Neural Networks, 2011.
·
Flávia A. Barros,
Eduardo F. A. Silva, Ricardo B. C. Prudêncio, Valmir M. Filho and André C. A. Nascimento, Combining
Text Classifiers and Hidden Markov
Models for Information Extraction, International Journal of Artificial Intelligence Tools, Vol. 18 (2),
2009.
·
Marcelo Ribeiro,
Manoel R. Neto, Ricardo B. C. Prudêncio, Local Feature
Selection in Text Clustering. In: International Conference on Neural Information
Processing, 2008, Auckland. Lecture Notes in Computer Science, 2008 (ICONIP-2008).
·
Valmir
Macário Filho, R.B.C. Prudêncio, F.A.T Carvalho, L.
Torres, L. Rodrigues Júnior,
Marcos Galindo, Automatic Information Extraction in Semi-Structured Official
Journals. In:
Simpósio Brasileiro de Redes Neurais (SBRN), 2008, Salvador. (SBRN-2008c)
Doutorado
·
Diana Cavalcanti (Orientação /Doutorado /
Centro de Informática - UFPE) - Tema:
Mineração de opiniões e análise de sentimentos em redes de citação
·
Marcos Cardoso (Orientação /Doutorado /
Centro de Informática - UFPE) – Tema:
Influência em redes sociais
·
Juliano Bitu (Co-orientação com Prof. Flávia Barros/ Doutorado / Centro de Informática -
UFPE) - Tema: Classificação
coletiva de sentimentos em redes sociais
·
André Câmara (Orientação /Doutorado / Centro
de Informática - UFPE) – Tema: Técnicas
de mineração de textos e relacionamentos para análise de redes farmacológicas
·
Marcelo Ribeiro (Orientação /Doutorado /
Centro de Informática - UFPE) - Tema: Seleção de características para agrupamento
de documentos
Mestrado
·
Renê Gadelha (Orientação /Mestrado / Centro
de Informática - UFPE) - Tema: Classificação de traços de personalidade em textos
·
Paulo Soares (Orientação /Mestrado / Centro
de Informática - UFPE) - Tema: Predição de relacionamentos com técnicas de
previsão de séries temporais
·
André Schaffer (Orientação
/Mestrado / Centro de Informática - UFPE) - Tema: Técnicas de
similaridade globais e locais para filtragem colaborativa
·
Renato Marcelino (Orientação /Mestrado /
Centro de Informática - UFPE) –
Tema: Predição de relacionamentos recorrentes em redes de colaboração
·
Deise Miranda (Orientação /Mestrado / Centro
de Informática - UFPE) – Tema: a
definir
·
Elvio Gomes (Orientação
/Mestrado / Centro de Informática - UFPE) – Tema: a definir
·
Felipe Franco (Orientação /Mestrado / Centro
de Informática - UFPE) – Tema: a
definir