Mineração de Textos

(Ricardo Prudêncio – Prof. Adjunto – Centro de Informática - UFPE)

 

1. Introdução – 2. Tarefas Importantes3. Publicações Recentes4. Orientações Atuais


1. Introdução

Definição Básica: Processo de descoberta de conhecimento em bases de textos. Envolve tópicos diversos como recuperação de informação, processamento de linguagem natural, aprendizado de máquina, mineração de dados e estatística. Embora não exista um procedimento único para mineração de textos, podemos destacar diferentes tarefas importantes que são associadas ao tema.

Material Introdutório

Hotho, A.; Nürnberger, A.; Paaß, G. A brief survey of text mining. Journal for Computational Linguistics and Language Technology, Vol. 20(1), pp. 19-62, 2005. (hotho2005)


 

2. Tarefas Importantes

2.1 Classificação de Textos

2.2 Agrupamento de Textos

2.3 Extração de Informação

2.4 Análise de Sentimentos


 

2.1           Classificação de Textos

 

 

·        Definição Básica: Visa associar documentos de texto a classes temáticas pré-definidas. Os documentos são classificados a partir de características do texto como termos ou palavras presentes nos documentos. Classificação de texto tem sido usada, por exemplo, para indexação de documentos, filtragem de documentos, e extração de informação. As técnicas aplicadas envolvem comumente o uso de Engenharia de Conhecimento (envolvendo sistemas de classificação com regras definidas por especialistas) e o uso de Algoritmos de Aprendizagem de Máquina Supervisionada (e.g. aprendizado bayesiano, kNN, redes MLP, Support Vector Machines,...), onde o classificador de texto é induzido a parir de um corpus de documentos previamente etiquetados.

 

·        Material Introdutório

 

Sebastiani, F. Machine learning in automated text categorization. ACM Comput. Surv. 34(1), pp. 1-47, 2002. (sebastiani2002)

 


 

2.2           Agrupamento de Textos

 

·        Definição Básica: Corresponde a identificar grupos de documentos similares entre si. Cada documento é similar aos documentos pertencentes ao mesmo grupo, e diferente dos documentos pertencentes a outros grupos. Ao contrário da classificação de texto, o objetivo do agrupamento é encontrar classes ou grupos de documentos não conhecidos a priori. Agrupamento de documentos textuais tem sido usado para a navegação de uma coleção de documentos (i.e. gerar uma taxonomia de documentos semelhante, por exemplo, aos diretórios do Yahoo), e para organizar os resultados de uma consulta resolvida por um engenho de busca (e.g. Vivisimo). Envolve em geral o uso de técnicas de Aprendizagem de Máquina Não-Supervisionada (e.g. k-means, clustering hierárquico, redes SOM,...).

 

·        Material Introdutório

 
Steinbach, M.; Karypis, G.; Kumar, V. A comparison of document clustering techniques. KDD Workshop on Text Mining, 2000. (steinbach2000)

 


 

2.3     Extração de Informação

 

·        Definição Básica: Identificar dentro de um documento textual, trechos que correspondem a dados relevantes para um usuário (ex.: extrair nome e preço de produtos a partir de anúncios em páginas web). Os dados extraídos são armazenados em um banco de dados que podem ser acessados diretamente pelo usuário, ou que podem servir como entrada para processos posteriores de mineração de dados. Sistemas de Extração de Informação envolvem comumente o uso de Engenharia de Conhecimento, Processamento de Linguagem Natural  e Aprendizado de Máquina.

 

·        Material Introdutório

 

Silva. E. Extração de Informação. In.: Um sistema para extração de informação em referências bibliográficas baseado em aprendizagem de máquina. Dissertação de Mestrado, Centro de Informática, UFPE, Cap.2, pp. 5-29, 2004. (silva2004)

 


 

2.4     Análise de Sentimentos

 

·        Definição Básica: Identificar a opinião expressa sobre um determinado objeto (produtos, pessoas, empresas, etc...) a partir da análise de documentos de texto contendo como reviews, comentários, opiniões, dentre outros. Em uma forma mais simples consiste em determinar graus de polaridade (positiva ou negativa) que um texto expressa sobre determinado assunto. Análise de sentimentos é associada ao tema de mineração de opiniões e tem sido usada em aplicações práticas para monitoramento de mídias sociais, a fim de se identificar de forma automática o que se fala sobre determinado objeto ou pessoa e se fala de forma positiva ou negativa. Envolve técnicas de Recuperação de Informação, Processamento de Linguagem Natural e Aprendizagem de Máquina.    

 

·        Material Introdutório

 

Pang, B; Lee, L. E. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, Vol. 2, pp. 1-135, 2008. (peng2008)

 

 


 

     3. Publicações Recentes

 

·         CAVALCANTI, D. ; PRADHAN, S. ; SHAH, J. ; PRUDENCIO, R. B. C. ; PIETROBON, R. . Good to be bad? Distinguishing between positive and negative citations in scientific impact. In: International Conference on Tools with Artificial Intelligence, 2011, Boca Raton. Proceedings of the International Conference on Tools with Artificial Intelligence, 2011

 

·         SA, H. ; PRUDENCIO, R. B. C. . Supervised Link Prediction in Weighted Networks. In: International Joint Conference on Artificial Neural Networks (IJCNN 2011), 2011, San Jose. Proceedings of the 2011 International Joint Conference on Artificial Neural Networks, 2011.

 

·         Flávia A. Barros, Eduardo F. A. Silva, Ricardo B. C. Prudêncio, Valmir M. Filho and André C. A. Nascimento, Combining Text Classifiers and Hidden Markov Models for Information Extraction, International Journal of Artificial Intelligence Tools, Vol. 18 (2), 2009.

 

·         Marcelo Ribeiro, Manoel R. Neto, Ricardo B. C. Prudêncio, Local Feature Selection in Text Clustering. In: International Conference on Neural Information Processing, 2008, Auckland. Lecture Notes in Computer Science, 2008 (ICONIP-2008).

·         Valmir Macário Filho, R.B.C. Prudêncio, F.A.T Carvalho, L. Torres, L. Rodrigues Júnior, Marcos Galindo, Automatic Information Extraction in Semi-Structured Official Journals. In: Simpósio Brasileiro de Redes Neurais (SBRN), 2008, Salvador. (SBRN-2008c)

 


 

     4. Orientações Atuais

 

               Doutorado

 

·        Diana Cavalcanti (Orientação /Doutorado / Centro de Informática - UFPE) - Tema: Mineração de opiniões e análise de sentimentos em redes de citação

 

·        Marcos Cardoso (Orientação /Doutorado / Centro de Informática - UFPE) – Tema: Influência em redes sociais

 

·        Juliano Bitu (Co-orientação com Prof. Flávia Barros/ Doutorado / Centro de Informática - UFPE) - Tema: Classificação coletiva de sentimentos em redes sociais

 

·        André Câmara (Orientação /Doutorado / Centro de Informática - UFPE) – Tema: Técnicas de mineração de textos e relacionamentos para análise de redes farmacológicas

 

·        Marcelo Ribeiro (Orientação /Doutorado / Centro de Informática - UFPE) - Tema: Seleção de características para agrupamento de documentos

 

               Mestrado

 

·        Renê Gadelha (Orientação /Mestrado / Centro de Informática - UFPE) - Tema: Classificação de traços de personalidade em textos

 

·        Paulo Soares (Orientação /Mestrado / Centro de Informática - UFPE) - Tema: Predição de relacionamentos com técnicas de previsão de séries temporais

 

·        André Schaffer (Orientação /Mestrado / Centro de Informática - UFPE) - Tema: Técnicas de similaridade globais e locais para filtragem colaborativa

 

·        Renato Marcelino (Orientação /Mestrado / Centro de Informática - UFPE) – Tema: Predição de relacionamentos recorrentes em redes de colaboração

 

·        Deise Miranda (Orientação /Mestrado / Centro de Informática - UFPE) – Tema: a definir

 

·        Elvio Gomes (Orientação /Mestrado / Centro de Informática - UFPE) – Tema: a definir

 

·        Felipe Franco (Orientação /Mestrado / Centro de Informática - UFPE) – Tema: a definir