Tópicos em BCM - “Text mining” e bioinformática para a pós-genômica

  PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DA SAÚDE

FIOCRUZ-MG

 

Período: 4 – 8/ outubro/ 2010

Local: Sala de Aula de Informática. Anexo do Centro de Pesquisas René Rachou – FIOCRUZ. Av. Augusto de Lima 1715. Barro Preto, Belo Horizonte.

Carga horária: 15h

Coordenadores: Guilherme C. Oliveira e Roney S. Coimbra

 

EMENTA:

O entendimento das associações funcionais entre genes e/ou outras entidades biológicas é um dos maiores desafios na interpretação de resultados de estudos envolvendo tecnologias de alta produtividade usadas na pós-genômica. Recentemente, algorítimos robustos e já largamente empregados nas ciências exatas têm sido propostos para a classificação e o agrupamento de entidades biológicas a partir das medidas de expressão gênica obtidas com microarranjos, proteômica etc. No entanto, a interpretação desses resultados só é possível à luz das informações disponíveis na enorme e crescente literatura científica biomédica, o que motivou o surgimento da mineração de textos.

Mineração de textos é um excitante ramo da bioinformática pelo qual documentos são triados, subdivididos, analisados e apresentados, em forma gráfica, ou textual, revelando seu conteúdo de informações. Algumas vezes, estas informações já existem bastando, portanto, extraí-las de um conjunto de documentos. Outras vezes, a informação obtida é totalmente inédita, revelada pela análise de tendências em conjuntos de documentos.

Neste curso, apresentaremos algorítimos e estratégias para classificação e agrupamento de genes/proteínas a partir de dados de expressão, assim como métodos de mineração de textos para a integração dos dados experimentais com informações extraídas da literatura cientifica. Os conceitos apresentados nas aulas teóricas serão fixados através de aulas práticas utilizando-se implementações, de domínio público, dos principais algorítimos estudados.

 

PROGRAMA DETALHADO:

 

04/10/10 – Segunda-feira

Introdução – 15 min

Medidas de similaridade - 30 min

Métodos de ligação - 15 min

Intervalo - 15 min

Métodos de agrupamento (“clustering”) – 45 min

Métodos de classificação – 45 min

Avaliação de agrupamentos - 15 min

 

05/10/10 – Terça-feira

Apresentação de seminário e discussão, artigo 1 – 35 min

Apresentação de seminário e discussão, artigo 2 – 35 min

Apresentação de seminário e discussão, artigo 3 – 35 min

Intervalo - 15 min

Exercício de agrupamento hierárquico – 60 min

 

06/10/10 – Quarta-feira

Tutorial GenePattern - 180 min

 

07/10/10 – Quinta-feira

Introdução a Information Retrieval, Information Extraction e Text Mining – 60 min

Métodos de indexação de textos - 45 min

Intervalo - 15 min

Tutorial LitProf – 30 min

Avaliação dos agrupamentos do LitProf - recall e precision – 30 min

 

08/10/10 – Sexta-feira

Apresentação de seminário e discussão, artigo 4 – 35 min

Apresentação de seminário e discussão, artigo 5 – 35 min

Apresentação de seminário e discussão, artigo 6 – 35 min

Intervalo - 15 min

Tutorial Cystoscape e "Agilent Literature Search" - 60 min

 

BIBLIOGRAFIA:

   LIVROS e DISSERTAÇÕES:

 Mount, D.W. 2004. Bioinformatics - Sequence and Genome Analysis, 2nd ed, Cold Spring Harbour Laboratory Press, Cold Spring Harbour, NY.

 

Feldman, R. & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches in Analysing Unstructured Data. Cambridge University Press, NY, 410 p.

 

Konchady, M. 2006. Text mining Application Programming. 1st Edition. Thompson – Delmar Learning, Boston, 412 p.

 

Almeida, L.G.P. Análise de algorítimos de agrupamento para base de dados textuais. Dissertação (M.Sc.) - Laboratório Nacional de Computação Científica. Petrópolis, R.J., 2007.

 

ARTIGOS:

 

Golub et al. 1999. Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science, 286: 531-537.

 

Ramaswamy et al. 2001. Multiclass cancer diagnosis using tumor gene expression signatures. PNAS, 98: 15149-15154.

 

Shipp et al. 2002. Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine, 8: 68-74.

 

Wang et al. 2002. Clustering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study. BMC Bioinformatics, 3: 36.

 

Chagoyen et al. 2006. Discovering semantic features in the literature: a foundation for building functional associations. BMC Bioinformatics, 7: 41.

 

Larrañaga et al. 2006. Machine Learning in Bioinformatics. Brief. Bioinform, 7: 82-112.

 

Han et al. 2006. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity. Proteomics, 6: 4023-37.

 

Shatkay et al, 2007. SherLoc: high-accuracy prediction of protein subcellular localization by integrating text and protein sequence data. Bioinformatics, 23: 1410-1417.

 

Coimbra et al. 2010. Assessing the ambiguity level of gene aliases by automatic literature profiling. BMC Genomics. Aceito.