TCC - Trabalho de Conclusão de Curso

Informações Principais

Resumo

Abstract

Introdução

Conclusão

Download

Conclusão

Acadêmico(a): Felipe Fernandes Albrecht

Título: Reconstrução Filogenética em Ambiente Distribuído

Conclusão:

Dentre os objetivos apresentados neste estudo, o primeiro constitui-se na proposta de um algoritmo para inferência de árvores filogenéticas executado num ambiente distribu ído. A redução do tempo da inferência filogenética, a qual acreditava-se ser a etapa mais demorada do workflow, levaria a diminuição do tempo de execução deste. Com a verifica ção dos tempos das etapas do workflow, observou-se que esta, na realidade, representa uma parte insignificante do tempo total. Buscou-se então, a partir desta constatação, a otimização dos tempos das demais etapas. A otimização do workflow e as execuções de várias de suas etapas em ambiente distribuído, resultando numa significativa melhora no tempo de execução e permitindo que este tempo seja mais reduzido aumentando o número de nós no cluster, constituiu-se na primeira etapa do trabalho. Estas otimizações estão sendo utilizadas nas pesquisas de genômica comparativa do DBBM/Instituto Oswaldo Cruz/FIOCRUZ. Uma das otimizações, o software agendador para múltiplas execuções do software compass em ambiente distribuído, é um software que pode ser estendido para usos em outras ocasiões que deseja-se executar diversas instâncias de um software num ambiente distribuído, delegando a execução de cada instância num nó diferente. Através desse algoritmo, inédito na literatura, especificado e implementado neste trabalho, é possível inferir árvores filogenética especificando parâmetros como a quantidade de árvores analisadas a cada iteração e limites para eliminação de árvores. Mesmo que as árvores obtidas não possuam o LS igual ou inferior as inferidas por outros softwares, elas apresentam muita semelhança nos comprimentos dos ramos e na topologia. Tal algoritmo permite especificar a largura da busca pela melhor árvores, para que o usuário possa escolher entre melhor qualidade ou menor tempo. Desta forma, dependendo dos parâmetros utilizados na execução, a implementação do algoritmo paralelo é mais veloz que os softwares fitch e kitsch. Caso o usuário disponha de um cluster, ele poderá utilizar esta capacidade computacional para pesquisar num conjunto maior de árvores ou diminuir o tempo de execução. Na hipótese de um pesquisador não pretender utilizar a implementação proposta, ou o algoritmo totalmente, as heurísticas mostraram-se eficazes para serem utilizados em outros algoritmos. Exemplificando a questão: a seleção dos táxons mais próximos pode ser utilizada no início do algoritmo proposto por Felsenstein (1997). Quanto à implementação do algoritmo num software de reconstrução filogenética do pacote PHYLIP, também um dos objetivos propostos neste trabalho, não houve concretização, devido o motivo abordado na Seção 7.2.1. Mesmo que o software não tenha sido implementado neste pacote, a implementação utiliza os seus formatos de arquivo, permitindo troca de informações entre o software implementado e os softwares do pacote PHYLIP. Como terceiro objetivo se propôs a substituição do software PAUP* pelo software desenvolvido neste trabalho. Esta substituição não foi efetivada devido ao software desenvolvido não apresenta as melhores árvores se comparado aos softwares do pacote PHYLIP e ao PAUP*. Mesmo assim, caso deseje-se utilizar somente softwares livres, é possível informar ao agendador das execuções múltiplas do compass para que ele armazene a matriz de distâncias resultante das comparações no formato do pacote PHYLIP e utilizar seus softwares para a inferência da árvore filogenética. Desta forma, indiretamente, este trabalho atingiu com sucesso os seus objetivos propostos, com adição à otimização do workflow, não prevista inicialmente e o software para execuções múltiplas em ambiente distribuído.