p Nossos resultados iniciais superaram nossas expectativas mais otimistas. Como teste, selecionamos um desafio computacional que medimos anteriormente como exigindo cerca de 900 horas de uso de CPUs de classe de servidor, ou cerca de 13, 000 horas de núcleo de CPU. Descobrimos que ele poderia ser concluído em apenas 8 horas em uma única GPU NVIDIA Tesla V100, ou cerca de 30 minutos se usar 16 GPUs, o que poderia reduzir o tempo de execução da análise em várias ordens de magnitude. Um NVIDIA RTX 2080TI de classe de estação de trabalho o terminaria em cerca de 12 horas. "p "O novo executável também será de grande valor para o trabalho exploratório, já que o conjunto de dados EMP de tamanho moderado que costumava exigir 13 horas em uma CPU de classe de servidor agora pode ser executado em pouco mais de uma hora em um laptop contendo uma GPU móvel NVIDIA GTX 1050, "acrescentou Sfiligoi. p Sfiligoi tem colaborado com Rob Knight, diretor fundador do Center for Microbiome Innovation, e um professor de Pediatria, Bioengenharia e Ciência da Computação e Engenharia na universidade, e Daniel McDonald, diretor científico do American Gut Project. Microbiomas são o material genético combinado dos microrganismos em um ambiente particular, incluindo o corpo humano. p "Este trabalho não começou inicialmente como parte da resposta do COVID-19, "disse Sfiligoi." Começamos a discussão sobre essa aceleração bem antes, mas o UniFrac é uma parte essencial do pipeline de pesquisa do COVID-19. " p O UniFrac compara os microbiomas entre si usando uma árvore evolutiva que relaciona as sequências de DNA entre si. "UniFrac desempenhou um papel fundamental no Projeto Microbioma Humano, nos permitindo entender como os micróbios estão relacionados em nossos corpos, e no Projeto Microbioma da Terra, nos permitindo entender como os micróbios estão relacionados em nosso planeta, "disse Knight." Estamos usando isso para entender como o microbioma de uma pessoa pode torná-la mais ou menos suscetível ao COVID-19, e quais micróbios em ambientes que variam de instalações de saúde a esgoto e pulverização oceânica tornam o ambiente mais ou menos hospitaleiro ao SARS-CoV-2, o coronavírus que causa COVID-19. " p Knight observou que Sfiligoi acelerou a versão mais recente do algoritmo, publicado há menos de dois anos em Métodos da Natureza , que por si só já representou uma melhoria dramática de velocidade em relação às implementações anteriores. p "À medida que os dados da sequência microbiana aumentam exponencialmente, de dezenas de sequências a bilhões, temos que reimplementar todos os algoritmos, ", disse ele." Esta última etapa realmente mostra como otimizar a infraestrutura de pesquisa pode reduzir drasticamente o tempo de obtenção de resultados, ao mesmo tempo que preserva a precisão das descobertas e permite que escalas completamente novas de perguntas sejam feitas. " p Especificamente, Sfiligoi usou OpenACC, orientado para o usuário, modelo de programação paralela com base em diretiva para portar a implementação existente do Striped UniFrac para GPUs, pois isso permite uma única base de código para o código da CPU e da GPU. A aceleração adicional foi obtida explorando cuidadosamente a localidade do cache. Também foi explorado o uso de matemática de ponto fl utuante de baixa precisão para explorar de forma eficaz as GPUs de consumo normalmente encontradas em desktops e laptops. p UniFrac foi originalmente projetado e sempre implementado usando matemática de ponto flutuante de alta precisão, frequentemente chamado de caminho de código fp64. A matemática de ponto flutuante de alta precisão foi usada para maximizar a confiabilidade dos resultados. Depois de implementar a matemática de ponto flutuante de baixa precisão, geralmente chamado de caminho de código fp32, pesquisadores observaram resultados quase idênticos, mas com tempos de computação significativamente mais curtos. p "Vimos uma aceleração de 3x no caminho do código fp32 para GPUs de jogos, como o Ti 2080 e o 1050 móvel, e acreditamos que a precisão deve ser adequada para a grande maioria dos estudos, "explicou Sfiligoi. p Além disso, as alterações de código introduzidas para acelerar a computação da GPU também aceleraram significativamente a execução dos recursos da CPU. O desafio computacional mencionado acima agora pode ser concluído em cerca de 200 horas na mesma CPU de classe de servidor, um aumento de 4x, de acordo com os pesquisadores. p "Disponibilizando computação em dispositivos pessoais habilitados para GPU, até mesmo laptops, elimina uma grande barreira dentro da infraestrutura de recursos para muitos cientistas, "disse Sfiligoi.Igor Sfiligoi, Principal desenvolvedor de software científico da SDSC para computação de alto rendimento