De første resultatene våre overgikk våre mest optimistiske forventninger. Som en test valgte vi en beregningsutfordring som vi tidligere har målt som krever omtrent 900 timers tid ved bruk av CPUer i serverklasse, eller rundt 13, 000 CPU -kjernetimer. Vi fant ut at den kunne være ferdig på bare 8 timer på en enkelt NVIDIA Tesla V100 GPU, eller omtrent 30 minutter hvis du bruker 16 GPUer, som kan redusere analysetiden med flere størrelsesordener. En arbeidsstasjonsklasse NVIDIA RTX 2080TI ville fullføre den på omtrent 12 timer. "
Igor Sfiligoi, SDSCs ledende vitenskapelige programvareutvikler for databehandling med høy gjennomstrømning
"Den nye kjørbare filen vil også ha en enorm verdi for utforskende arbeid, ettersom det moderate EMP-datasettet som tidligere brukte 13 timer på en serverklasse-CPU, nå kan kjøres på litt over en time på en bærbar datamaskin som inneholder en mobil NVIDIA GTX 1050 GPU, "la Sfiligoi til.
Sfiligoi har samarbeidet med Rob Knight, grunnlegger av Center for Microbiome Innovation, og professor i pediatri, Bioingeniør og informatikk og ingeniørfag ved universitetet, og Daniel McDonald, vitenskapelig direktør for American Gut Project. Mikrobiomer er det kombinerte genetiske materialet til mikroorganismer i et bestemt miljø, inkludert menneskekroppen.
"Dette arbeidet startet ikke først som en del av COVID-19-responsen, "sa Sfiligoi." Vi startet diskusjonen om en slik hastighet i god tid før, men UniFrac er en vesentlig del av forskningslinjen for COVID-19. "
UniFrac sammenligner mikrobiomer med hverandre ved hjelp av et evolusjonært tre som knytter DNA -sekvensene til hverandre. "UniFrac spilte en nøkkelrolle i Human Microbiome Project, slik at vi kan forstå hvordan mikrober er relatert på tvers av kroppene våre, og i Earth Microbiome Project, slik at vi kan forstå hvordan mikrober er relatert til planeten vår, "sa Knight." Vi bruker den til å forstå hvordan en persons mikrobiom kan gjøre dem mer eller mindre utsatt for COVID-19, og hvilke mikrober i miljøer som spenner fra helsefasiliteter til kloakk til havsprøyting gjør miljøet mer eller mindre gjestfritt for SARS-CoV-2, koronaviruset som forårsaker COVID-19. "
Knight bemerket at Sfiligoi hadde fremskyndet den siste versjonen av algoritmen, utgitt for mindre enn to år siden i Naturmetoder , som allerede representerte en dramatisk hastighetsforbedring i forhold til tidligere implementeringer.
"Etter hvert som mikrobielle sekvensdata øker eksponensielt, fra dusinvis av sekvenser til milliarder, vi må implementere alle algoritmene på nytt, "sa han." Dette siste trinnet viser virkelig hvordan optimalisering av forskningsinfrastrukturen dramatisk kan redusere tid-til-resultat samtidig som man beholder nøyaktigheten av funnene og gjør det mulig å stille helt nye skalaer av spørsmål. "
Nærmere bestemt, Sfiligoi brukte OpenACC, en brukerdrevet, direktivbasert parallell programmeringsmodell for å porte den eksisterende Striped UniFrac-implementeringen til GPUer fordi dette tillater en enkelt kodebase for både CPU og GPU-kode. Ytterligere hastighet ble oppnådd ved å nøye utnytte hurtigbufferlokaliteten. Det ble også undersøkt bruk av matematikk med lavere presisjon for å effektivt utnytte GPUer av forbrukerklasse som vanligvis finnes på stasjonære og bærbare datamaskiner.
UniFrac ble opprinnelig designet og alltid implementert ved hjelp av flytende matematikk med høyere presisjon, ofte kalt fp64 -kodebane. Flytepunktmatematikken med høyere presisjon ble brukt for å maksimere påliteligheten til resultatene. Etter å ha implementert matten med flytende flyt med lavere presisjon, vanligvis kalt fp32 kodebane, forskere observerte nesten identiske resultater, men med betydelig kortere beregningstider.
"Vi så en 3x hastighet i fp32-kodebanen for spill-GPUer som 2080 Ti og den mobile 1050, og vi mener at presisjon bør være tilstrekkelig for de aller fleste studier, "forklarte Sfiligoi.
Videre, kodeendringene som ble introdusert for å øke hastigheten på GPU -beregningen, økte også kjøringen på CPU -ressurser betydelig. Beregningsutfordringen som er nevnt ovenfor kan nå fullføres på omtrent 200 timer på samme server-klasse CPU, en 4x speedup, ifølge forskerne.
"Gjør beregning tilgjengelig på GPU-aktiverte personlige enheter, til og med bærbare datamaskiner, eliminerer en stor barriere i ressursinfrastrukturen for mange forskere, "sa Sfiligoi.