Vores første resultater oversteg vores mest optimistiske forventninger. Som en test valgte vi en beregningsmæssig udfordring, som vi tidligere målte at krævede cirka 900 timers tid ved hjælp af serverklassecpu'er, eller omkring 13, 000 CPU -kernetimer. Vi fandt ud af, at den kunne være færdig på bare 8 timer på en enkelt NVIDIA Tesla V100 GPU, eller ca. 30 minutter, hvis du bruger 16 GPU'er, hvilket kunne reducere analysetiden med flere størrelsesordener. En arbejdsstationsklasse NVIDIA RTX 2080TI ville afslutte den på cirka 12 timer. "
Igor Sfiligoi, SDSCs førende videnskabelige softwareudvikler til computere med høj kapacitet
"Den nye eksekverbare vil også have en enorm værdi for undersøgende arbejde, da det moderate størrelse EMP-datasæt, der tidligere krævede 13 timer på en serverklasse-CPU, nu kan køres på lidt over en time på en bærbar computer, der indeholder en mobil NVIDIA GTX 1050 GPU, "tilføjede Sfiligoi.
Sfiligoi har samarbejdet med Rob Knight, stiftende direktør for Center for Microbiome Innovation, og professor i pædiatri, Bioingeniør og datalogi og teknik på universitetet, og Daniel McDonald, videnskabelig direktør for American Gut Project. Mikrobiomer er det kombinerede genetiske materiale af mikroorganismerne i et bestemt miljø, herunder menneskekroppen.
"Dette arbejde begyndte ikke oprindeligt som en del af COVID-19-svaret, "sagde Sfiligoi." Vi startede diskussionen om sådan en speed-up i god tid før, men UniFrac er en væsentlig del af forskningsrørledningen til COVID-19. "
UniFrac sammenligner mikrobiomer med hinanden ved hjælp af et evolutionært træ, der relaterer DNA -sekvenserne til hinanden. "UniFrac spillede en nøglerolle i Human Microbiome Project, giver os mulighed for at forstå, hvordan mikrober er relateret på tværs af vores kroppe, og i Earth Microbiome Project, giver os mulighed for at forstå, hvordan mikrober er relateret på tværs af vores planet, "sagde Knight." Vi bruger det til at forstå, hvordan en persons mikrobiom kan gøre dem mere eller mindre modtagelige for COVID-19, og hvilke mikrober i miljøer lige fra sundhedsfaciliteter til spildevand til havsprøjt gør miljøet mere eller mindre gæstfrit til SARS-CoV-2, coronavirus, der forårsager COVID-19. "
Knight bemærkede, at Sfiligoi havde fremskyndet den seneste version af algoritmen, udgivet for mindre end to år siden i Naturmetoder , som selv allerede repræsenterede en dramatisk hastighedsforbedring i forhold til tidligere implementeringer.
"Da mikrobielle sekvensdata stiger eksponentielt, fra snesevis af sekvenser til milliarder, vi er nødt til at genimplementere alle algoritmer, "sagde han." Dette seneste trin viser virkelig, hvordan optimering af forskningsinfrastrukturen dramatisk kan reducere tid til resultat, samtidig med at resultaterne holdes nøjagtige og muliggøre helt nye skalaer af spørgsmål. "
Specifikt, Sfiligoi brugt OpenACC, en brugerdrevet, direktivbaseret parallel programmeringsmodel til port af den eksisterende Striped UniFrac-implementering til GPU'er, fordi dette tillader en enkelt kodebase til både CPU og GPU-kode. Yderligere hastighed blev opnået ved omhyggeligt at udnytte cachelokalitet. Også udforsket var brugen af matematik med lavere præcision for at effektivt udnytte GPU'er af forbrugerniveau, der typisk findes på stationære og bærbare computere.
UniFrac blev oprindeligt designet og altid implementeret ved hjælp af højere præcisions flydende punkt matematik, kaldes ofte fp64 -kodesti. Den større præcisions flydende punkt matematik blev brugt til at maksimere pålideligheden af resultaterne. Efter implementering af matten med flydende punkt med lavere præcision, kaldes normalt fp32 -kodesti, forskere observerede næsten identiske resultater, men med betydeligt kortere beregningstider.
"Vi oplevede en 3x hurtigere hastighed i fp32-kodebanen til gaming-GPU'er som 2080 Ti og den mobile 1050, og vi mener, at præcision bør være tilstrækkelig til langt de fleste undersøgelser, "forklarede Sfiligoi.
I øvrigt, de kodeændringer, der blev indført for at fremskynde GPU -beregningen, fremskyndede også betydeligt udførelsen af CPU -ressourcer. Den ovennævnte beregningsudfordring kan nu gennemføres på cirka 200 timer på den samme server-klasse CPU, en 4x speedup, ifølge forskerne.
"Gør beregning tilgængelig på GPU-aktiverede personlige enheder, endda bærbare computere, eliminerer en stor barriere inden for ressourceinfrastrukturen for mange forskere, "sagde Sfiligoi.