Denne artikkelen har Åpent fagfellevurdering rapportene som er tilgjengelige.
Hvordan Åpne Peer Review arbeid?
Optimalisere den diagnostiske makt med gastrisk tømming scintigrafi ved flere tidspunkter
Abstract
Bakgrunn
ventrikkeltømming scintigrafi (GES) i intervaller over 4 timer etter en standardisert radiomerket måltid er ofte regnet som gullstandarden for diagnostisering gastroparese. Formålet med denne studien var: 1) å undersøke den beste tiden punktet og den beste kombinasjonen av flere tidspunkter for diagnostisering gastroparese med gjentatte GES tiltak, og 2) til kontrast og kryss-validere Fisher lineær diskriminant analyse (LDA), en rang basert Distribution Gratis (DF) tilnærming, og klassifisering og regresjon treet (CART) modell.
Metoder
totalt 320 pasienter med GES tiltak på 1, 2, 3, og 4 timer (h) etter en standard måltid ved hjelp av en standardisert metode ble retrospektivt samlet. Areal under Receiver Operating Characteristic (ROC) kurve og frekvensen av falsk klassifisering gjennom knytningskryssvalidering ble brukt for modell sammenligning.
Resultater
Grunnet sterk korrelasjon og en abnormitet i data distribusjon, ingen vesentlig forbedring i diagnostisk makt ble funnet med den beste lineær kombinasjon av LDA tilnærming selv med data transformasjon. Med DF metode, den lineære kombinasjon av 4-H og 3-h økte arealet under kurven (AUC) og redusert antall falske klassifikasjoner (0,87; 15,0%) i løpet av de enkelte tidspunkter (0,83, 0,82, 15,6%, 25,3 %, for 4-t og 3-h, henholdsvis) ved en høyere sensitivitet nivå (følsomhet~~POS=HEADCOMP = 0,9). Den CART modell med 4 time GES målinger sammen med pasientens alder var den mest nøyaktige diagnostiske verktøy (AUC = 0,88, false klassifisering = 13,8%). Pasienter som har en 4-h ventrikkelretensjon verdi >. 10% var 5 ganger mer sannsynlig å ha gastroparese (179/207 = 86,5%) enn de med ≤10% (18/113 = 15,9%)
Konklusjoner
med en blandet gruppe pasienter enten henvist med mistanke gastroparese eller etterforsket av andre grunner, er CART modellen mer robust enn LDA og DF tilnærminger, med kapasitet til kovarianteffekter og kan generaliseres for kryss institusjonelle applikasjoner, men kan være ustabil hvis utvalgsstørrelse er begrenset.
Bakgrunn
gastric tømming scintigrafi i intervaller over 4 timer etter en standardisert måltid er ofte regnet som gullstandarden for måling ventrikkeltømming ganger. I praksis er en forenklet time mål på restmageinnhold anvendes for å diagnostisere gastroparese definert som forsinket gastrisk tømming (GE) i fravær av mekanisk obstruksjon [1, 2]. Teknikken måler radiomerket mat igjen i magen ved timeintervaller etter pasienten inntar et standardisert måltid [3] som en indikator på forsinket GE. På grunn av forskjeller i mat brukes, teknikker ansatt, og endepunkter målt med GES, analyse og tolkning av resultatene varierer mellom institusjoner [4]. De fleste tidligere studier har vist at forsinket ventrikkeltømming kan best indikert med mage oppbevaring av > 10% ved 4- timer etter måltid, som ble etablert som 95 persentilen i ventrikkelretensjon med friske frivillige gjennom en multisenterstudie [5, 6] . Som alltid er en distribusjons-basert diagnose beslutning vilkårlig og kan uunngåelig indusere feil på grunn av feilklassifisering. Det er rapportert at det forenklede tilnærmingen har en spesifisitet på 62% og en sensitivitet på 93% [7]. Andre bruker prosent oppbevaring ved 2-h som de rutinemessige kliniske målinger av GES [8], noe som tyder på GES ved 2-h eller 3-h kan være den beste individuelle tidspunkt med høyere diagnostisk makt. Imidlertid kan prosent mage retentions på ulike tidspunkter også være gjenstand for pasientens alder og kjønn [5]. Mangelen på standardisering i å gjennomføre GES sammen med forskjeller i kvantitativ analyse som brukes på forskjellige institusjoner kan begrense den kliniske nytten av testen, og presenterer problemer hvis kryss institusjonelle data må evalueres. I 2008, på vegne av den amerikanske Neurogastroenterology og motilitet Society og Society of Nuclear Medicine, forskere fra 13 amerikanske medisinske institusjoner i fellesskap utstedt en konsensus for standardisering av GES tvers av institusjoner [4]. I tillegg ble som krever videre undersøkelser identifisert med konsensus som inkluderer: 1) anvendelse av 3-t i forhold til 2- og 4-H'er resultater for påvisning av forsinket GE; og 2) bruk av flere tidspunkter (2- og 4-h) versus enkle 2- eller 4-h verdier for videre forståelse av den kliniske betydningen av uharmoniske resultater mellom 2- og 4-h skanninger.
Methodology om bruk ulike diagnostiske markører for å oppdage sykdommer eller vurdere helserelatert risiko har vært en aktiv forskningsfelt [9-11]. Med raske fremskritt innen genomisk og proteomikk-teknologi, har fokuset på biomarkør-baserte sykdom deteksjon og risikovurdering nå flyttet fra en enkelt biomarkør til et panel av biomarkører siden ulike markører kan være følsomme for ulike aspekter av en sykdom [12]. Det hevdes at, sammenlignet med en enkeltstående klinisk eller genetisk markør, kan et panel av flere markører inneholde et høyere nivå av diskriminerende informasjon, spesielt i store heterogene pasientgrupper og for komplekse flertrinns sykdommer. Dette er viktig fordi ved hjelp av flere markører samtidig kan føre til en ny diagnostisk mål med høyere sensitivitet [11].
Når flere markører er sammenhengende og normalfordelt, gir Fisher LDA den beste lineære kombinasjon som gir maksimal følsomhet over hele spesifisitet rekkevidde jevnt under multivariat normalfordeling modell [11]. Når markøren dier som avviker fra det normale, kan en boks-Cox kraft transformasjon anvendes for å forbedre den normale tilpasning [13]. Denne tilnærmingen har vist seg effektiv i estimering av AUC og ROC kurver hvis de underliggende sanne distribusjoner, enten på originalen eller på en transformert skala, er nær multivariate normal [11]. Ellers kan en rangering basert distribusjon fri tilnærming brukes. De teoretiske aspekter ved den beste lineære kombinasjon av biomarkører er godt rapportert [[9, 11, 14-19], og [20]]. Fishers LDA er lettere å beregne, mens DF tilnærmingen er mer robust overfor avvik fra normalfordeling, men er beregningsmessig prohibitive hvis mer enn to markørene er involvert [19]. Vi brukte parameterestimatene fra LDA som utgangspunkt for grid søk med DF hvis markør plass går utover bilateral. Vognen modellen, på den annen side, gir en annen metode for å optimalisere den diagnostiske strøm når markører er flerdimensjonal [21-23]. Snarere enn å lage en ny diagnostisk tiltak som LDA eller DF, bruker CART en sekvensiell prosess for å identifisere sett Predictor variabler, i sin opprinnelige skala, som best skiller grupper blant utfallet variable av interesse. Det er spesielt nyttig når det er mange variabler prediktor som er sterkt korrelert. Det er beregningsmessig mindre intensiv og lett å tolke, men kan være ustabil dersom modellen er utilstrekkelig trent med begrensede data.
De fleste tidligere studier fokuserer på å utlede den beste kombinasjonen av markører som maksimerer AUC for individer som har sykdomsstatus er kjent [11 , 14-20]. Det er uklart om den diagnostiske makt for en slik kombinasjon strekker seg til befolkningen med kjente merkeverdier, men ukjent sykdomsstatus eller for befolkningen som markør verdier blir ikke brukt for å utlede de diagnostiske parametere. Med et standardisert måltid (se Materialer og metoder) og time GES teknikk (fem 2 minutters bilde økter) i løpet av fire timer, mindre kamera tid er nødvendig mens resultatene kan være reproduserbar fra sykehus til sykehus. Dette papiret evaluerer de statistiske alternativene som optimaliserer den diagnostiske makt med GES tiltak på noen tidspunkter. Ved hjelp av den primære kliniske diagnose, definert av symptomer som kvalme, oppkast, tidlig metthet, postprandial fylde, abdominalt ubehag og smerte, samt bevis for forsinket gastrisk tømming i fravær av mekanisk mage utløpsobstruksjon, som den egentlige status av gastroparese , fokuserer denne studien på å finne parametrene for den beste lineære kombinasjon av GES ved forskjellige tidspunkter med treningsdata, så undersøker og tverr validerer ytelsen i testdata som ikke ble brukt til å utlede modell.
Methods
Receiver Operating karakteristiske kurve (ROC) og arealet under kurven i særdeleshet er en enkel og meningsfylt mål for å vurdere nytten av en diagnostisk markør (er) [10]. Gjennom dette papiret, er ROC og AUC brukes til å sammenligne på tvers av ulike metoder og ulike modeller for den beste diagnostiske makt gastroparese. Summen av falske positive og falske negative diagnoser over hele prøven ble brukt til å kontrastere den diagnostiske makt mellom LDA, DF og CART gjennom foldekniv (ta en ut) kryssvalidering.
Fisher lineær diskriminant Approach (LDA)
Let w
ij
representerer jeg
th
markør verdien av j
th
lagt i den syke gruppe; og v
ik
være den jeg
th
markør verdien av k
th
lagt i kontrollgruppen; hvor jeg
= 1, ..., p; j
= 1, ..., m; og k
= 1, ..., n.
Anta X og Y er vektorer av merkeverdier med multivariat normalfordeling for de syke og kontrollgruppene henholdsvis da (1) koeffisientvektor, α
p x 1, for den beste lineære kombinasjon av de kombinerte markør vektor fra den syke og kontrollgruppene under ROC kriteriene er: (2) AUC under ROC-kurven er: (3) Dersom, Φ betegner standard kumulative . normalfordelingsfunksjon
spesifisitet (F a (c)) og følsomhet (H a (c)) er: (4) (5) Rank basert Distribution Gratis tilnærming (DF)
under rang basert distribusjon fri tilnærming [19], kan AUC beregnes som Mann-Whitney U statistikk [24]: (6) Note, for kontinuerlig fordeling, Pr (jeg
= 1/2) = 0.
Dersom w
ij
er jeg
th markør verdi for j
th lagt i den syke gruppe; v
ik
er jeg
th markør verdi for k
th lagt i kontrollgruppen; i, j, k, m
, og n
som definert i forrige avsnitt; AUC product: (α
) er arealet under kurven ved fordelingen fri tilnærming med optimal koeffisientvektor (α). Siden ROC er invariant å monoton økende transformasjon, de koeffisient vektor α
både LDA og DF tilnærminger kan rescaled som (1, β 2 /β 1, β 3 /β 1, ... β i /β 1), hvor β i /β 1 representerer vekten for den i
th markør verdi i forhold til merketråden 1 [19].
Klassifisering og regresjon Trees (CART) modell
motsetning LDA eller DF, identifiserer KJØP metodikk settet av prediktorer fra alle variabler som best skiller klasser i utfallet av interesse i en sekvensiell prosess. På hvert trinn (node), KJØP algoritme identifiserer først den beste prediktor fra alle kandidat variabler og deretter søker gjennom alle verdier for den beste prediktor men bruker bare en cutoff poeng å dele prøven innen noden i to sub-grener. Den søker deretter gjennom alle Predictor variabler og identifiserer den beste cutoff punktet fra de beste prediktor innenfor hvert sub-gren og gjentar prosessen til visse vilkår, for eksempel et minimum varians eller minimum gruppe størrelse, i alle terminalnodene er oppfylt. Ved hver node, søker KJØP å klassifisere prøven i grupper slik at maksimal homogenitet av de underordnede knutepunkter nås. Når en terminal node er nådd, gir modellen sannsynligheten for å tilhøre en bestemt kategori for alle gjenværende fagene som faller inn i denne noden. I praksis er den minimumspunktet størrelse vanligvis satt til 10% av læringen prøven for å unngå potensielt spissen passer modellen slik at den endelige avgjørelsen treet er mer sannsynlig å være nyttig for å klassifisere populasjoner med lignende egenskaper som for læring prøven, men var ikke brukes til å utlede CART modell. I motsetning til LDA tilnærming, kan KJØP være spesielt nyttig når korrelasjonsmønstre i prediktor-variabler er ikke konsistent over hele området, fordi det ikke er nødvendig for den samme variable for å være optimal for alle grennoder av hele treet [22].
Parameter estimering
for LDA tilnærming, skrev vi en SAS /IML program [25] for å beregne middelverdien (m), variansen (S) for syke og kontrollgrupper, og alle parameterestimater er beskrevet i metoden seksjon. Først koeffisient vektor α
, AUC for lineær kombinasjon, så vel som for enkelt markører, ble oppnådd med ligningene (2) og (3) fra treningsdataene. Deretter ble koeffisienten α
påført på de tilsvarende testdata for å oppnå lineær kombinasjon stillingen. Tre terskelverdier som svarer til følsomhetsnivåer på 0,7, 0,8 og 0,9 for lineær kombinasjon resultatet ble oppnådd med gastroparese data ved hjelp av i ligning (5). Hver terskelverdien ble brukt til venstre ut data til å klassifisere saken inn enten syk eller ikke-syke gruppe. Den anslåtte statusen ble deretter krysse ordnet med den kjente sykdomskategori.
DF tilnærmingen startet med en vilkårlig startpunkt og deretter grid søkte på koeffisientene som maksimerer Mann-Whitney U-statistikken med treningsdataene i følgende trinn.
1) en lineær kombinasjon poengsum for hver observasjon ble oppnådd ved å multiplisere markøren vektoren X med en start koeffisientvektor, α
(1, α
).
2) AUC tilsvarer koeffisienten vektor α
beregnes med ligning (6).
3) Gjenta de to første trinnene for alle mulige koeffisientvektor og aggregere tilsvarende AUC og α
.
4) Velg koeffisient som maksimert AUC og identifisere kritiske lineær kombinasjon poengsum verdi på 0,7, 0,8 og 0,9 følsomhet nivåer.
5) bruk av koeffisienten fra trinn 4 til testdata for å oppnå best lineær kombinasjon poengsum.
6) bruk hver kritiske verdien fra trinn 4 i testdata for å forutse hvert tilfelle i enten syk eller ikke-syke gruppe, deretter krysse tabulere med den kjente sykdomskategori.
for CART-modellen har vi brukt TREE pakken innenfor R [26] miljø for hver av de fire målingene hver time, og deres kombinasjon sammen med pasientens alder og kjønn for å identifisere den beste modellen. Cross-validering med en minimumsstørrelse på 10 fag for hver terminal node ble brukt til å optimalisere beslutningstreet modellen ved hjelp av alle observasjoner [27]. AUC for hver optimalisert beslutningstre ble beregnet til å sammenligne på tvers av alle modeller. Deretter, en observasjon ble tatt ut fra hele prøven, og de gjenværende fagene brukes til å bygge beslutningstre, som i sin tur ble brukt til å forutsi sykdomsstatus på den venstre ut observasjon. Resultater for hver beslutning treet ble oppsummert med det totale antall feil spådommer over hele prøven.
Gastroparese data, En total på 320 diagrammer fra pasienter i alderen 16 ~ 89 (42,8 ± 14,3 (gjennomsnitt ± std)), 255 (79%) kvinner, med GES tiltak på en time, 2 timer, 3 timer og 4 timer etter et standard måltid ved hjelp av en standardisert metode (5) ble i ettertid innhentet ved The University of Kansas Medical Center (KUMC). Studien protokollen ble godkjent av Institutional Review Board (IRB) ved KUMC. Under GES målingen brøkdel av prisen for et forbrukes og den tid det tar for forbruket ble målt. Individer med uvanlig prosent måltid fortært (f.eks < 20% av måltidet) /forbruk tid (f.eks > 30 minutter) ble ekskludert. Alle pasientene ble enten henvist med mistanke gastroparese eller etterforsket for annet på grunn av selv rapporterte symptomer som kvalme, fylde, tidlig metthetsfølelse, oppkast og oppblåsthet. Basert på samlet vurdering, i tillegg til time GES tiltak, studie leger diagnostisert 197 (62%) av de 320 pasientene med gastroparese som den primære årsaken til ovennevnte kliniske symptomer og deres sykehusbesøk. Til tross for lignende medisinske erfaringer, andre enn gastroparese sykdommer anses som hoveddiagnoser for de resterende 123 pasienter. ble funnet ingen signifikant forskjell i gjennomsnittlig alder (p = 0,12, ved t-test) og kjønn (p = 0,99, ved χ 2-test) mellom grupper med og uten gastroparese. For hver pasient, ble magetømmingen scintigrafi utført på morgenen etter en natts faste med prokinetics stoppet i minst 3 dager. Den standardisert metode for ventrikkeltømming består av tilsvarende to eggerøre (egg erstatning) merket med 99m Tc svovel-kolloid, 2 brødskiver med syltetøy og 4 oz av vann med en total kaloriverdi på 255 kcal. Forfra og bakfra i magen ble tatt umiddelbart etter spising, og deretter hver time i 4 timer [28].
Resultater
ved gjentatt måling av magetømmingen, prosent retensjoner av isotopen i magen ved en-h, 2-H, 3-H og 4-t etter måltid avtok med tiden og var sterkt korrelert, spesielt for menn, og for pasienter med gastroparese. Spearman korrelasjonskoeffisient varierte fra 0,34 (s < 0,001) mellom 1-h og 4-h for pasienter uten gastroparese til 0,93 (p < 0,001) mellom 3-H og 4-h for pasienter med gastroparese. Totalt sett er fordelingen i prosent oppbevaring avvek fra normal, med de to første timeverdier forvrenger mot den nedre enden, og de andre to timer forvrenger mot den høyere enden (figur 1). Figur 1 Prosent gastrisk retensjon ved 1-H, 2-H, 3-H og 4-t etter måltid for tilfellet (grønn) versus kontroll (grå). 1-h-c, 2-h-c, 3-h-c, representerer 4-h-c prosent gastrisk tømming (GE) ved 1-H, 2-H, 3-H og 4-t etter måltid hos pasienter diagnostisert med gastroparese; Whisker representerer 70% interkvartile området
. Diagnostiske krefter av LDA og DF tilnærming
Times tiltak på tre-h og 4-h ble tidligere rapportert som har den beste diagnoseverktøy, vi kontras sitt beste lineær kombinasjon av både LDA ( Figur 2) og DF tilnærminger (tabell 1). Først estimerte vi AUC for de to målingene sammen med optimal koeffisienten for deres beste lineær kombinasjon og terskelverdiene for lineær kombinasjon poengsum på 0,7, 0,8 og 0,9 følsomhetsnivåer av både LDA og DF tilnærminger for alle, men en av 320 fag. Den optimale koeffisient, sammen med de tre terskelverdier ble deretter påført på den venstre ut faget. Ved å sammenligne de terskelverdiene med den beregnede lineær kombinasjon score, ble det spådd gastroparetic status for den venstre ut emnet registrert. Satsene for falsk negative og falske positive ble oppnådd ved å gjenta knytningsprosess for alle 320 fag. Deretter ble en boks-Cox kraft transformasjon anvendes og det samme analysen ble gjentatt for de transformerte dataene. Figur 2 mottakerens bruks Karakteristisk (ROC) kurve for time prosent oppbevaring ved 2-h, 3-h, 4-h, og deres beste lineær kombinasjon. Arealet under kurven (AUC) økt fra 2-h til 4 timer og maksimert med den beste lineære kombinasjon av alle tre målinger hver time.
Tabell 1 Parameter anslag (areal under kurven (AUC) og koeffisienten for beste lineære kombinasjon ) med Fisher lineær diskriminant analyse (LDA) og Distribusjon Gratis (DF) nærmer
4-h
3-h
Lineær kombinasjon DF
Lineær kombinasjon LDA
Raw
Tran
Raw
Tran
α
Raw
α
Tran
α
Raw
α
Tran
Mean
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.681
0.834
0.055
0.881
STD
0.002
0.001
0.002
0.002
0.00
0.001
0.00
0.001
0.032
0.002
0.002
0.001
Median
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.679
0.833
0.055
0.880
Range
0.013
0.009
0.011
0.009
0.00
0.008
0.00
0.008
0.284
0.012
0.017
0.009
Merk: Rå står for AUC for måling i original skala;
Tran representerer AUC for måling i transformert skala,
α er koeffisienten for den beste lineær kombinasjon for måling på tre-timer etter måltidet
beste lineær. kombinasjoner av de to målingene hver time øket diagnostisk kraft av dens enkelte deler av begge metoder (tabell 2), men gevinsten var begrenset, 3,9% for DF, og 0,4% for LDA tilnærming. Som forventet, Box-Cox strøm transformasjon på individuelle markører forbedret diagnose strøm ved den beste lineære kombinasjon med LDA tilnærming med 4,7% enn den til den rå measures.Table 2 False klassifikasjoner (%) med knytningskryssvalidering av Fishers Lineær diskriminant Analysis (LDA) og Distribusjon Gratis (DF) nærmer
4-h DF
Lineær kombinasjon DF
Lineær kombinasjon LDA
0,7
24 (19,5%)
59 ( 30,0%)
16 (13,0%)
59 (30,0%)
15 (12,2%)
58 (29,4%)
15 (12,2%)
64 (32,3% )
0,8
37 (30,1%)
39 (19,8%)
21 (17,1%)
40 (20,3%)
21 (17,1%)
40 ( 20,3%)
20 (16,3%)
46 (23,4%)
0,9
60 (48,8%)
21 (10,7%)
27 (21,9%)
23 (11,7%)
28 (22,8%)
20 (10,2%)
27 (22,0%)
22 (11,2%)
Obs: modellen spådd sykdomsstatus (1 for ja, 0 for nei);
y
: diagnostisert sykdomsstatus (1 for ja, 0 for nei)
med rådata, forskjellene i summen av falske positive og falske negative priser for de beste. lineære kombinasjoner var 0,2%, 1,6% og -6,5% mellom DF og LDA nærmer på 0,7, 0,8, og 0,9 følsomhetsnivåer. Mens de falske negative priser ved LDA tilnærmingen viste store avvik fra det som tilsvarer de forhåndsinnstilte terskelnivåer (≤3.0%), de av DF tilnærming er relativt tett (≤ ± 0,2%).
Data transformasjon forbedret diagnostisk makt av de beste lineære kombinasjoner for både LDA og DF tilnærminger ved å redusere summen av falske negative og falske positive. Reduksjonene er 2,2%, 2,8%, 13,8% og -0,9%, -1,1%, 20,1% for DF og LDA tilnærminger, henholdsvis. Interessant, den største forbedringen i diagnostisk makt er på høyere nivå av følsomhet for begge tilnærminger.
Diagnostiske krefter med CART tilnærming
Syv avgjørelse tre modeller, inkludert full modell (4 timemålinger sammen med pasientens alder), kombinasjoner av 2-H og 4-H, 3-H og 4-H, sammen med hver målingene hver time, ble optimalisert gjennom tre-beskjæring med minimumsstørrelse for den siste noden av 10 emner [26]. For alle eneste gang punkt modeller, prosent retensjon ved 4-h har den største AUC av 0,865, etterfulgt av 3-H, 2-h, og en-h, henholdsvis (tabell 3). Satsen for falsk diagnose av beslutningstre modell med 4-h er 14,4% (28 av 123 for pasienter uten gastroparese, og 18 ut av 197 for de med gastroparese), mindre enn halvparten av de som ville bli feilaktig diagnostisert av 1- t og 2-t punkter, og 37% ((73-46) /73) er mindre enn -at 3-timer. Inkludert 2-t eller 3-h sammen med 4-t med beslutningstreet ikke øke antallet av korrekte diagnoser enn ved anvendelse av 4-t alene som angitt ved knytningskryssvalidering. Disse skiller seg fra resultater oppnådd fra LDA og DF tilnærminger, hvori den lineære kombinasjon av 3-H og 4-H viste svak forbedring i forhold til anvendelse av 4-t alene. Men gjorde beslutningstre modell med enten 4-h alene eller kombinasjonen med 2-h eller 3-h ikke lide i diagnostikk sammenlignet med sitt motstykke modeller identifisert med enten LDA eller DF tilnærming, uavhengig av datatransformasjon. Den CART-modellen ved hjelp av alle fire time GES tiltak sammen med pasientens alder var veldig interessant. For kriteriene for ventrikkelretensjon > 10% ved 4-h og < 53% ved 2-h, pasienter > 47.5 år var nesten to ganger mindre sannsynlighet for å ha gastroparese (sannsynlighet = 0,44) som de med alder < 47.5 (sannsynlighet = 0,85) .table 3 falske klassifikasjoner (%) med knytningskryssvalidering av optimalisert klassifisering og regresjon treet (CART) modeller
1-h
2-h
3-h
4-h
2-h + 4-h
3-h + 4-h
4-h + 3-h + 2-h + 1-h + Age
76 (61,8%)
28 (22,8%)
29 (23,6%)
28 (22,8%)
28 (22,8%)
28 (22,8%)
26 (21,1%)
24 (12,2%)
69 (35,0%)
44 (22,3%)
18 (9,1%)
18 (9,1%)
18 (9,1%)
18 (9,1%) Total Feildiagnostisering
100 (31,3%)
97 (30,3%)
73 (22,8%)
46 (14,4 %)
46 (14,4%)
46 (14,4%)
44 (13,8%)
AUC For
Optimalisert Model 0,724
0,753
0,825
0,867
0,865
0,858
0,881
Note:: modellen spådd sykdomsstatus (1 for ja, 0 for nei);
y
: diagnostisert sykdomsstatus (1 for ja, 0 for ingen ).
diskusjon
lineære kombinasjoner av diagnostiske markører oppnådd ved LDA eller DF tilnærming vanligvis føre til høyere diskriminere makter (større AUC) enn med sine individuelle komponenter. En simulering studie (resultater ikke vist her) antydet at jo sterkere korrelasjonen mellom individuelle markører, jo mindre økning i AUC av deres lineær kombinasjon. Den potensielle gevinsten i diagnostisk makt, men avtar når korrelasjonen mellom enkelt markører øke opp til 0,7 og oppover. Effektiviteten av å bruke en lineær kombinasjon avtar med økningen i størrelsen av misforhold i kovariansmatriser mellom de syke og kontrollgruppene.
Små prøvestørrelser fører til store variasjoner i optimale koeffisienter for beste lineære kombinasjon og den tilsvarende AUC, spesielt for LDA tilnærming. Som utvalgsstørrelsen øker, optimale koeffisienter og AUC ved LDA eller DF metoder kan eller ikke kan nærme seg hverandre, avhengig av fordelingen av enkeltmarkører.
Marker verdier normal
Når markøren verdiene er multivariat normal, de beregninger gjort av LDA tilnærming er svært nær den for de DF-metoden med hensyn til AUC, optimale koeffisienter, og den diagnostiske kraft som indikert ved simulering. Med normal fordeling og tilstrekkelig utvalgsstørrelse, de to første øyeblikk fange markørens plassering og omfang parameter med liten variasjon. I slike tilfeller har LDA tilnærming fordelen i å spare beregning tid (mer enn 100 ganger mindre) uten lidelse i prediktiv kraft enn DF tilnærming. Likevel, LDA kan ikke utkonkurrere DF så lenge søker rutenett for optimal koeffisient med DF inneholder punktestimatet ved LDA. Med andre ord, den begrensning med DF er i beregningen, snarere enn metodologi.
Markør verdier ikke normal
Når markørverdier avviker fra normalfordeling, DF tilnærming alltid fører til høyere AUC for den beste lineære kombinasjon hvis søkingen grid for optimale koeffisienter er greit nok. Nedgraderingen ytelse med LDA tilnærming er et direkte resultat av å bruke de midler som er forutinntatt på grunn av unormalt. Eksponensiell fordeling, for eksempel en tendens til å ha en lang hale med en høy grad av skjevhet, som fører til en middelverdi med en positiv forspenning. Som en følge av avvikene for markørene er oppblåst og AUC har en tendens til å være mindre. Enda viktigere, den beste lineær kombinasjon oppnådd med LDA tilnærmingen har en tendens til å overvurdere den falske negative rente og undervurderer falsk positiv rate på lavere følsomhet nivå (tabell 2), og gjøre akkurat det motsatte på høyere følsomhetsnivå. Tvert imot, er den beste lineær kombinasjon av DF tilnærming mindre påvirket av ekstreme verdier og har en tendens til å ha høyere diagnostisk makt og samtidig opprettholde de forhåndsinnstilte følsomhetsnivåer. Dette er viktig fordi det i praksis, utgjør en fast feilaktig negative klassifiseringen en kritisk grense av toleranse i diagnostisk medisin. Utover en slik grense, vil innsatsen for tap-nytte-forholdet øker, eller i det minste, er den diagnostiske avgjørelsen mindre kostnadseffektivt.
Effekten av data transformasjon
Effektiv datatransformasjon forbedrer normal passform og dermed parameterestimering av LDA tilnærming, men om denne forbedringen vil holde i nye data som ikke er inkludert for parameterestimering er fortsatt uklart. Kryssvalidering med gastroparese data indikerte at makt transformasjon økte AUC og stabilisert parameterestimater i treningssett, og at slike gevinster vil slå ut i høyere diagnostisk makt i testsett (tabell 2). Datatransformasjon lukket gapet i diagnostiske makt mellom de beste lineære kombinasjoner av LDA og DF tilnærminger med kliniske data. Interessant, DF tilnærmingen viste en konsekvent forbedring med transformasjon tvers av alle nivåer av sensitivitet på 0,7, 0,8 og 0,9. Trenden med LDA tilnærmingen er ikke så klart. En årsak kan være den prosentvise mage retentions målt til 3-h og 4-h er så skjev at makt transformasjon er ikke nok til å sette målingene på nesten normalfordeling.
Optimalisere den diagnostiske makt ved GES tiltak med CART modell
undersøkelser
undersøkelser
Other Languages