Stomach Health > mave Sundhed >  > Stomach Knowledges > undersøgelser

Optimering af diagnostiske magt med ventrikeltømning scintigrafi på forskellige tidspunkter

Åbent Peer Review

Denne artikel har Open Peer anmeldelse rapporter til rådighed.

Hvordan fungerer Open Peer arbejde anmeldelse?
Optimering af diagnostiske magt med ventrikeltømning scintigrafi på flere tidspunkter
Abstrakt
Baggrund
Gastric Tømning Scintigrafi (GES) med mellemrum over 4 timer efter et standardiseret radioaktivt mærket måltid er almindeligvis betragtes som den gyldne standard til diagnosticering gastroparese. Formålet med denne undersøgelse var: 1) at undersøge den bedste tidspunkt og den bedste kombination af forskellige tidspunkter til diagnosticering gastroparese med gentagne GES foranstaltninger, og 2) at kontrast og cross-validere Fishers Linear Discriminant Analysis (LDA), en rang baseret Distribution Gratis (DF) tilgang, og klassificering og regression Tree (CART) model.
Metoder
alt 320 patienter med GES foranstaltninger på 1, 2, 3, og 4 timer (h) efter en standard måltid ved hjælp af en standardiseret metode blev efterfølgende opsamlet. Areal under Receiver Operating Karakteristisk (ROC) kurve og hastigheden af ​​forkert klassificering gennem slingrebremse krydsvalidering blev brugt til model sammenligning.
Resultater
Grundet stærk korrelation og en abnormitet i distributionen af ​​data, ingen væsentlig forbedring i diagnostisk magt blev fundet med den bedste lineære kombination af LDA tilgang selv med transformation af data. Med DF metode, den lineære kombination af 4-h og 3-h forøgede arealet under kurven (AUC) og faldt antallet af falske klassifikationer (0,87; 15,0%) med de individuelle tidspunkter (0,83, 0,82, 15,6%, 25,3 %, for 4-h og 3-h, henholdsvis) ved en højere følsomhed niveau (følsomhed = 0,9). Den CART model med 4 time GES målinger sammen med patientens alder var den mest præcise diagnostiske værktøj (AUC = 0,88, forkert klassificering = 13,8%). Patienter, der har en 4-h gastrisk retention værdi >. 10% var 5 gange mere tilbøjelige til at have gastroparese (179/207 = 86,5%) end dem med ≤10% (18/113 = 15,9%)
Konklusioner
med en blandet gruppe af patienter enten henvist med mistanke gastroparese eller undersøgt af andre grunde, at CART model er mere robust end LDA og DF tilgange, stand til at rumme kovarianteffekter effekter og kan generaliseres til cross institutionel anvendelse, men kunne være ustabil, hvis prøvestørrelse er begrænset.
Baggrund
gastric tømning scintigrafi med mellemrum over 4 timer efter et standardiseret måltid er almindeligvis betragtes som den gyldne standard for måling af gastrisk tømning gange. I praksis er et forenklet timeløn mål for resterende maveindhold bruges til diagnosticering af gastroparese defineret som forsinket gastrisk Tømning (GE) i fravær af mekanisk obstruktion [1, 2]. Teknikken foranstaltninger radioaktivt mærket mad er tilbage i maven hver time efter patienten indtager et standardiseret måltid [3] som en indikator for forsinket GE. På grund af forskelle i fødevarer anvendes, anvendte teknikker og endpoints målt med GES, analyse og fortolkning af resultaterne varierer blandt institutioner [4]. De fleste tidligere undersøgelser har vist, at forsinket ventrikeltømning kan bedst angivet med gastrisk retention af > 10% ved 4 timer efter måltid, som blev etableret som den 95-percentilen i gastrisk retention med raske frivillige gennem et multicenter undersøgelse [5, 6] . Som altid, en fordeling baseret diagnostisk beslutning er vilkårlig og kan uundgåeligt fremkalde fejl på grund af misklassifikation. Det forlyder, at den forenklede tilgang har en specificitet på 62% og en sensitivitet på 93% [7]. Andre bruger opbevaring procent ved 2-h som de rutinemæssige kliniske målinger af GES [8], hvilket tyder på GES ved 2-h eller 3-h kan være den bedste individuelle tidspunkt med højere diagnostisk magt. Dog kan procent gastrisk tilbageholdelser på forskellige tidspunkter også være underlagt patientens alder og køn [5]. Den manglende standardisering i at gennemføre GES sammen med forskelle i kvantitativ analyse anvendes på forskellige institutioner kan begrænse den kliniske anvendelighed af testen, og præsenterer problemer, hvis cross institutionelle data skal evalueres. I 2008 på vegne af den amerikanske Neurogastroenterology og motilitet Society og Society of Nuclear Medicine, forskere fra 13 amerikanske medicinske institutioner i fællesskab udsendt en konsensus erklæring til standardisering af GES på tværs af institutioner [4]. Desuden blev spørgsmål, der kræver yderligere undersøgelse identificeret af den konsensus, der omfatter: 1) anvendelse af 3-h i forhold til 2- og 4-h resultater for detektering af forsinket GE; og 2) brug af flere tidspunkter (2- og 4-h) versus enkelt 2- eller 4-h-værdier for yderligere forståelse af den kliniske betydning af uoverensstemmende resultater mellem 2- og 4-h scanninger.
Metode om brug forskellige diagnostiske markører til at detektere sygdomme eller vurdere sundhedsmæssige risici har været en aktiv inden for forskning [9-11]. Med de hurtige genomiske og proteomiske teknologier, har fokus på biomarkør-baseret sygdom afsløring og risikovurdering nu flyttet fra en enkelt biomarkør til et panel af biomarkører da forskellige markører kan være følsomme over for forskellige aspekter af en sygdom [12]. Det hævdes, at sammenlignet med en enkelt klinisk eller genetisk markør, kan et panel af flere markører indeholde en højere grad af diskriminerende oplysninger, navnlig på tværs af store heterogene patientgrupper og for komplekse flertrins sygdomme. Dette er vigtigt, fordi brug af flere markører samtidigt kan føre til en ny diagnostisk foranstaltning med højere følsomhed [11].
Når flere markører er kontinuerlig og normalt fordelt, Fishers LDA giver den bedste lineære kombination, der maksimerer følsomheden over hele specificitet området ensartet under den flerdimensionale normalfordeling model [11]. Når markør værdier afviger fra det normale, kan en Box-Cox power transformation anvendes til at forbedre den normale pasform [13]. Denne tilgang er blevet fundet effektiv i at estimere AUC og ROC kurver, hvis de underliggende sande fordelinger, enten på den originale eller på en transformeret skala, er tæt på flerdimensionale normalfordeling [11]. Ellers kan en rang baseret fordeling fri tilgang anvendes. De teoretiske aspekter af den bedste lineære kombination for biomarkører er godt rapporteret [[9, 11, 14-19] og [20]]. Fishers LDA er lettere at beregne, mens DF tilgang er mere robust over for afvigelse fra normalfordeling, men er beregningsmæssigt prohibitiv, hvis mere end to markører er involveret, [19]. Vi brugte parameterestimaterne fra LDA som udgangspunkt for grid søgning med DF, hvis markør plads går ud over den bilaterale. Den CART model, på den anden side, giver en anden tilgang til at optimere den diagnostiske strøm, når markører er multi-dimensional [21-23]. Snarere end at skabe en ny diagnostisk foranstaltning som LDA eller DF, CART bruger en sekventiel proces for at identificere sæt prediktorvariabler, i deres oprindelige skala, der bedst differentiere grupper blandt resultatet variabel af interesse. Det er især nyttigt, når der er mange forudsigelsesvariable, der er stærkt korrelerede. Det er beregningsmæssigt mindre intensiv og let at fortolke, men kan være ustabil, hvis modellen er utilstrækkeligt uddannet med begrænsede data.
Fleste tidligere undersøgelser fokuserer på at udlede den bedste kombination af markører, der maksimerer AUC for motiver, hvis sygdomsstatus var kendt [11 , 14-20]. Det er uklart, om det diagnostiske strøm til en sådan kombination strækker sig til befolkningen med kendte markør værdier, men ukendt sygdomsstatus eller til befolkningen, hvis markøren værdier anvendes ikke til at udlede de diagnostiske parametre. Med et standardiseret måltid (se Materialer og metoder) og timeløn GES teknik (fem 2-minutters imaging sessioner) i løbet af fire timer periode, der kræves mindre kamera tid, mens resultaterne kan være reproducerbar fra hospital til hospital. Dette papir evaluerer de statistiske muligheder, der optimerer den diagnostiske magt med GES foranstaltninger på et par tidspunkter. Hjælp af den primære klinisk diagnose, defineret ved symptomer som kvalme, opkastning, tidlig mæthed, postprandial oppustethed, abdominal ubehag og smerter, foruden bevis for forsinket gastrisk tømning i fravær af mekanisk gastrisk forretningen obstruktion, som reelle status gastroparese denne undersøgelse fokuserer på at finde parametrene for den bedste lineære kombination af GES på forskellige tidspunkter med træningsdata, så undersøger og cross-validerer sine præstationer i test data, der ikke blev brugt til at udlede modellen.
Metoder
Receiver Operating karakteristik (ROC) og arealet under kurven i særdeleshed er en enkel og meningsfuld foranstaltning til at vurdere nytten af ​​et diagnostisk markør (er) [10]. Gennem dette papir, er ROC og AUC bruges til at sammenligne på tværs af forskellige metoder og forskellige modeller for den bedste diagnostiske magt gastroparese. Summen af ​​falsk positive og falsk negative diagnoser over hele prøven blev brugt til at kontrastere den diagnostiske magten mellem LDA, DF og CART gennem lommekniv (tage en ud) krydsvalidering.
Fishers Linear Discriminant Approach (LDA)
Lad w
ij
repræsenterer jeg
th
markør værdi af j
th
emne i den syge gruppe; og v
ik
være den jeg
th
markør værdien af ​​k
th
emne i kontrolgruppen; hvor jeg
= 1, ..., s; j
= 1, ..., m; og k
= 1, ..., n.
Antag X og Y er vektorer for markør værdier med flerdimensionale normalfordeling for syge og kontrolgrupperne henholdsvis derefter (1) Koefficienten vektor, α
s × 1, for den bedste lineær kombination af det kombinerede markør vektoren fra de syge og kontrolgrupper under ROC kriterier er: (2) AUC under ROC-kurven er: (3) for, Φ betegner standard kumulative . normalfordeling funktion
specificitet (F a (c)) og følsomhed (H a (c)) er: (4) (5) Rank baseret Distribution Gratis tilgang (DF)
Under rang baseret fordeling fri tilgang [19], kan AUC beregnes som Mann-Whitney U statistik [24]: (6) Bemærk, til kontinuerlig distribution, Pr (jeg
= 1/2) = 0.
Hvis w
ij
er jeg
th markør værdi for j
th emne i den syge gruppe; v
ik
er jeg
th markør værdi for k
th emne i kontrolgruppen; i, j, k, m
, og n
som defineret i det foregående afsnit; AUC

) er arealet under kurven ved fordeling fri tilgang med optimal koefficient vektor (α). Da ROC er invariant at monoton stigende transformation, de koefficient vektor α
i både LDA og DF tilgange kan skaleres som (1, β 2 /β 1, β 3 /β 1, ... β i /β 1), hvor β i /β 1 repræsenterer vægten for jeg
th markør værdi i forhold til marker 1 [19].
Klassificering og Regression Trees (CART) model
modsætning LDA eller DF, CART metode identificerer sæt af prædiktorer fra alle variabler, der bedst differentiere klasser i resultatet af interesse i en sekventiel proces. Ved hvert trin (node), CART algoritme identificerer først den bedste forudsigelse fra alle kandidatlande variabler og derefter søger gennem alle værdier for bedste forudsigelse, men kun bruger én cutoff punkt at opdele prøven i knude i to underkategorier grene. Den søger derefter gennem alle prediktorvariabler og identificerer den bedste cutoff point fra den bedste prædiktor inden for hver sub-gren, og gentager processen, indtil en række kriterier, såsom en minimal varians eller et minimum gruppe størrelse, i alle terminal noder er opfyldt. Ved hvert knudepunkt, søger CART at klassificere prøven i grupper, således at maksimal ensartethed underordnede noder er nået. Når en terminal node er nået, modellen giver sandsynligheden for at tilhøre en bestemt kategori for alle øvrige fag, der falder ind i denne node. I praksis er den mindste node størrelse normalt sat til 10% af det kognitive prøve at undgå potentielt løbet Modeltilpasnings sådan at den endelige afgørelse træet er mere tilbøjelige til at være nyttige til klassificering populationer med samme karakteristika som den for indlæring prøve men var ikke bruges til at udlede CART model. I modsætning til LDA fremgangsmåde kan CART være særligt nyttigt, når sammenligningstabeller mønstre blandt prediktorvariabler ikke er konsistente over hele området, fordi det ikke er nødvendigt for den samme variabel som værende optimal for alle branche knudepunkter i hele træet [22].
Parameter estimation
for LDA tilgang, skrev vi et SAS /IML program [25] for at beregne middelværdien (m), variansen (S) for syge og kontrolgrupper, og alle parameterestimaterne er beskrevet i metoden sektion. Første, koefficient vektor α
, AUC for den lineære kombination samt for individuelle markører, blev opnået med ligningerne (2) og (3) fra træningsdata. Derefter blev koefficienten α
anvendes på de tilsvarende testdata for at opnå den lineære kombination score. Tre tærskelværdier svarer til følsomhedsniveauer ved 0,7, 0,8, og 0,9 for den lineære kombination score blev opnået med gastroparese data ved hjælp i ligning (5). Hver tærskelværdien blev brugt på de udeladt data til at klassificere sagen til enten syge eller ikke-syge gruppe. Den forudsagte status blev derefter kryds tabuleret med den kendte sygdom kategori.
DF tilgang startede med et vilkårligt udgangspunkt og derefter gitteret søgt efter koefficienterne som maksimerer Mann-Whitney U statistik med træningsdata i de følgende trin.
1) en lineær kombination score for hver observation blev opnået ved at multiplicere markør vektor X med en begyndende koefficient vektor, α
(1, α
).
2) AUC svarende til koefficienten vektor α
beregnes med ligning (6).
3) Gentag de to første trin for alle mulige koefficient vektor og samle den tilsvarende AUC og α
.
4) Vælg den koefficient, der maksimeret AUC og identificere kritiske linearkombination score værdi på 0,7, 0,8, og 0,9 følsomhed niveauer.
5) Anvendelse af koefficienten fra trin 4 til testdata for at opnå den bedste lineære kombination score.
6) Brug hver kritisk værdi fra trin 4 i testdata til at forudsige hvert enkelt tilfælde til enten syge eller ikke-syge gruppe, derefter krydse tabulate med den kendte sygdom kategori.
for CART model, vi brugte TREE pakke inden R [26] miljø for hver af fire timeløn foranstaltninger, og deres kombination sammen med patientens alder og køn til at identificere den bedste model. Cross-validering med en mindstestørrelse på 10 emner for hver enkelt terminal node blev brugt til at optimere beslutningstræet model ved hjælp af alle observationer [27]. AUC for hver optimeret beslutningstræ blev beregnet for at sammenligne på tværs af alle modeller. Derefter blev en observation udtaget fra hele prøven, og de øvrige fag anvendes til at opbygge beslutningstræet, som igen blev anvendt til at forudsige sygdomsstatus af venstre ud observation. Ydelse for hver beslutning træ blev sammenfattet med det totale antal forkerte forudsigelser på tværs af hele prøven.
Gastroparese data
alt 320 diagrammer fra patienter i alderen 16 ~ 89 (42,8 ± 14,3 (gennemsnit ± std)), 255 (79%) kvinder, med GES foranstaltninger på 1 time, 2 timer, 3 timer og 4 timer efter en standard måltid ved hjælp af en standardiseret metode (5), blev efterfølgende opsamlet ved The University of Kansas Medical center (KUMC). Undersøgelsen protokol Den blev godkendt af Institutional Review Board (IRB) ved KUMC. Under GES måling, den del af måltidet indtages, og den tid det tager for forbruget blev registreret. Individer med usædvanligt procent måltid indtaget (fx < 20% af måltidet) /forbrug tid (fx > 30 minutter) blev udelukket. Alle patienter blev enten henvist med mistanke gastroparese eller undersøgt af andre grunde på grund af selvstændige rapporterede symptomer såsom kvalme, oppustethed, tidlig mæthed, opkastning og oppustethed. Baseret på den samlede evaluering, foruden time GES foranstaltninger, undersøgelsens læger diagnosticeret 197 (62%) af de 320 patienter med gastroparese som den primære årsag til ovennævnte kliniske symptomer og deres hospitalsbesøg. Trods lignende medicinske oplevelser blev andre end gastroparese sygdomme betragtes som de primære diagnoser for de resterende 123 patienter. Ingen signifikant forskel i den gennemsnitlige alder (p = 0,12 ved t-test) og køn (p = 0,99 ved χ 2 test) blev fundet mellem grupperne med og uden gastroparese. For hver patient blev mavetømning scintigrafi udført om morgenen efter en nats faste med prokinetiske midler stoppet i mindst 3 dage. Den standardiserede metode til ventrikeltømning består af modværdien af ​​to røræg (æg stedfortræder) mærket med 99mTc svovl-kolloid, 2 stykker af skål med gelé og 4 ounce af vand med en samlet brændværdi 255 kcal. Anterior og posterior billeder af maven blev udtaget umiddelbart efter spisning, og derefter hver time i 4 timer [28].
Resultater Salg under gentagen måling af gastrisk tømning, procent tilbageholdelse af isotopen i maven ved 1-h, 2-H, 3-H, og 4-h efter måltid faldt med tiden og blev stærkt korreleret, især for hanner og patienter med gastroparese. Spearman korrelationskoefficient varierede fra 0,34 (p < 0,001) mellem 1-h og 4-h for patienter uden gastroparese til 0,93 (p < 0,001) mellem 3-H og 4-h for patienter med gastroparese. Samlet set fordelingen i procent retention afveg fra normale, med de første to timeværdier skråstilling mod den nedre ende, og den anden to timer skråstilling mod den højere ende (figur 1). Figur 1 Procent gastrisk retention ved 1-h, 2-H, 3-H og 4-t efter måltid til tilfælde (grøn) versus kontrol (grå). 1-h-c, 2-h-c, 3-h-c, 4-h-c repræsenterer procent gastrisk tømning (GE) ved 1-h, 2-H, 3-H og 4-t efter måltid for patienter diagnosticeret med gastroparese; Whisker udgør 70% interkvartile område.
Diagnostiske beføjelser ved LDA og DF tilgang
Timeløn foranstaltninger på 3-h og 4-h blev tidligere rapporteret at have den bedste diagnostiske nytte, vi kontrast deres bedste lineære kombination af både LDA ( figur 2) og DF tilgange (tabel 1). Først, vi skønnede AUC for de to målinger sammen med den optimale koefficient for deres bedste lineær kombination, og tærskelværdierne for den lineære kombination score på 0,7, 0,8, og 0,9 følsomhed niveauer af både LDA og DF tilgange for alle, men en ud af 320 emner. Den optimale koefficient, sammen med de tre tærskelværdier blev derefter påført på den venstre ud emne. Ved at sammenligne tærskelværdierne med den beregnede linearkombination score, blev forudsagt gastroparetic status for det udeladt emne registreret. Satserne for falsk negative og falsk positive blev opnået ved at gentage lommekniv proces for alle 320 emner. Derefter blev en Box-Cox power transformation anvendt, og den samme analyse blev gentaget for de transformerede data. Figur 2 Modtagers Betjening Karakteristisk (ROC) Kurve for time procent retention ved 2-h, 3-h, 4-h, og deres bedste lineær kombination. Areal under kurven (AUC) steg fra 2-h til 4-h og maksimeret med den bedste lineære kombination af alle tre time- målinger. Salg Tabel 1 Parameterestimater (areal under kurven (AUC) og koefficienten for bedste lineær kombination ) med Fishers Linear Discriminant Analysis (LDA) og Distribution Gratis (DF) nærmer

4-h
3-h
Linear kombination DF
Lineær kombination LDA

Raw

Tran

Raw

Tran

α

Raw

α

Tran

α

Raw

α

Tran

Mean
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.681
0.834
0.055
0.881
STD
0.002
0.001
0.002
0.002
0.00
0.001
0.00
0.001
0.032
0.002
0.002
0.001
Median
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.679
0.833
0.055
0.880
Range
0.013
0.009
0.011
0.009
0.00
0.008
0.00
0.008
0.284
0.012
0.017
0.009
Bemærk: Raw står for AUC for måling i original målestok
Tran repræsenterer AUC for måling i transformerede skala,
α er koefficient for den bedste lineære kombination til at måle ved 3-timer efter måltid
bedste lineære. kombinationer af de to timemålingerne steg den diagnostiske magt deres enkelte bestanddele ved begge fremgangsmåder (tabel 2), men gevinsten var begrænset, 3,9% for DF, og 0,4% for LDA tilgang. Som forventet, Box-Cox power transformation på individuelle markører forbedrede diagnostiske magt ved den bedste lineære kombination med LDA tilgang med 4,7% end den rå measures.Table 2 Falske klassifikationer (%) med lommekniv krydsvalidering af Fishers Lineær Discriminant Analyse (LDA) og Distribution Gratis (DF) nærmer
Kriterier
3- h DF
4-h DF
Lineær kombination DF
Lineær kombination LDA
0,7
24 (19,5%)
59 ( 30,0%)
16 (13,0%)
59 (30,0%)
15 (12,2%)
58 (29,4%)
15 (12,2%)
64 (32,3% )
0,8
37 (30,1%)
39 (19,8%)
21 (17,1%)
40 (20,3%)
21 (17,1%)
40 ( 20,3%)
20 (16,3%)
46 (23,4%)
0,9
60 (48,8%)
21 (10,7%)
27 (21,9%)
23 (11,7%)
28 (22,8%)
20 (10,2%)
27 (22,0%)
22 (11,2%)
Bemærk:: model forudsagde sygdomsstatus (1 for ja, 0 for ingen)
y
: diagnosticeret sygdomsstatus (1 for ja, 0 for ingen)
med de rå data, forskellene i summen af ​​falsk positive og falsk negative priser for den bedste. lineære kombinationer var 0,2%, 1,6%, og -6,5% mellem DF og LDA tilgange på 0,7, 0,8, og 0,9 følsomhedsniveauer. Mens de falsk negative ved LDA tilgang viste stor afvigelse fra det, der svarer til de forudindstillede tærskelværdier (≤3.0%), dem, som DF tilgang er relativt tæt (≤ ± 0,2%).
Data transformation forbedret den diagnostiske magt af de bedste lineære kombinationer for både LDA og DF tilgange ved at formindske summen af ​​falsk negative og falsk positive satser. Reduktionerne er 2,2%, 2,8%, 13,8%, og -0,9%, -1,1%, 20,1% for DF og LDA tilgange, henholdsvis. Interessant, den største forbedring i diagnostisk magt er på det højere niveau af følsomhed for begge tilgange.
Diagnostiske beføjelser med CART tilgang
Syv beslutning træ modeller, herunder den fulde model (4 time målinger sammen med patientens alder), kombinationerne af 2-H og 4-h, 3-H og 4-h, sammen med hver timemålingerne blev optimeret gennem beskæring af frugttræer med minimal størrelse ved den endelige node 10 emner [26]. For alle enkelt tidspunkt modeller, procent retention ved 4-h har den største AUC for 0,865, efterfulgt af 3-h, 2-h, og 1-h (tabel 3). Satsen for falsk diagnose beslutningstræ model med 4-h ved er 14,4% (28 ud af 123 for patienter uden gastroparese, og 18 ud af 197 for dem med gastroparese), mindre end halvdelen af ​​dem, der ville være forkert diagnosticeret af 1- h og 2-H punkter, og 37% ((73-46) /73) mindre end den -ved 3-h. Herunder 2-h eller 3-h sammen med 4-h med beslutningstræet øgede ikke antallet af korrekte diagnoser ved at benytte 4-h alene som indikeret ved validering slingrebremse indlæg. Disse afviger fra resultater opnået fra LDA og DF strategier, hvori den lineære kombination af 3-H og 4-h viste lille forbedring i forhold anvendelse af 4-h alene. Men beslutningstræ model med enten 4-h alene eller dens kombination med 2-h eller 3-h ikke lide i diagnoseværktøj i forhold til sine counterpart modeller identificeret med enten LDA eller DF tilgang, uanset transformation data. Den CART model ved hjælp af alle fire timeløn GES foranstaltninger sammen med patientens alder var meget interessant. For kriterierne for gastrisk retention > 10% ved 4-h og < 53% ved 2-h, patienter > 47,5 år var næsten to gange mindre tilbøjelige til at have gastroparese (sandsynlighed = 0,44) som dem med alderen < 47.5 (sandsynlighed = 0,85) .table 3 Falske klassifikationer (%) med lommekniv krydsvalidering ved optimeret klassificering og regression Tree (CART) modeller
Type af Fejldiagnoser
1-h
2-h
3-h
4-h

2-h + 4-h
3-h + 4-h
4-h + 3-h + 2-H + 1-h + Alder

76 (61,8%)
28 (22,8%)
29 (23,6%)
28 (22,8%)
28 (22,8%)
28 (22,8%)
26 (21,1%)
24 (12,2%)
69 (35,0%)
44 (22,3%)
18 (9,1%)
18 (9,1%)
18 (9,1%)
18 (9,1%)
Total Fejldiagnoser
100 (31,3%)
97 (30,3%)
73 (22,8%)
46 (14,4 %)
46 (14,4%)
46 (14,4%)
44 (13,8%)
AUC For Optimeret Model
0,724
0,753
0,825
0,867
0,865
0,858
0,881
Bemærk:: model forudsagde sygdomsstatus (1 for ja, 0 for ingen)
y
: diagnosticeret sygdomsstatus (1 for ja, 0 for ingen ).
diskussion
Lineære kombinationer af diagnostiske markører fremstillet ved LDA eller DF tilgang normalt føre til højere diskriminere beføjelser (større AUC) end med de enkelte bestanddele. En simulering undersøgelse (resultater ikke vist her) viste, at stærkere korrelationen mellem de enkelte markører, jo mindre stigning i AUC ved deres lineære kombination. Den potentielle gevinst i diagnostisk magt, men aftager når korrelationen mellem de enkelte markører stige op til 0,7 og derover. Effektiviteten af ​​at anvende en lineær kombination falder med stigningen i omfanget af misforhold i kovariansmatrixer mellem de syge og kontrolgrupper.
Små stikprøvestørrelser føre til stor variation i optimale koefficienter for bedste lineær kombination og den tilsvarende AUC, især for LDA tilgang. Som eksempler bliver større, optimale koefficienter og AUC med LDA eller DF metoder kan eller ikke kan nærme sig hinanden, afhængigt af fordelingen af ​​de enkelte markører.
Marker værdier normal
Når markør værdier er flerdimensionale normalfordeling, de skøn fra LDA tilgang er meget tæt på den for DF fremgangsmåde med hensyn til AUC, optimale koefficienter, og den diagnostiske effekt som indikeret ved simulering. Med normal fordeling og passende størrelse prøve, de to første øjeblikke fange markør placering og skalaparameter med små variationer. I sådanne tilfælde LDA tilgang har den fordel i at spare beregningstid (mere end 100 gange mindre) uden at lide i prædiktiv effekt end den DF tilgang. Ikke desto mindre kan LDA ikke udkonkurrerer DF, så længe den søgende gitter for optimal koefficient med DF indeholder punktestimatet af LDA. Med andre ord begrænsningen med DF er i beregningen, stedet metodologi. Salg markørværdier ikke normal
Når markør værdier afviger fra normal fordeling, DF tilgang fører altid til højere AUC for den bedste lineære kombination, hvis søgningen gitter for optimal koefficienter er fint nok. Deklasseringen ydeevne med LDA tilgang er et direkte resultat af at anvende de midler, der er forspændt på grund af abnormitet. Eksponentialfordelingen fx tendens til at have en lang hale med en høj grad af skævhed, hvilket fører til en middelværdi med en positiv bias. Som følge heraf varianserne for markører er oppustet og AUC tendens til at være mindre. Endnu vigtigere er, den bedste lineære blanding opnået med LDA tilgang tendens til at overvurdere den falske negative sats og undervurdere den falske positive på det lavere følsomhed niveau (tabel 2), og gøre præcis det modsatte på højere følsomhed niveau. Tværtimod er den bedste lineære kombination af DF tilgang mindre påvirket af ekstreme værdier og har tendens til at have højere diagnostisk magt samtidig med at de forudindstillede følsomhed niveauer. Dette er vigtigt, fordi det i praksis en fast falsk negativ rente repræsenterer en kritisk grænse for tolerance i diagnostisk medicin. Ud over en sådan grænse, vil indsatsen for tab-benefit-forholdet stige, eller i det mindste, den diagnostiske beslutning er mindre omkostningseffektiv.
Effekten af ​​transformation data
Effektiv transformation data forbedrer normal pasform og dermed parameter estimering af LDA tilgang, men om denne forbedring vil holde i nye data, der ikke er omfattet for parameterestimering fortsat uklart. Cross-validering med gastroparese data viste, at magt transformation øget AUC og stabiliseret parameterestimaterne i uddannelse sæt, og, at sådanne gevinster vil resultere i højere diagnostisk magt i test sæt (tabel 2). Data transformation lukket hullet i diagnostisk magten mellem de bedste lineære kombinationer af LDA og DF tilgange med de kliniske data. Interessant, viste DF tilgang en konsekvent forbedring med transformation på alle niveauer af følsomhed på 0,7, 0,8, og 0,9. Tendensen med LDA tilgang er ikke så klar. En årsag kan være de procent gastrisk tilbageholdelser målt ved 3-h og 4-h er så skæv, at magt transformation er ikke nok til at sætte målingerne på næsten normal fordeling.
Optimering den diagnostiske magt ved GES foranstaltninger med CART model
i modsætning til tidligere forskning med normale frivillige, vores undersøgelse bestod med en blandet gruppe af forsøgspersoner enten henvist med mistanke gastroparese eller undersøgt af andre grunde.

Other Languages