Den här artikeln har öppen granskningsrapporterna tillgängliga.
Hur öppen Peer Review arbete?
Optimera diagnostiska kraften med magtömning scintigrafi vid flera tidpunkter Bild Sammanfattning
bakgrund
ventrikeltömningen Scintigrafi (GES) vid intervaller över 4 timmar efter en standardiserad radiomärkt måltid som allmänt betraktas som den gyllene standarden för att diagnostisera gastropares. Målen för denna studie var: 1) för att undersöka den bästa tidpunkten och den bästa kombinationen av flera tidpunkter för att diagnostisera gastropares med upprepade GES åtgärder, och 2) att kontrastera och kors validera Fishers linjära diskriminerande analys (LDA), en rang baserad distribution Gratis (DF) tillvägagångssätt, och klassificering och regression träd (CART) modell.
metoder Review, en totalt 320 patienter med GES åtgärder på ett, två, tre, och fyra timmar (h) efter en standard måltid med en standardiserad metod ades efterhand in. Area under Receiver Operating Characteristic (ROC) kurvan och graden av falska klassificering genom fällkniv korsvalidering användes för modelljämförelse.
Resultat
grund av stark korrelation och en avvikelse i datadistribution, ingen väsentlig förbättring av diagnostik makt hittades med den bästa linjära kombinationen av LDA tillvägagångssätt även med data transformation. Med DF-metoden, den linjära kombinationen av 4-H och 3-h ökade arean under kurvan (AUC) och minskade antalet falska klassificeringarna (0,87; 15,0%) jämfört med en enstaka tidpunkter (0,83, 0,82; 15,6%, 25,3 % för 4-h och 3-h, respektive) vid en högre känslighetsnivå (känslighet = 0,9). Vagnen modell med 4 timme GES mätningar tillsammans med patientens ålder var den mest exakta diagnostiska verktyg (AUC = 0,88, falsk klassificering = 13,8%). Patienter som har en 4-h ventrikelretention värde >. 10% var 5 gånger större risk att ha gastropares (179/207 = 86,5%) än de med ≤10% (18/113 = 15,9%) katalog slutsatser
med en blandad grupp av patienter antingen som avses med misstänkt gastro eller undersökts av andra skäl, är CART modellen mer robust än LDA och DF tillvägagångssätt, kan ta emot kovariateffekter och kan generaliseras för tvär institutionella tillämpningar, men kan vara instabilt om Urvalsstorleken storleken~~POS=HEADCOMP är begränsad.
bakgrund
magtömning scintigrafi i intervaller över 4 timmar efter en standardiserad måltid som allmänt betraktas som den gyllene standarden för mätning av gastrisk tömning gånger. I praktiken är en förenklad per timme mått på rest maginnehåll som används för att diagnostisera gastropares definieras som fördröjd magtömning (GE) i frånvaro av mekanisk obstruktion [1, 2]. Åtgärderna teknik radiomärkt mat kvar i magen med en timmes mellanrum efter patienten intar en standardiserad måltid [3] som en indikator för fördröjd GE. På grund av skillnader i livsmedel som används, tekniker som används och slutpunkter mätta med GES, analys och tolkning av resultaten varierar mellan institutioner [4]. De flesta tidigare studier har visat att fördröjd magtömning kan bäst visas med gastrisk retention av > 10% vid 4 timmar efter måltid, som bildades som 95: e percentilen i gastrisk retention med friska frivilliga genom en multicenterstudie [5, 6] . Som alltid, är en distributions baserade diagnostiska beslut godtycklig och kan oundvikligen framkalla fel på grund av felaktig klassificering. Det har rapporterats att den förenklade metoden har en specificitet på 62% och en känslighet av 93% [7]. Andra använder behåll procent vid 2-h som rutin kliniska mätningar av GES [8], vilket tyder på GES vid 2-h eller 3-h kan vara det bästa enskilda tidpunkt med högre diagnostisk kraft. Emellertid kan procent mag retention vid olika tidpunkter också bli föremål för patientens ålder och kön [5]. Bristen på standardisering i ledande GES tillsammans med skillnader i kvantitativ analys används vid olika institutioner kan begränsa den kliniska nyttan av testet, och presenterar problem om kors institutionella uppgifter måste utvärderas. År 2008, på uppdrag av den amerikanska Neurogastroenterology och rörlighet Society och Society of Nuclear Medicine, forskare från 13 amerikanska medicinska institutioner gemensamt utfärdat ett konsensusuttalande för standardisering av GES över institutioner [4]. Därutöver har frågor som kräver ytterligare utredning identifieras av konsensus som omfattar: 1) användning av 3-h jämfört med 2- och 4-h resultat för detektion av försenad GE; och 2) användning av flera tidpunkter (2- och 4-H) kontra enstaka 2- eller 4-h-värden för ytterligare förståelse av den kliniska betydelsen av överensstämmande resultat mellan 2- och 4-h skanningar.
metodik om hur du använder olika diagnostiska markörer för att detektera sjukdomar eller bedöma hälsorelaterade risker har varit en aktiv forskningsområde [9-11]. Med den snabba utvecklingen i iska och proteomik teknik, har fokus på biomarkörer-baserade upptäckt sjukdom och riskbedömning nu flyttats från en enda biomarkör till en panel av biomarkörer eftersom olika markörer kan vara känsliga för olika aspekter av en sjukdom [12]. Det hävdas att, jämfört med en enda klinisk eller genetisk markör kan en panel av multipla markörer innehålla en högre nivå av diskriminerande information, särskilt över stora heterogena patientpopulationer och för komplexa flerstegs sjukdomar. Detta är viktigt eftersom att använda multipla markörer samtidigt kan leda till en ny diagnostisk åtgärd med högre känslighet [11].
När flera markörer är kontinuerlig och normalfördelad, ger Fishers LDA bäst linjär kombination som maximerar känslighet över hela Specificitet jämnt under multivariat normalfördelning modell [11]. När markör värden avviker från det normala, kan en Box-Cox kraftöverföring användas för att förbättra den normala [13]. Denna strategi har visat sig vara effektiv i att uppskatta AUC och ROC kurvor om de bakomliggande verkliga distributioner, antingen på den ursprungliga eller om en transformerad skala, är nära multivariat normal [11]. Annars kan appliceras en ranking baserad distribution utan strategi. De teoretiska aspekter av den bästa linjära kombinationen av biomarkörer är väl rapporterats [[9, 11, 14-19] och [20]]. Fishers LDA är lättare att beräkna, medan DF metod är mer robust avvikelser från normalfördelning, men är beräknings oöverkomliga om mer än två markörer är inblandade [19]. Vi använde parameter uppskattningar från LDA som en utgångspunkt för grid sökning med DF om markören utrymme går utöver bilaterala. CART-modellen, å andra sidan, erbjuder en annan metod för att optimera den diagnostiska kraften när markörer är flerdimensionella [21-23]. Snarare än att skapa en ny diagnostisk åtgärd som LDA eller DF, använder CART en sekventiell process för att identifiera den uppsättning av prediktorvariabler, i sin ursprungliga skalan, som bäst skilja grupperna bland utfallsvariabeln av intresse. Den är särskilt användbar när det finns många prediktorvariabler som är mycket korrelerade. Det är beräkningsmässigt mindre intensiv och lätt att tolka, men kan vara instabil om modellen är otillräckligt utbildade med begränsade data.
Flesta tidigare studier fokuserar på att härleda den bästa kombinationen av markörer som maximerar AUC för patienter vars sjukdom status var känd [11 , 14-20]. Det är oklart om den diagnostiska kraften för en sådan kombination sträcker sig till befolkningen med kända markörvärden men okänd sjukdomsstatus eller befolkningen vars markör värden inte används för att härleda de diagnostiska parametrarna. Med en standardiserad måltid (se Material och Metoder) och timme GES teknik (fem 2-minuters avbildning sessioner) under 4 timmar, mindre kamera tid krävs medan resultaten kan vara reproducerbara från sjukhus till sjukhus. Denna uppsats utvärderar statistiska alternativ som optimerar diagnostiska kraften med GES åtgärder på några tidpunkter. Använda den primära kliniska diagnosen, som definieras av symtom som illamående, kräkningar, tidig mättnadskänsla, postprandial fullhet, magbesvär, och smärta, förutom bevis för försenad magtömning i frånvaro av mekanisk gastric utlopp obstruktion, som verkliga status gastropares , fokuserar denna studie på att hitta parametrarna för bästa linjär kombination av GES vid olika tidpunkter med träningsdata, sedan undersöker och kors bekräftar dess prestanda i testdata som inte användes för att härleda modellen.
Metoder
Receiver Operating Characteristic Curve (ROC) och området under kurvan i synnerhet är en enkel och meningsfull åtgärd för att bedöma användbarheten av en diagnostisk markör (er) [10]. Under hela detta dokument, är ROC och AUC används för att jämföra mellan olika metoder och olika modeller för bästa diagnostiska kraften av gastropares. Summan av falskt positiva och falskt negativa diagnoser över hela provet användes för att kontrastera den diagnostiska kraften mellan LDA, DF och vagn genom fällkniv (ta ett ut) korsvalidering.
Fishers linjära diskriminerande Approach (LDA) Review Låt w
ij
representerar i
th
markör värdet på j
th
ämne i den sjuka grupp; och v
ik
vara den i:
th
markör värdet på k
th
ämne i kontrollgruppen; där jag
= 1, ..., p; j
= 1, ..., m; och k
= 1, ..., n.
Antag X och Y är vektorer för markörvärden med multivariat normalfördelning för de sjuka och kontrollgrupperna respektive, då (1) Koefficienten vektor, α
p × 1, för bästa linjär kombination av den kombinerade markör vektorn från de sjuka och kontrollgrupperna under ROC kriterier är: (2) AUC under ROC-kurvan är: (3) om Φ betecknar standard kumulativa . normalfördelningsfunktionen
specificitet (F a (c)) och känslighet (H a (c)) är: (4) (5) Placering baserad distribution Gratis metod (DF) Review enligt rang baserad distribution fri strategi [19], kan AUC beräknas som Mann-Whitney U statistik [24]: (6) Observera för kontinuerlig fördelning, Pr (jag
= 1/2) = 0.
om w
ij
är i
th markör värde för j
th ämne i den sjuka grupp; v
ik
är i
th markör värde för k
th ämne i kontrollgruppen; i, j, k, m
, och n
såsom definierats i föregående avsnitt; AUC
(α
) är ytan under kurvan av fördelnings fri strategi med optimal koefficientvektor (α). Eftersom ROC är oföränderlig att monotone ökande omvandling, koefficientvektorn α
både LDA och DF metoder kan skalas som (1, β 2 /β 1, β 3 /β 1, ... β i /β 1), där β i /β 1 representerar vikten för i
th markör värde i förhållande till markering 1 [19].
Klassificering och Regression Trees (CART) modell
till skillnad från LDA eller DF identifierar CART metodik uppsättningen prediktorer från alla variabler som bäst skiljer klasser i utfallet av intresse i en sekventiell process. Vid varje steg (nod), CART algoritmen först identifierar den bästa prediktorn från alla kandidat variabler och sedan söker igenom alla värden för den bästa prediktorn men använder endast en brytpunkten att dela upp provet i noden i två undergrenar. Den söker sedan genom alla prediktorvariabler och identifierar den bästa brytpunkten från den bästa prediktorn inom varje undergren och upprepar processen tills en vissa kriterier, till exempel en minimivarians eller ett minimi gruppstorlek, i alla terminalnoder är uppfyllt. Vid varje nod, söker CART att klassificera provet i grupper på så sätt att maximal homogenitet hos de underordnade noder nås. När en terminal nod nås, ger modellen sannolikheten av att tillhöra en viss kategori för alla återstående ämnen som hamnar i den noden. I praktiken är den minsta noden storleken vanligtvis satt till 10% av provet lära sig att undvika potentiellt över anpassning av modellen så att den slutliga beslutsträd är mer sannolikt att vara användbar för att klassificera populationer med liknande egenskaper som den prov lärande, men var som inte används för att härleda CART modell. I motsats till LDA tillvägagångssätt kan CART vara särskilt användbart när korrelationsmönster bland prediktorvariabler är inte konsekvent över hela området, eftersom det inte är nödvändigt för samma variabel för att vara optimal för alla förgreningsnoder av hela trädet [22].
Parameter uppskattning Hus till LDA tillvägagångssätt skrev vi en SAS /IML program [25] för att beräkna medelvärdet (m), variansen (S) för sjuka och kontrollgrupper, och alla parameteruppskattningar beskrivs i metoden sektion. Först koefficientvektorn α
, AUC för den linjära kombinationen liksom för enskilda markörer, erhölls med ekvationerna (2) och (3) från träningsdata. Sedan tillsattes koefficienten α
tillämpas på motsvarande testdata för att erhålla den linjära kombinationen värdering. Tre tröskelvärden som motsvarar känslighetsnivåer vid 0,7, 0,8, och 0,9 för den linjära kombinationen poängen erhölls med gastroparesis data med hjälp av i ekvation (5). Varje tröskelvärde användes till vänster ut data för att klassificera fall till antingen sjuk eller icke-sjuka grupp. Den förutsagda status sedan korsa tabell med den kända sjukdomsgrupp.
DF strategi inleddes med en godtycklig utgångspunkt och sedan galler sökte för koefficienterna som maximerar Mann-Whitney U statistik med träningsdata i följande steg.
1) en linjär kombination poäng för varje observation erhölls genom att multiplicera markören vektor X med en startkoefficientvektor, α
(1, α
).
2) AUC motsvarande koefficientvektorn α
beräknas med ekvation (6).
3) Upprepa de två första stegen för varje möjlig koefficientvektor och aggregera motsvarande AUC och α
.
4) Välj koefficient som maxim AUC och identifiera kritiska linjära kombinationen poängvärdet på 0,7, 0,8 och 0,9 känslighetsnivåer.
5) Tillämpning koefficienten från steg 4 till testdata för att få bästa linjära kombinationen poäng.
6) Använd varje kritiskt värde från steg 4 i testdata för att förutsäga varje fall till antingen sjuk eller icke-sjuka gruppen, sedan korsa tabu med den kända sjukdomsgrupp. Hus till CART modell använde vi TREE paketet inom R [26] miljö för var och en av fyra timme åtgärder, och deras kombination tillsammans med patientens ålder och kön för att identifiera den bästa modellen. Korsvalidering med en minsta storlek på 10 försökspersoner för varje terminal nod användes för att optimera beslutsträd modell med alla observationer [27]. AUC för varje optimerad beslutsträd beräknades för att jämföra i alla modeller. Därefter tillsattes en observation tas ut från hela provet, och de återstående ämnen som används för att bygga beslutsträd, vilket i sin tur användes för att förutsäga sjukdomsstatusen på vänster ut observation. Prestanda för varje beslutsträd sammanfattades med det totala antalet felaktiga förutsägelser över hela provet.
Gastroparesis uppgifter Review, en totalt 320 diagram från patienter i åldern 16 ~ 89 (42,8 ± 14,3 (medelvärde ± std)), 255 (79%) kvinnor, med GES åtgärder på en timme, två timmar, 3 timmar och fyra timmar efter en standardmåltid med hjälp av en standardiserad metod (5) ades efterhand samlas vid University of Kansas Medical Center (KUMC). Studieprotokollet godkändes av Institutional Review Board (IRB) på KUMC. Under GES mätning, den del av måltiden konsumeras och den tid det tar för förbrukningen registrerades. Patienter med ovanliga procent måltid konsumeras (t.ex. < 20% av måltiden) /konsumtion tid (t ex > 30 minuter) uteslöts. Alla patienter antingen som avses med misstänkt gastro eller undersökts av andra skäl på grund av självrapporterade symtom som illamående, fullhet, tidig mättnadskänsla, kräkningar, och uppblåsthet. Baserat på övergripande utvärdering, förutom timme GES åtgärder diagnosen studieläkare 197 (62%) av de 320 patienter med gastropares som den främsta orsaken till ovanstående kliniska symptom och deras sjukhusbesök. Trots liknande medicinska erfarenheter, var andra än gastro sjukdomar anses vara de primära diagnoser för de återstående 123 patienterna. Ingen signifikant skillnad i medelåldern (p = 0,12, genom t-test) och kön (p = 0,99, med χ 2 test) påträffades mellan grupper med och utan gastropares. För varje patient var magtömning scintigrafi utförs på morgonen efter en natts fasta med prokinetika slutade för minst 3 dagar. Den standardiserade metoden för tömning av magsäcken består av motsvarande två äggröra (ägg substitut) märkta med 99m Tc svavel kolloid, 2 bitar av toast med gelé, och 4 liter vatten med en total värmevärde 255 kcal. Främre och bakre bilder i magen togs omedelbart efter att ha ätit, och sedan varje timme under 4 timmar [28].
Resultat
vid upprepad mätning av gastrisk tömning, procent retention av isotopen i magen vid ett-h, 2-h, 3-h, och 4-h efter måltid minskade med tiden och var starkt korrelerade, särskilt för män och för patienter med gastropares. Spearman korrelationskoefficient varierade från 0,34 (p < 0,001) mellan 1-h och 4-h för patienter utan gastropares till 0,93 (p < 0,001) mellan 3-H och 4-h för patienter med gastropares. Sammantaget fördelningen i procent behålla avvek från normal, med de två första timvärden skevning mot den nedre änden, och de andra två timmar skevning mot den övre delen (Figur 1). Figur 1 Procent gastrisk retention på ett-h, 2-h, 3-h, och 4-h efter måltid för fallet (grön) jämfört med kontroll (grå). 1-H-C, 2-H-C, 3-h-c, representerar 4-h-c procent magtömning (GE) vid ett-h, 2-h, 3-h, och 4-h efter måltid för patienter som diagnostiseras med gastropares; Morrhår utgör 70% kvartilavståndet.
Diagnostiska befogenheter LDA och DF tillvägagångssätt
Timvis åtgärder på tre-h och 4-h redovisades tidigare som har den bästa diagnostiska verktyg, kontrasterade vi deras bästa linjär kombination av både LDA ( figur 2) och DF metoder (tabell 1). Först beräknas vi AUC för de två mätningarna tillsammans med den optimala koefficienten för sitt bästa linjärkombination och tröskelvärdena för den linjära kombinationen poäng på 0,7, 0,8, och 0,9 känslighetsnivåer med både LDA och DF metoder för alla utom en av 320 ämnen. Den optimala koefficienten, tillsammans med de tre tröskelvärdena applicerades därefter åt vänster ut ämnet. Genom att jämföra tröskelvärdena med den beräknade linjära kombinationen poäng, var den förutsagda gastroparetic status för utelämnas ämne registreras. Frekvensen av falskt negativa och falska positiva erhölls genom att upprepa fällkniv processen för alla 320 patienter. Därefter tillsattes en Box-Cox kraftöverföring tillämpas och samma analys upprepades för transformerade data. Figur 2 Mottagarens Rörelse Karakteristiskt (ROC) Kurva för timme behålla procent på två-h, 3-h, 4-h, och deras bästa linjärkombination. Area under kurvan (AUC) ökade från 2-h till 4-h och maximeras med den bästa linjär kombination av alla tre timme mätningar.
Tabell 1 Parameter uppskattningar (område under kurvan (AUC) och koefficienten för bästa linjär kombination ) med Fishers linjära diskriminerande analys (LDA) och gratis distribution (DF) närmar
vid 4-h
3-h
linjär kombination DF
linjär kombination LDA
Raw
Tran
Raw
Tran
α
Raw
α
Tran
α
Raw
α
Tran
Mean
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.681
0.834
0.055
0.881
STD
0.002
0.001
0.002
0.002
0.00
0.001
0.00
0.001
0.032
0.002
0.002
0.001
Median
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.679
0.833
0.055
0.880
Range
0.013
0.009
0.011
0.009
0.00
0.008
0.00
0.008
0.284
0.012
0.017
0.009
Obs: Rå står för AUC för mätning i naturlig storlek,
Tran representerar AUC för mätning i transformerad skala,
α är koefficienten för bästa linjära kombinationen för mätning vid tre-h efter måltid Review, Den bästa linjära. kombinationer av de två timme åtgärder ökade den diagnostiska kraften hos dess enskilda komponenter genom båda metoderna (tabell 2), men vinsten var begränsad, 3,9% för DF, och 0,4% för LDA strategi. Som förväntat, Box-Cox kraftöverföring på enskilda markörer förbättrade diagnostiska kraften av den bästa linjära kombination med LDA strategi med 4,7% än den råa measures.Table 2 Falska klassificeringar (%) med fällkniv korsvalidering av Fishers linjära diskriminerande analys (LDA) och gratis distribution (DF) närmar
3- h DF
4-h DF
linjär kombination DF
linjär kombination LDA
0,7
24 (19,5%) Review 59 ( 30,0%) Review 16 (13,0%) Review 59 (30,0%) Review 15 (12,2%) Review 58 (29,4%) Review 15 (12,2%) Review 64 (32,3% ) katalog 0,8
37 (30,1%) Review 39 (19,8%) Review 21 (17,1%) Review 40 (20,3%) Review 21 (17,1%) Review 40 ( 20,3%) Review 20 (16,3%) Review 46 (23,4%) Review 0,9
60 (48,8%) Review 21 (10,7%) Review 27 (21,9%) Review 23 (11,7%) Review 28 (22,8%) Review 20 (10,2%) Review 27 (22,0%) Review 22 (11,2%) Review OBS: modellen förutspådde sjukdomsstatus (1 för ja, 0 för ingen),
y
: diagnostiserad sjukdomsstatus (1 för ja, 0 för ingen) hotell med rådata, skillnaderna i summan av falskt positiva och falskt negativa resultat för bästa. linjära kombinationer var 0,2%, 1,6%, och -6,5% mellan DF och LDA närmar på 0,7, 0,8, och 0,9 känslighetsnivåer. Medan falskt negativa resultat från LDA strategi visade stor avvikelse från det som motsvarar de förinställda tröskelnivåer (≤3.0%), som av DF strategi är relativt nära (≤ ± 0,2%).
Data omvandling förbättrade diagnostiska kraften av de bästa linjära kombinationer för både LDA och DF närmar genom att minska summan av falska negativa och falska positiva värden. De minskningar är 2,2%, 2,8%, 13,8%, och -0,9%, -1,1%, 20,1% för DF och LDA metoder, respektive. Intressant nog är den största förbättringen i diagnostiska kraften på den högre nivån av känslighet för båda metoderna.
Diagnostiska befogenheter CART tillvägagångssätt
Sju beslutsträd modeller, inklusive hela modellen (4 timme mätningar tillsammans med patientens ålder) kombinationer av två-h och 4-h, 3-H och 4-h, tillsammans med varje timme åtgärder har optimerats genom trädbeskärning med minsta storlek för den sista noden i 10 försökspersoner [26]. För alla enstaka tidpunkt modeller, bibehållande procent vid 4-h har den största AUC för 0,865, följt av 3-h, 2-h, och en-h, respektive (tabell 3). Graden av falska diagnos genom beslut träd modell med 4-h är 14,4% (28 av 123 patienter utan gastro, och 18 av 197 för dem med gastropares), mindre än hälften av dem som skulle felaktigt diagnostiseras med 1- h och 2-H-punkterna, och 37% ((73-46) /73) mindre än den -at 3-h. Inklusive 2-h eller 3-h tillsammans med 4-h med beslutsschemat inte öka antalet korrekta diagnoser över användning av 4-h enbart som indikeras av fällknivskorsvalidering. Dessa skiljer sig från resultat som erhållits från LDA och DF tillvägagångssätt, i vilket den linjära kombinationen av 3-H och 4-h visade viss förbättring jämfört med användning av 4-h enbart. Men beslutsträd modell med antingen 4-h ensamt eller dess kombination med 2-h eller 3-h inte lida i diagnostiskt verktyg jämfört med sin motsvarighet modeller identifieras med antingen LDA eller DF tillvägagångssätt, oavsett data omvandling. Vagnen modell med alla fyra timme GES åtgärder tillsammans med patientens ålder var mycket intressant. För kriterierna för gastrisk retention > 10% vid 4-H och < 53% vid 2-h, patienter > 47,5 år var nästan två gånger mindre benägna att ha gastropares (sannolikhet = 0,44) som de med åldern < 47,5 (sannolikhet = 0,85) .table 3 Falska klassificeringar (%) med fällkniv korsvalidering av optimerad klassificering och regression träd (CART) modeller
1 h
2-h
3-H
4-h
2-h + 4-H
3-h + 4-H
4-h + 3-h + 2-h + 1-h + ålder
76 (61,8%) Review 28 (22,8%) Review 29 (23,6%) Review 28 (22,8%) Review 28 (22,8%) Review 28 (22,8%)
26 (21,1%)
24 (12,2%) Review 69 (35,0%) Review 44 (22,3%) Review 18 (9,1%) Review 18 (9,1%)
18 (9,1%) Review 18 (9,1%) Review Total Feldiagnos
100 (31,3%) Review 97 (30,3%) Review 73 (22,8%) Review 46 (14,4 %) Review 46 (14,4%) Review 46 (14,4%) Review 44 (13,8%) Review AUC för optimerad modell
0,724
0,753
0,825
0,867
0,865
0,858
0,881
Obs: modell förutspådde sjukdomsstatus (1 för ja, 0 för ingen),
y
: diagnostiserad sjukdomsstatus (1 för ja, 0 för ingen Diskussion
linjära kombinationer av diagnostiska markörer som erhållits genom LDA eller DF strategi
). brukar leda till högre diskriminera befogenheter (större AUC) än med de enskilda komponenterna. En simuleringsstudie (resultat ej visar här) visade att ju starkare korrelation mellan enskilda markörer, desto mindre ökning av AUC med deras linjära kombinationen. Den potentiella vinsten i diagnostiska kraften, men minskar när korrelationen mellan enskilda markörer öka upp till 0,7 och däröver. Effektiviteten av att använda en linjär kombination minskar med ökningen av storleken på disproportion i kovariansmatriser mellan sjuka och kontrollgrupperna.
Små provstorlekar leder till stora variationer i optimala koefficienter för bästa linjär kombination och motsvarande AUC, särskilt för LDA tillvägagångssätt. Som provstorleken ökar, optimala koefficienter och AUC med LDA eller DF metoder kan eller inte kan närma sig varandra beroende på fördelningen av enskilda markörer.
Marker värden normal
När markörvärdena är multivariat normal, uppskattningar från LDA tillvägagångssätt är mycket nära den DF metoden i termer av AUC, optimala koefficienter, och diagnosstyrka som anges genom simulering. Med normalfördelning och lämplig provstorleken, de två första ögonblicken fånga markör läge och skala parameter med liten variation. I sådana fall har de LDA tillvägagångssätt fördelen av att spara beräkningstid (mer än 100-faldigt mindre) utan att lida i prognosförmåga än den DF tillvägagångssätt. Ändå LDA kan inte överträffa DF så länge söka nätet för optimal koefficient med DF innehåller punktskattning av LDA. Med andra ord, är begränsningen med DF i beräkning, snarare än metoden.
Marker värden inte normalt
När markörvärden avviker från normalfördelning leder DF metod alltid till högre AUC för bästa linjära kombinationen om sökningen galler för optimala koefficienter är tillräckligt finfördelat. Nedgradering prestanda med LDA tillvägagångssätt är ett direkt resultat av att använda de medel som är förspänd på grund av avvikelse. Exponentialfördelning, till exempel, tenderar att ha en lång svans med en hög grad av skevhet, vilket leder till ett medelvärde med en positiv förspänning. Som en konsekvens, varians för markörer är uppblåsta och AUC tenderar att vara mindre. Ännu viktigare är den bästa linjära blandning erhållen med LDA tillvägagångssätt tenderar att överskatta den falska negativa hastigheten och underskatta den falska positiva hastigheten på lägre känslighetsnivån (tabell 2), och gör precis tvärtom på högre känslighetsnivån. Tvärtom är den bästa linjära kombinationen av DF strategi påverkas mindre av extremvärden och tenderar att ha högre diagnostisk kraft samtidigt som de förinställda känslighetsnivåer. Detta är viktigt eftersom, i praktiken, utgör en fast falskt negativa en kritisk gräns av tolerans i diagnostisk medicin. Utöver sådan gräns skulle insatsen av förlustnyttoförhållandet ökar, eller, åtminstone, är den diagnostiska beslut mindre kostnadseffektiv.
Effekten av uppgifter omvandling
Effektiv dataomvandlings förbättrar normal passform och därmed parameterskattning av LDA tillvägagångssätt, men om denna förbättring kommer att hålla i nya uppgifter som inte ingår i parameteruppskattning är fortfarande oklart. Korsvalidering med gastroparesis data indikerade att kraftöverföring ökade AUC och stabiliserade parameterskattningar i utbildnings set, och att dessa vinster skulle innebära högre diagnostiska kraften i test set (tabell 2). Dataomvandlings minskat gapet i diagnostiska kraften mellan de bästa linjära kombinationer av LDA och DF närmar med kliniska data. Intressant, DF strategi visade en konsekvent förbättring med transformation på alla nivåer av känslighet vid 0,7, 0,8 och 0,9. Trenden med LDA tillvägagångssätt är inte lika tydlig. En orsak kan vara procent mag retention mätt vid 3-h och 4-h är så skev att kraftöverföring är inte tillräckligt för att sätta mätningarna på nästan normalfördelning.
Optimera diagnostiska kraften av GES åtgärder CART modell
till skillnad från tidigare forskning med friska frivilliga, vår studiepopulationen bestod med en blandad grupp av ämnen antingen som avses med misstänkt gastro eller undersökts av andra skäl.
undersökningar
undersökningar
Other Languages