Stomach Health > Magen Gesundheit >  > Stomach Knowledges > Researches

Die Optimierung der Diagnoseleistung mit Magenentleerung Szintigraphie zu mehreren Zeit points

Öffnen Peer Review

Dieser Artikel hat Offene Peer-Review-Berichte zur Verfügung.

Wie funktioniert Öffnen Peer-Review-Arbeit?
Der Diagnoseleistung mit Magenentleerung Optimierung Szintigraphie zu mehreren Zeitpunkten
Zusammenfassung
Hintergrund
Magenentleerung Szintigraphie (GES) in Intervallen über 4 Stunden nach einem standardisierten radiomarkierte Mahlzeit wird allgemein als Goldstandard für die Diagnose von gastroparesis. Die Ziele dieser Studie waren: 1) die beste Zeitpunkt und die beste Kombination aus mehreren Zeitpunkten zu untersuchen gastroparesis mit wiederholten GES Maßnahmen zur Diagnose und 2), um den Kontrast und Cross-Validierung Fisher Linear Diskriminanzanalyse (LDA), einen Rang basierte Verteilung Free (DF) Ansatz und die Klassifikation und Regression Baum (CART) Modell.
Methoden
insgesamt 320 Patienten mit GES Maßnahmen auf 1, 2, 3 und 4 Stunden (h) nach einer Standard Mahlzeit eine standardisierte Methode wurden retrospektiv gesammelt. Die Fläche unter der Receiver Operating Characteristic (ROC) Kurve und die Rate der Fehleinschätzung durch Klappmesser Kreuzvalidierung für Modellvergleich verwendet wurden.
Ergebnis einschränken Aufgrund der starken Korrelation und eine Anomalie in der Datenverteilung, keine wesentliche Verbesserung der Diagnose Leistung wurde mit dem besten linearen Kombination von LDA Ansatz auch bei Datentransformation gefunden. Mit DF Verfahren wird die lineare Kombination von 4-h und 3-h erhöht, um die Fläche unter der Kurve (AUC) und verringerte die Zahl der falschen Klassifizierungen (0,87; 15,0%) über einzelne Zeitpunkte (0,83, 0,82, 15,6%, 25,3 %, 4-H und 3-H, jeweils) mit einer höheren Empfindlichkeit (Empfindlichkeit = 0,9). Die CART-Modell unter Verwendung von 4 stündlichen Messungen GES zusammen mit Alter des Patienten war die genaueste Diagnose-Tool (AUC = 0,88, falsche Klassifizierung = 13,8%). Patienten mit einer 4-h Magen-Retentionswert >. 10% waren 5-mal häufiger gastroparesis haben (179/207 = 86,5%) als diejenigen mit ≤10% (18/113 = 15,9%)
Schlussfolgerungen
mit einer gemischten Gruppe von Patienten, die entweder mit Verdacht auf gastroparesis oder aus anderen Gründen genannt untersucht, ist die CART-Modell robuster als die LDA und DF Ansätze, in der Lage Kovariable Effekte der Unterbringung und kann für Quer institutionellen Anwendungen verallgemeinert werden, aber instabil sein könnte, wenn Stichprobengröße ist begrenzt.
Hintergrund
Magen-Szintigraphie in Intervallen über 4 h nach einer standardisierten Mahlzeit Entleerung wird allgemein als Goldstandard für die Messung Magen-mal Entleerung. In der Praxis wird zur Diagnose gastroparesis definiert als verzögerte Magenentleerung (GE) in der Abwesenheit von mechanischen Blockierung ein vereinfachtes stündlichen Maß für Restmageninhalt verwendet [1, 2]. Die Technik Maßnahmen radiomarkierte Nahrung im Magen in stündlichen Intervallen nach der Patient verbleibenden ingests eine standardisierte Mahlzeit [3] als Indikator für verzögert GE. Wegen der Unterschiede in den Bereichen Lebensmittel, Techniken eingesetzt und Endpunkte gemessen mit GES, Analyse und Interpretation der Ergebnisse variieren zwischen den Institutionen [4]. Die meisten bisherigen Studien haben gezeigt, dass die Magenentleerung verzögert lässt sich am besten mit Magen-Retention von >angegeben werden; 10% bei 4 Stunden nach der Mahlzeit, die als 95-Perzentil in Magenretention mit gesunden Probanden durch eine multizentrische Studie festgestellt wurde [5, 6] . Wie immer ist ein Distributions-basierten diagnostischen Entscheidung willkürlich und kann zwangsläufig Fehler bringen, weil die Fehlklassifikation. Es wird berichtet, dass der vereinfachte Ansatz eine Spezifität von 62% und eine Sensitivität von 93% [7]. Andere nutzen die prozentuale Retention bei 2-h als die klinischen Routinemessungen von GES [8], GES bei 2-h oder 3-h was darauf hindeutet, könnte die beste individuelle Zeitpunkt bei höherer Diagnoseleistung sein. Magen Retentionen Prozent zu verschiedenen Zeitpunkten kann jedoch auch Patienten nach Alter und Geschlecht unterliegen [5]. Der Mangel an Standardisierung in GES zusammen mit Unterschieden in der quantitativen Analyse der Durchführung an verschiedenen Institutionen verwendet wird, kann den klinischen Nutzen des Tests zu begrenzen, und problematisch, wenn Quer institutionellen Daten ausgewertet werden müssen. Im Jahr 2008 im Namen der amerikanischen Neurogastroenterologie und Motilität Gesellschaft und der Gesellschaft für Nuklearmedizin, Forscher aus 13 US-amerikanischen medizinischen Einrichtungen ausgestellt gemeinsam eine Konsenserklärung zur Standardisierung von GES über Institutionen [4]. Darüber hinaus wurden weitere Untersuchungen Problemen, die von der Consensus identifiziert, die umfassen: 1) Verwendung von 3-h im Vergleich zu 2- und 4-h-Ergebnisse für Detektion verzögert GE; und 2) die Verwendung von mehreren Zeitpunkten (2 und 4 h) im Vergleich zu einzelnen 2- oder 4-h-Werte für ein weiteres Verständnis der klinischen Bedeutung von diskordanten Ergebnisse zwischen den 2- und 4-h-Scans.
Methodology zur Verwendung von verschiedene diagnostische Marker Krankheiten zu erkennen oder zu gesundheitlichen Risiken zu bewerten, wurde ein aktives Forschungsgebiet [9-11]. Mit der rasanten Fortschritte in der Genomik und Proteomik-Technologien, den Fokus auf Biomarker-basierte Erkennung von Krankheiten und Risikobewertung wurde nun von einem einzigen Biomarker zu einer Gruppe von Biomarkern verschoben, da verschiedene Marker, um verschiedene Aspekte einer Krankheit empfindlich sein kann [12]. Es wird argumentiert, dass im Vergleich zu einem einzigen klinischen oder genetischen Marker, ein Gremium von mehreren Markern kann ein höheres Maß an diskriminierenden Informationen, insbesondere in großen heterogenen Patientenpopulationen und für komplexe mehrstufige Krankheiten enthalten. Dies ist wichtig, da die Verwendung mehrerer Marker gleichzeitig mit einer höheren Empfindlichkeit gegenüber einem neuen diagnostischen Maßnahme führen kann [11].
Wenn mehrere Markierungen kontinuierlich sind und normal verteilt, Fishers LDA bietet die beste lineare Kombination, die die Empfindlichkeit über den gesamten Bereich Spezifität maximiert einheitlich unter der multivariaten Normalverteilungsmodell [11]. Wenn Markerwerte von normalen abweichen, kann eine Box-Cox-Power Transformation verwendet werden, um die Normalsitz [13] zu verbessern. Dieser Ansatz hat Kurven wirksam bei der Ermittlung der AUC und ROC, wenn die zugrunde liegenden wahren Verteilungen gefunden wurde, entweder im Original oder auf einer transformierten Skala, sind in der Nähe normal [11] multivariate. Andernfalls wird ein Rang basierte Distribution kann frei Ansatz angewendet werden. Die theoretischen Aspekte der besten linearen Kombination für Biomarker sind gut berichtet [[9, 11, 14-19] und [20]]. Fishers LDA ist einfacher zu berechnen, während der DF Ansatz robuster Abweichung von der Normalverteilung, aber rechnerisch untragbar, wenn mehr als zwei Marker beteiligt sind [19]. Wir haben die Parameterschätzungen von LDA als Ausgangspunkt für die Netzsuche mit DF wenn Marker Raum jenseits bilateraler geht. Die CART-Modell, auf der anderen Seite, bietet einen anderen Ansatz die diagnostische Leistung zu optimieren, wenn Markierungen mehrdimensionale [21-23] sind. Anstatt eine neue diagnostische Maßnahme wie LDA oder DF erstellen, nutzt CART einen sequentiellen Prozess der Satz von Prädiktorvariablen zu identifizieren, in ihrer ursprünglichen Skala, das am besten unterscheiden Gruppen unter der Zielgröße von Interesse. Es ist besonders nützlich, wenn es viele Prädiktor-Variablen sind, die stark korreliert sind. Es ist weniger rechenintensiv und leicht zu interpretieren, kann aber instabil sein, wenn das Modell nur unzureichend mit begrenzten Daten trainiert.
Konzentrieren sich die meisten früheren Studien über die beste Kombination von Markern ableiten, die AUC für Themen maximiert Status, deren Erkrankung bekannt war [11 , 14-20]. Es ist unklar, ob die Diagnoseleistung für eine solche Kombination mit bekannten Markerwerte für die Bevölkerung erstreckt, aber unbekannten Krankheitsstatus oder an die Bevölkerung, deren Werte Marker sind zum Ableiten der Diagnoseparameter nicht verwendet. Mit einer standardisierten Mahlzeit (siehe Materialien und Methoden) und die stündliche GES-Technik (fünf 2-Minuten Imaging-Sitzungen) mehr als 4 Stunden, weniger Kamerazeit erforderlich ist, während Ergebnisse von Krankenhaus zu Krankenhaus reproduzierbar sein kann. Dieses Papier wertet die statistische Optionen, die die diagnostische Leistung mit GES Maßnahmen an einigen Zeitpunkten zu optimieren. Mit dem primären klinischen Diagnose, definiert durch Symptome wie Übelkeit, Erbrechen, frühes Sättigungsgefühl, postprandiale Völlegefühl, Bauchschmerzen und Schmerzen, zusätzlich zu den Beweis für eine verzögerte Magen in Abwesenheit von mechanischen Magenausgangsstenose, als den wahren Status gastroparesis Entleerung diese Studie konzentriert sich auf die Parameter der besten linearen Kombination von GES zu verschiedenen Zeitpunkten mit Trainingsdaten zu finden, dann untersucht, und Cross-validiert seine Leistung in den Testdaten, die nicht für die Ableitung des Modells verwendet wurde.
Methoden
der Receiver Betriebskennlinie (ROC) und die Fläche unter der Kurve insbesondere eine einfache und sinnvolle Maßnahme, um die Brauchbarkeit eines diagnostischen Marker (n) [10] zu beurteilen. In diesem Papier, ROC und AUC werden verwendet, über verschiedene Methoden und verschiedene Modelle für die beste diagnostische Leistung von gastroparesis zu vergleichen. Die Summe von falsch positiven und falsch negativen Diagnosen über die gesamte Probe verwendet wurde, die diagnostische Leistung zwischen LDA, DF und CART durch Klappmesser (nehmen Sie eine out) Kreuzvalidierung zu kontrastieren.
Fishers Linear Diskriminanzknoten Approach (LDA)
lassen w
ij
stellt die i
th
Markierungswert des j
th
Thema in der erkrankten Gruppe; und v
ik
sein das i
th
Markierungswert des k
th
Thema in der Kontrollgruppe; wo i
= 1, ..., p; j
= 1, ..., m; und k
= 1, ..., n.
Angenommen, X und Y sind Vektoren von Markerwerte mit multivariaten Normalverteilung für die kranken und Kontrollgruppen jeweils dann (1) Der Koeffizientenvektor, α
p × 1, für die beste lineare Kombination des kombinierten Marker Vektor aus den erkrankten und Kontrollgruppen unter der ROC-Kriterien ist: (2) die AUC unter der ROC-Kurve ist: (3) Wo bezeichnet Φ den Standard kumulativ . Normalverteilungsfunktion
Die Spezifität (F a (c)) und Empfindlichkeit (H a (c)) sind: (4) (5) Rang basierend Verteilung Freier Ansatz (DF)
Unter dem Rang beruhende Ansatz Verteilung [19] kann die AUC als dem Mann-Whitney-U-Statistik berechnet werden [24]: (6) Hinweis für eine kontinuierliche Verteilung, Pr (I
= 1/2) = 0.
Wo, w
ij Was ist der i
th Markerwert für die j
th Thema in der erkrankten Gruppe; v
ik Was ist der i
th Markerwert für die k
th Thema in der Kontrollgruppe; i, j, k, m
und n
wie im vorigen Abschnitt definiert ist; AUC

) ist die Fläche unter der Kurve, die durch Verteilung freien Ansatz mit optimalen Koeffizientenvektor (α). Da ROC invariant zunehmende Transformation zu monoton,
die Koeffizientenvektor α sowohl in der LDA und DF Ansätze können als (1, β 2 /β 1, β 3 /β 1, ... β i /β 1), wobei β i /β 1 stellt das Gewicht für das i
th Wert relativ Marker 1 zu Marker [19].
Klassifikations- und Regressionsbäume (CART) Modell
im Gegensatz zu LDA oder DF, identifiziert CART Methodik die Menge der Prädiktoren von allen Variablen, die in einer sequentiellen Prozessklassen in den Ergebnissen der Interesse am besten unterscheiden. Bei jedem Schritt (node), CART-Algorithmus identifiziert zuerst den besten Prädiktor aus allen Kandidatenvariablen und dann durchsucht alle Werte für den besten Prädiktor, sondern verwendet nur eine Cutoff-Punkt der Probe innerhalb des Knotens in zwei Unterzweige zu teilen. Er sucht dann durch alle Prädiktorvariablen und identifiziert den besten Cutoff-Punkt aus den besten Prädiktor innerhalb jeder Unterzweig und wiederholt den Vorgang, bis ein bestimmtes Kriterium, wie eine minimale Varianz oder einer minimalen Gruppengröße, in allen Endknoten erreicht wird. An jedem Knoten sucht CART die Probe in Gruppen, so dass maximale Homogenität der untergeordneten Knoten erreicht zu klassifizieren. Wenn ein Endknoten erreicht ist, gibt das Modell die Wahrscheinlichkeit für alle übrigen Fächer zu einer bestimmten Kategorie gehören, die in diesem Knoten fallen. In der Praxis wird die minimale Knotengröße in der Regel bei 10% der Lernstichprobe möglicherweise über zu vermeiden Montage des Modells, so dass die endgültige Entscheidung Baum wahrscheinlicher ist, als nützlich für die Bevölkerung mit ähnlichen Eigenschaften wie die der Lernstichprobe zu klassifizieren, aber war nicht zum Ableiten des CART-Modell verwendet. Im Gegensatz zu LDA Ansatz kann CART besonders nützlich sein, wenn die Korrelationsmuster zwischen Prädiktorvariablen über den gesamten Bereich nicht konsistent sind, da es nicht notwendig für die gleiche Variable ist für alle Verzweigungsknoten des gesamten Baumes optimal zu sein [22].
Parameterschätzung
für LDA Ansatz, schrieben wir einen SAS /IML-Programm [25] für die Berechnung des Mittelwerts (m), die Varianz (S) für kranke und Kontrollgruppen und alle Parameterschätzungen werden in dem beschriebenen Verfahren Abschnitt. Zunächst werden die Koeffizientenvektor α
, AUC für die lineare Kombination als auch für einzelne Marker wurde mit den Gleichungen (2) und (3) aus den Trainingsdaten. Dann wurde der Koeffizient α
den entsprechenden Testdaten angewandt, um die Linearkombination Ergebnis zu erhalten. Drei Schwellwerte entsprechend Empfindlichkeitsstufen bei 0,7, 0,8 und 0,9 für die lineare Kombination Score wurden mit den gastroparesis erhaltenen Daten in der Gleichung (5). Jeder Schwellenwert wurde auf der linken Seite von Daten verwendet, um entweder den Fall in klassifizieren erkrankten oder nicht erkrankten Gruppe. Der vorhergesagte Zustand wurde dann mit der bekannten Krankheit Kategorie tabellarisch Kreuz.
Die DF-Ansatz mit einem beliebigen Startpunkt gestartet und dann suchten Raster für die Koeffizienten, die den Mann-Whitney-U-Statistik mit den Trainingsdaten in den folgenden Schritten zu maximieren.
1) eine lineare Kombination für jede Beobachtung Score wurde durch die Multiplikation der Marker Vektor X mit einem Startkoeffizientenvektor erhalten, α
(1, α
).
2) die AUC entspricht der Koeffizientenvektor α
mit Gleichung (6) berechnet.
3) für jeden möglichen Koeffizientenvektor die ersten beiden Schritte wiederholen und die entsprechenden AUC und α
aggregieren.
4) den Koeffizienten auswählen, die die AUC maximiert und die kritische lineare Kombination Score-Wert bei 0,7, 0,8 und 0,9 Empfindlichkeitsstufen identifizieren.
5) den Koeffizienten von Schritt 4 zu den Testdaten Anwendung des besten linearen Kombination Punktzahl zu erhalten.
6) Verwendung jeder kritischen Wert von Schritt 4 in den Testdaten jeden Fall vorherzusagen, in entweder krank oder nicht erkrankten Gruppe, dann mit der bekannten Krankheit Kategorie überqueren tabellarisieren.
Für CART-Modell haben wir die TREE-Paket innerhalb von R verwendet [26] Umwelt für jede der vier Stunden Maßnahmen und deren Kombination mit Alter des Patienten zusammen und Geschlecht das beste Modell zu identifizieren. Kreuzvalidierung mit einer Mindestgröße von 10 Probanden für jeden Endknoten verwendet wurde, den Entscheidungsbaum-Modell zu optimieren mit allen Beobachtungen [27]. AUC für jede Entscheidungsbaum wurde optimiert für alle Modelle zu vergleichen berechnet. Dann wurde eine Beobachtung von der gesamten Probe herausgenommen, und die verbleibenden Fächer verwendet, um den Entscheidungsbaum aufzubauen, der wiederum verwendet, um den Krankheitszustand des weggelassen Beobachtungsvorherzusagen. Leistung für jede Entscheidungsbaum wurde mit der Gesamtzahl der falschen Vorhersagen über die gesamte Probe zusammengefasst.
Gastroparesis Daten
insgesamt 320 Charts von Patienten im Alter von 16 ~ 89 (42,8 ± 14,3 (Mittelwert ± std)), 255 (79%) weiblich, mit GES Maßnahmen bei 1 h, 2 h, 3 h und 4 h nach einer Standard-Mahlzeit ein standardisiertes Verfahren (5) wurden an der University of Kansas Medical Center (KUMC), retrospektiv gesammelt. Das Studienprotokoll wurde von der Institutional Review Board (IRB) in KUMC genehmigt. Während GES Messung verbraucht der Anteil der Mahlzeit und die Zeit für den Verbrauch entnommen wurde aufgezeichnet. Themen mit ungewöhnlichen Prozent Mahlzeit verzehrt (z < 20% der Mahlzeit) /Verbrauchszeit (z > 30 Minuten) wurden ausgeschlossen. Alle Patienten wurden entweder mit Verdacht auf gastroparesis oder sucht aus anderen Gründen bezeichnet, weil der Selbst berichteten Symptome wie Übelkeit, Völlegefühl, frühes Sättigungsgefühl, Erbrechen und Blähungen. Basierend auf Gesamtauswertung, zusätzlich zu den stündlichen GES Maßnahmen, diagnostiziert die Studie Ärzte 197 (62%) der 320 Patienten mit gastroparesis als Hauptgrund für die oben genannten klinischen Symptome und ihre Krankenhausbesuche. Trotz ähnlicher medizinischen Erfahrungen, andere Krankheiten als gastroparesis wurden als die Hauptdiagnosen für die restlichen 123 Patienten in Betracht gezogen. Kein signifikanter Unterschied in der mittleren Alter (p = 0,12, durch t-Test) und Geschlecht (p = 0,99, durch χ 2-Test) wurden zwischen den Gruppen mit und ohne gastroparesis gefunden. Für jeden Patienten wurde die Magenentleerung Szintigraphie am Morgen nach einer nächtlichen schnell durchgeführt mit Prokinetika für mindestens 3 Tage gestoppt. Das standardisierte Verfahren für die Magenentleerung besteht aus dem Äquivalent von zwei Rührei (Ei-Ersatz) mit dem Label 99m Tc Schwefel-Kolloid, 2 Scheiben Toast mit Gelee und 4 Liter Wasser mit einer Gesamtkalorienwert von 255 kcal. Vordere und hintere Bilder des Magens wurden sofort nach dem Essen, und dann stündlich für 4 Stunden [28].
Ergebnisse | Bei wiederholter Messung der Magenentleerung, Prozent Einbehalten des Isotops im Magen bei 1-h, 2-H, 3-H, und 4-h nach der Mahlzeit verringert sich mit der Zeit und sind stark korreliert, insbesondere für Männer und für Patienten mit gastroparesis. Spearman-Korrelationskoeffizienten lagen im Bereich von 0,34 (p < 0,001) zwischen 1 h und 4 h bei Patienten ohne gastroparesis bis 0,93 (p < 0,001) zwischen 3 h und 4-h für Patienten mit gastroparesis. Insgesamt wichen die Verteilung in Prozent Retention von normalen, mit den ersten beiden Stundenwerte zum unteren Ende zu neigen und den zweiten 2 Stunden in Richtung der oberen Ende Schrägstellung (Abbildung 1). Abbildung 1 Prozent Magenretention bei 1-h, 2 h, 3 h und 4-Stunden nach der Mahlzeit für den Fall (grün) gegenüber Kontrolle (grau). 1-h-c, 2-h-c, 3-h-C, 4-h-c stellt Prozent Magenentleerung (GE) in 1-H, 2-H, 3-H, und 4-h nach der Mahlzeit für Patienten mit gastroparesis diagnostiziert; Whisker repräsentiert 70% Quartilsabstand.
Diagnose Kräfte von LDA und DF Ansatz
Stündlich Maßnahmen bei 3-h und 4-h zuvor berichtet wurden die besten Diagnoseprogramm als mit, wir gegen ihre beste lineare Kombination sowohl von LDA ( Abbildung 2) und DF Ansätze (Tabelle 1). Erste schätzten wir AUC für die beiden Messungen zusammen mit dem optimalen Koeffizienten für die beste lineare Kombination und die Schwellwerte für die lineare Kombination Score bei 0,7, 0,8 und 0,9 Empfindlichkeitsniveaus sowohl von LDA und DF Ansätze für alle bis 1 von 320 Fächer. Der optimale Koeffizient, zusammen mit den drei Schwellwerten wurde dann nach links aus Subjekt angewendet. Durch den Vergleich der Schwellenwerte mit der berechneten linearen Kombination Punktzahl, die vorhergesagte gastroparetic Status für die ausgelassen Thema wurde aufgezeichnet. Die Rate der falsch-negativen und falsch positiven wurden durch Wiederholung des Klappmesser Prozess für alle 320 Probanden erhalten. Dann wurde eine Box-Cox Macht Transformation angewendet und die gleiche Analyse wurde für die transformierten Daten wiederholt. Abbildung 2 des Empfängers operating characteristic (ROC) Kurve für stündliche prozentuale Retention bei 2-h, 3 h, 4-h, und ihre beste lineare Kombination. Fläche unter der Kurve (AUC) erhöhte sich von 2-h bis 4 h und mit der besten linearen Kombination aller drei stündlichen Messungen maximiert.
Tabelle 1 Parameter-Schätzungen (Fläche unter der Kurve (AUC) und der Koeffizient für die beste lineare Kombination ) mit Linear Diskriminanzanalyse Fisher (LDA) und Verteilung Free (DF) nähert sich

4-h
3-h
DF Linearkombination
Linearkombination LDA

Raw

Tran

Raw

Tran

α

Raw

α

Tran

α

Raw

α

Tran

Mean
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.681
0.834
0.055
0.881
STD
0.002
0.001
0.002
0.002
0.00
0.001
0.00
0.001
0.032
0.002
0.002
0.001
Median
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.679
0.833
0.055
0.880
Range
0.013
0.009
0.011
0.009
0.00
0.008
0.00
0.008
0.284
0.012
0.017
0.009
Hinweis: Raw steht für AUC für die Messung in Originalmaßstab;
Tran in transformierten Skala AUC für die Messung darstellt,
α ist Koeffizient für die beste lineare Kombination für die Messung bei 3-Stunden nach der Mahlzeit The Best linear. Kombinationen der beiden stündlichen Maßnahmen erhöht die diagnostische Leistung der einzelnen Komponenten von beiden Ansätzen (Tabelle 2), wurde aber die Verstärkung begrenzt, 3,9% für das DF und 0,4% für die LDA-Ansatz. Wie erwartet verbesserte sich Box-Cox-Power Transformation auf einzelne Marker der Diagnoseleistung durch die beste lineare Kombination mit dem Ansatz LDA um 4,7% höher als die des rohen measures.Table 2 Falsche Einstufungen (%) mit Klappmesser Kreuzvalidierung von Fisher-Linear Diskriminanzknoten Analyse (LDA) und Verteilung Free (DF) nähert sich
Den Kriterien 3-
DF h
4-h DF
Linearkombination DF
Linearkombination LDA
0.7
24 (19,5%)
59 ( 30,0%)
16 (13,0%)
59 (30.0%)
15 (12,2%)
58 (29,4%)
15 (12,2%)
64 (32,3%
) 0.8
37 (30,1%)
39 (19,8%)
21 (17,1%)
40 (20,3%)
21 (17,1%)
40 ( 20,3%)
20 (16,3%)
46 (23,4%)
0.9
60 (48,8%)
21 (10,7%)
27 (21,9%)
23 (11,7%)
28 (22,8%)
20 (10,2%)
27 (22,0%)
22 (11,2%)
Hinweis: Modell Krankheitsstatus vorhergesagt (1 für ja, 0 für nein);
y
: diagnostizierten Krankheitsstatus (1 für ja, 0 für nein)
Mit den Rohdaten, die Unterschiede in der Summe von falsch positiven und falsch negativen Raten für das beste. Linearkombinationen waren 0,2%, 1,6% und -6,5% zwischen DF und LDA Ansätze auf 0,7, 0,8 und 0,9 Empfindlichkeitsstufen. Während die falsch negativen Ergebnisse durch die LDA Ansatz große Abweichung von dem auf die voreingestellten Schwellenwerten (≤3.0%) entspricht, zeigte, verbessert die von der DF-Ansatz relativ nahe sind (≤ ± 0,2%).
Datentransformation der Diagnoseleistung der besten Linearkombinationen sowohl für die LDA und DF nähert sich durch die Summe der falsch-negativen und falsch positiven Raten zu verringern. Die Kürzungen sind 2,2%, 2,8%, 13,8% und -0,9%, -1,1%, 20,1% für die DF und LDA Ansätze sind. Interessanterweise ist die größte Verbesserung der Diagnoseleistung bei der höheren Empfindlichkeit für beide Ansätze.
Diagnose Kräfte mit CART-Ansatz
sieben Entscheidungsbaummodelle, einschließlich des vollständigen Modells (4 stündlichen Messungen zusammen mit dem Alter des Patienten), die Kombinationen von 2-H und 4-H, 3-H und 4-h, zusammen mit jedem stündlichen Maßnahmen wurden für den Endknoten von 10 Probanden mit Mindestgröße durch Baumbeschneidung optimiert [26]. Für alle einzelnen Zeitpunkt Modellen prozentuale Retention bei 4-h hat die größte AUC von 0,865, gefolgt von 3-H, 2-H und 1-h, bzw. (Tabelle 3). Die Rate der Fehldiagnose durch den Entscheidungsbaum-Modell mit 4-h beträgt 14,4% (28 von 123 Patienten ohne gastroparesis, und 18 von 197 für die mit gastroparesis), weniger als die Hälfte derer, die von 1- falsch diagnostiziert werden würde h und 2 h-Punkte und 37% ((73-46) /73) weniger als dieser -at 3-h. Einschließlich 2-h oder 3 h zusammen mit 4-h mit dem Entscheidungsbaum nicht zu einer Erhöhung der Anzahl der korrekten Diagnosen über Verwendung von 4-h allein, wie durch Klappmesser Kreuzvalidierung angegeben. Diese unterscheiden sich von den Ergebnissen, erhalten von LDA und DF Ansätze, in dem die lineare Kombination von 3-H und 4-h zeigte leichte Verbesserung gegenüber unter Verwendung von 4-h allein. Doch mit Entscheidungsbaum-Modell entweder 4-h allein oder die Kombination mit 2-h oder 3-h nicht leiden in diagnostischen Nutzen im Vergleich zu seinem Pendant Modelle mit entweder identifiziert LDA oder DF Ansatz, unabhängig von Datentransformation. Das CART-Modell alle vier stündliche GES Maßnahmen zusammen mit Alter des Patienten unter Verwendung war sehr interessant. Für die Kriterien der Magenretention > 10% bei 4-h und < 53% bei 2-h, Patienten > 47,5 Jahre alt waren fast 2-fach weniger wahrscheinlich gastroparesis (Wahrscheinlichkeit = 0,44) als diejenigen mit dem Alter <zu haben; 47,5 (Wahrscheinlichkeit = 0,85) .Tabelle 3 falsche Einstufungen (%) mit Klappmesser Kreuzvalidierung durch optimierte Klassifikations- und Regressionsbaum (CART) Modelle
Art der Fehldiagnose
1-h
2-h
3-h
4-h

2-h + 4-h
3-h + 4-h
4-h + 3-h + 2-h + 1-h + Alter

76 (61,8%)
28 (22,8%)
29 (23,6%)
28 (22,8%)
28 (22,8%)
28 (22,8%)
26 (21,1%)
24 (12,2%)
69 (35,0%)
44 (22,3%) 18 (9,1%) auf
18 (9.1%)
18 (9,1%)
18 (9,1%)
insgesamt Laufende 100 (31,3%) auf
97 (30,3%) 73 (22,8%) auf
46 (14.4 %)
46 (14,4%) 46 (14,4%)

44 (13,8%)
AUC für optimierte Modell
0.724
0.753
0.825
0,867
0.865
0.858
0.881
Hinweis: Modell vorhergesagt Krankheitsstatus (1 für ja, 0 für nein);
y
: diagnostizierten Krankheitsstatus (1 für ja, 0 für keine ).
Diskussion
Linearkombinationen von diagnostischen Markern von LDA oder DF-Ansatz erhalten in der Regel zu höheren diskriminieren Kräfte (größere AUC) als mit seinen einzelnen Komponenten führen. Eine Simulationsstudie (Ergebnisse hier nicht zeigen) zeigte, dass je stärker die Korrelation zwischen den einzelnen Markierungen, desto kleiner die Zunahme der AUC durch ihre lineare Kombination. Der potenzielle Gewinn in Diagnoseleistung verringert sich jedoch, wenn die Korrelation zwischen den einzelnen Markierungen auf 0,7 zu ​​erhöhen und darüber. Die Wirksamkeit einer linearen Kombination mit nimmt mit der Zunahme der Größe der Unverhältnismäßigkeit in Kovarianzmatrizen zwischen den erkrankten und Kontrollgruppen.
Kleine Probengrößen in optimalen Koeffizienten für die beste lineare Kombination zu große Variation führen und die entsprechenden AUC, insbesondere für die LDA Ansatz. Als Probengröße zunimmt, optimale Koeffizienten und AUC von LDA oder DF Methoden nähern kann oder auch nicht gegenseitig in Abhängigkeit von der Verteilung der einzelnen Marker.
Markerwerte normalen
Wenn die Markerwerte multivariate normal sind, die Schätzungen der LDA Ansatz sind sehr nahe an der DF-Methode in Bezug auf die AUC, die optimalen Koeffizienten und der Diagnoseleistung als durch Simulation angezeigt. Mit Normalverteilung und eine ausreichende Probengröße, fangen die ersten beiden Momente Marker Standort und Skalenparameter mit kleinen Variation. In solchen Fällen hat der LDA Ansatz den Vorteil, Rechenzeiteinsparung (mehr als 100-fach weniger) ohne als die DF Ansatz in der Vorhersagekraft leiden. Dennoch kann LDA nicht DF übertreffen, solange das Suchraster für eine optimale Koeffizient mit DF die Punktschätzung von LDA enthält. Mit anderen Worten, ist die Begrenzung mit DF bei der Berechnung, anstatt Methodik.
Markerwerte nicht normal
Wenn Markerwerte von Normalverteilung abweichen, immer die DF-Ansatz für die beste lineare Kombination, wenn die Suche nach höheren AUC führt Gitter für optimale Koeffizienten ist fein genug. Die Herabstufung Leistung mit LDA Ansatz ist ein direktes Ergebnis die Mittel verwenden, die aufgrund der Abnormalität vorgespannt ist. Exponentialverteilung zum Beispiel tendiert einen langen Schwanz mit einem hohen Grad von Schiefe aufweist, mit einer positiven Vorspannung an einem mittleren führt. Als Folge davon sind die Varianzen für Marker aufgeblasen und die AUC neigt dazu, kleiner zu sein. Noch wichtiger ist, neigt die beste lineare Kombination mit LDA Ansatz erhalten die falsch-negative Rate und unterschätzen die falsch-positive Rate am unteren Empfindlichkeitsstufe (Tabelle 2), und genau das Gegenteil mit der höheren Empfindlichkeit zu überschätzen. Im Gegensatz dazu ist die beste lineare Kombination von DF Ansatz weniger von Extremwerten beeinflusst und neigt dazu, höhere diagnostische Leistung zu haben, während die voreingestellte Empfindlichkeit beibehalten wird. Dies ist wichtig, weil in der Praxis eine feste falsch-negative Rate eine kritische Grenze der Toleranz in der diagnostischen Medizin darstellt. Jenseits solcher Grenze, würde der Anteil von Verlust-Nutzen-Verhältnis zu erhöhen, oder zumindest die diagnostische Entscheidung ist weniger kosteneffektiv.
Die Wirkung von Datentransformation Wie wirksam Datentransformation verbessert die normale Passform und somit Parameterschätzung durch LDA Ansatz, aber ob diese Verbesserung der neuen Daten enthalten wird, die nicht zur Parameterschätzung enthalten ist, bleibt unklar. Kreuzvalidierung mit den gastroparesis Daten zeigten, dass Leistung Transformation AUC erhöht und stabilisiert Parameterschätzungen in den Trainingssätzen, und, dass solche Gewinne in höhere diagnostische Leistung in den Test-Sets (Tabelle 2) übersetzen würde. Datentransformation schloss die Lücke in der diagnostischen Leistung zwischen den besten linearen Kombinationen von LDA und DF nähert sich mit den klinischen Daten. Interessanterweise zeigte die DF-Ansatz eine konsequente Verbesserung mit Transformation auf allen Ebenen der Empfindlichkeit bei 0,7, 0,8 und 0,9. Der Trend bei der LDA-Ansatz ist nicht so klar. Ein Grund dafür könnte die Prozent Magen Einbehalten werden gemessen bei 3-h und 4-h sind so verzerrt, dass die Macht Transformation nicht ausreicht, um die Messungen auf nahezu Normalverteilung zu setzen.
Optimierung der Diagnoseleistung von GES Maßnahmen mit CART-Modell

  • Magen-Artikel
  •   
  • Magen-Struktur
  •   
  • Pflege des Magens
  •   
  • Researches
  • Researches

    Researches

    Other Languages