En este artículo se dispone de informes de revisión abierta de pares disponibles.
¿Cómo funciona el examen abierto Peer?
La optimización de la potencia de diagnóstico con el vaciado gástrico la gammagrafía en múltiples momentos
Resumen Antecedentes
vaciamiento gástrico la gammagrafía (GES) a intervalos de más de 4 horas después de una comida estandarizada radiomarcado es comúnmente considerado como el estándar de oro para el diagnóstico de gastroparesia. Los objetivos de este estudio fueron: 1) para investigar el mejor punto de tiempo y la mejor combinación de múltiples puntos de tiempo para el diagnóstico de gastroparesia con medidas GES repetidos, y 2) para contrastar y validación cruzada de análisis discriminante lineal de Fisher (LDA), un rango Distribución enfoque basado gratuito (DF), y el modelo de clasificación y regresión del árbol (CART).
Métodos
un total de 320 pacientes con medidas GES a 1, 2, 3 y 4 hora (h) después de una norma comida utilizando un método estandarizado se recogieron de forma retrospectiva. El área bajo la curva característica de funcionamiento del receptor (ROC) y la tasa de clasificación errónea a través de navaja de validación cruzada se utilizaron para la comparación de modelos.
: Resultados de la Debido a la fuerte correlación y una anomalía en la distribución de datos, ninguna mejora sustancial en el diagnóstico el poder se encontró con la mejor combinación lineal de enfoque LDA incluso con la transformación de datos. Con el método DF, la combinación lineal de 4-H y 3-h aumentó el área bajo la curva (AUC) y disminuyó el número de clasificaciones falsas (0,87; 15,0%) en puntos de tiempo individuales (0,83, 0,82; 15,6%, 25,3 %, por 4-h y 3-h, respectivamente) a un nivel de sensibilidad más alto (sensibilidad = 0,9). El modelo Carro con 4 mediciones por hora GES junto con la edad de los pacientes fue la herramienta de diagnóstico más preciso (AUC = 0,88, clasificación errónea = 13,8%). Los pacientes que tienen un valor de retención gástrica 4-h >. 10% eran 5 veces más probabilidades de tener la gastroparesia (179/207 = 86,5%) que aquellos con ≤10% (18/113 = 15,9%)
Conclusiones
con un grupo mixto de pacientes o bien se hace referencia con sospecha de gastroparesia o investigados por otras razones, el modelo CART es más robusto que los enfoques LDA y DF, capaz de acomodar efectos de covarianza y se puede generalizar para aplicaciones institucionales transversales, pero podría ser inestable si tamaño de la muestra es limitada.
Antecedentes
gammagrafía de vaciamiento gástrico a intervalos de más de 4 horas después de una comida estandarizada es comúnmente considerado como el estándar de oro para la medición de los tiempos de vaciado gástrico. En la práctica, una medida cada hora simplificado del contenido gástrico residuales se utiliza para el diagnóstico de gastroparesia definido como retraso del vaciado gástrico (GE) en ausencia de obstrucción mecánica [1, 2]. La comida de radio marcado con medidas técnica que queda en el estómago a intervalos de una hora después de paciente ingiere una comida estandarizada [3] como un indicador de retraso en GE. Debido a las diferencias en los alimentos utilizados, las técnicas empleadas, y los puntos finales medidos con GES, análisis e interpretación de los resultados varían entre las instituciones [4]. La mayoría de los estudios anteriores han demostrado que retrasa el vaciado gástrico puede ser mejor indicada con la retención gástrica de > 10% a 4 h después de la comida, que se estableció como el percentil 95 en la retención gástrica con voluntarios normales a través de un estudio multicéntrico [5, 6] . Como siempre, la decisión de diagnóstico basado en la distribución es arbitraria y puede inducir a error, inevitablemente, debido a errores de clasificación. Se ha informado de que el enfoque simplificado tiene una especificidad de 62% y una sensibilidad del 93% [7]. Otros utilizan la retención por ciento a 2-h como las mediciones clínicas de rutina de GES [8], lo que sugiere GES en 2-h o 3-h podría ser el mejor punto de tiempo individual con poder de diagnóstico mayor. Sin embargo, las retenciones gástricas por ciento en diferentes puntos temporales también pueden estar sujetos a la edad del paciente y el género [5]. La falta de estandarización en la realización de GES, junto con las diferencias en el análisis cuantitativo utilizados en diversas instituciones pueden limitar la utilidad clínica de la prueba, y presenta problemas si tienen que evaluarse los datos institucionales transversales. En 2008, en nombre de la Neurogastroenterología Americanos y la Sociedad Motilidad y la Society of Nuclear Medicine, investigadores de 13 instituciones médicas de Estados Unidos emitieron conjuntamente una declaración de consenso para la normalización de GES a través de las instituciones [4]. Además, las cuestiones que requieren una mayor investigación fueron identificados por el consenso, que incluyen: 1) el uso de 3-h en comparación con los de 2 y 4 h resultados para la detección de retardo en el EG; y 2) el uso de múltiples puntos de tiempo (de 2 y 4 h) frente a los valores individuales de 2 ó 4 h para una mayor comprensión del significado clínico de los resultados discordantes entre exploraciones de 2 y 4 h.
Metodología sobre el uso diferentes marcadores de diagnóstico para detectar enfermedades o evaluar los riesgos relacionados con la salud ha sido un campo activo de investigación [9-11]. Con los rápidos avances en las tecnologías de genómica y proteómica, el foco en la detección de enfermedades basadas en biomarcadores y evaluación de riesgos, se ha pasado de un único biomarcador a un panel de biomarcadores ya que diferentes marcadores pueden ser sensibles a diferentes aspectos de la enfermedad [12]. Se argumenta que, en comparación con un solo marcador clínico o genética, un panel de marcadores múltiples puede contener un mayor nivel de información discriminatoria, en particular a través de grandes poblaciones heterogéneas de pacientes y para las enfermedades de varias etapas complejas. Esto es importante porque el uso de múltiples marcadores simultáneamente podría dar lugar a una nueva medida de diagnóstico con una sensibilidad más alta [11].
Cuando varios marcadores son continuas y normalmente distribuido, LDA de Fisher proporciona la mejor combinación lineal que maximiza la sensibilidad en toda la gama especificidad uniformemente bajo el modelo de distribución normal multivariante [11]. Cuando los valores de los marcadores se desvían de la normal, una transformación de energía Box-Cox se puede utilizar para mejorar el ajuste normal [13]. Este enfoque se ha encontrado eficaz en la estimación de las curvas ROC AUC y si las distribuciones subyacentes verdaderos, ya sea en el original o en una escala transformada, están cerca de normal multivariante [11]. De lo contrario, un enfoque de libre distribución basada rango se puede aplicar. Los aspectos teóricos de la mejor combinación lineal de los biomarcadores se informaron bien [[9, 11, 14-19] y [20]]. LDA de Fisher es más fácil de calcular, mientras que el enfoque DF es más robusto a la desviación de la distribución normal, pero es computacionalmente prohibitivo si se trata de más de dos marcadores [19]. Se utilizaron los parámetros estimados de LDA como punto de partida para la búsqueda de la red con DF si el espacio marcador va más allá bilateral. El modelo CART, por otra parte, proporciona otro enfoque para optimizar la potencia de diagnóstico cuando los marcadores son [21-23] multi-dimensional. En lugar de crear un nuevo método diagnóstico como LDA o DF, CART utiliza un proceso secuencial para identificar el conjunto de variables predictoras, en su escala original, que mejor diferenciar entre los grupos de la variable de resultado de interés. Es particularmente útil cuando hay muchas variables predictoras que están altamente correlacionados. Es computacionalmente menos intensiva y fácil de interpretar, pero puede ser inestable si el modelo está entrenado adecuadamente con datos limitados.
Mayoría de los estudios anteriores se centran en la obtención de la mejor combinación de marcadores que maximiza AUC para sujetos cuyo estado de la enfermedad que se conoce [11 , 14-20]. No está claro si el poder de diagnóstico para una combinación de este tipo se extiende a la población con valores de los marcadores conocidos, pero el estado de la enfermedad desconocida o de la población cuyos valores marcador no se utilizan para derivar los parámetros de diagnóstico. Con una comida estandarizada (ver Materiales y Métodos) y la técnica por hora GES (cinco sesiones de 2 minutos de imagen) durante un período de 4 horas, menos tiempo se requiere la cámara mientras que los resultados puedan ser reproducibles de hospital en hospital. Este documento evalúa las opciones estadísticos que optimizan el poder diagnóstico de las medidas de GES en algunos puntos de tiempo. Usando el diagnóstico clínico primario, definido por síntomas tales como náuseas, vómitos, saciedad temprana, plenitud posprandial, malestar abdominal y dolor, además de evidencia de retraso del vaciamiento gástrico en ausencia de obstrucción de la salida gástrica mecánica, como el verdadero estado de la gastroparesia , este estudio se centra en la búsqueda de los parámetros de la mejor combinación lineal de GES en diferentes puntos temporales con datos de entrenamiento, entonces, investiga y transversal valida su desempeño en los datos de prueba que no fue utilizada para derivar el modelo.
Métodos
la curva característica de funcionamiento del receptor (ROC) y el área bajo la curva, en particular, es una medida sencilla y significativa para evaluar la utilidad de un marcador de diagnóstico (s) [10]. A lo largo de este documento, la República de China y el ABC se utilizan para comparar entre los diferentes métodos y modelos diferentes para el mejor poder de diagnóstico de gastroparesia. Se utilizó la suma de diagnósticos falsos positivos y falsos negativos en toda la muestra para contrastar la potencia diagnóstica entre LDA, DF y CART a través de navaja (sacar a uno) validación cruzada.
enfoque discriminante lineal de Fisher (LDA)
Let w
ij
representa el i
º
valor del marcador de la j
º
sujetos en el grupo de enfermos; y v
ik
sea el i
º
valor del marcador de la k
º
sujetos en el grupo control; donde i
= 1, ..., p; j
= 1, ..., m; y k
= 1, ..., n.
Supongamos que X e Y son vectores de valores de los marcadores con distribución normal multivariante para los grupos de enfermos y de control, respectivamente, a continuación, (1) el vector de coeficientes, α
p × 1, para la mejor combinación lineal de los vectores marcador combinado de los grupos de enfermos y de control bajo los criterios de la República de China es: (2) el AUC bajo la curva ROC es: (3) Cuando, Φ indica la norma acumulativa . función de distribución normal Francia El Especificidad (F (c)) y sensibilidad (H (c)) son: (4) (5) Rango de distribución basados en el enfoque libre (DF)
bajo el rango de distribución basado libre de aproximación [19], las AUC se puede calcular como la estadística de Mann-Whitney U [24]: (6) Tenga en cuenta, para la distribución continua, Pr (I
= 1/2) = 0. ENIT, Dónde, w
ij es el
i
º valor del marcador para el j
º sujetos en el grupo de enfermos; v
ik
es el i
º valor del marcador para el k
º sujetos en el grupo control; i, j, k, m
, y n
como se define en la sección anterior; AUC gratis (α
) es el área bajo la curva por el método de distribución con vector de coeficientes óptimos (α). Dado que la República de China no varía en función monótona creciente transformación, el coeficiente α vector Hoteles en tanto LDA y enfoques DF se pueden reajustarán como (1, β 2 /β 1, β 3 /β 1, ... β i /β 1), donde β i /β 1 representa el peso para el i
º valor del marcador con respecto al marcador de 1 [19].
Árboles de clasificación y regresión (CART) modelo
a diferencia de LDA o DF, metodología Carro identifica el conjunto de predictores de todas las variables que mejor diferencian a las clases en el resultado de interés en un proceso secuencial. En cada paso (nodo), el algoritmo CART identifica en primer lugar es el mejor predictor de todas las variables candidatas y luego busca a través de todos los valores para el mejor predictor, pero utiliza sólo un punto de corte para dividir la muestra dentro del nodo en dos sub-ramas. A continuación, busca a través de todas las variables de predicción e identifica el mejor punto de corte de la mejor predictor dentro de cada sub-rama y repite el proceso hasta que se cumpla con ciertos criterios, como una variación mínima o un número mínimo de personas, en todos los nodos terminales. En cada nodo, CART pretende clasificar la muestra en grupos de tal manera que se alcanza la máxima homogeneidad de los nodos secundarios. Cuando se alcanza un nodo terminal, el modelo da la probabilidad de pertenecer a una categoría particular para todos los sujetos restantes que caen en ese nodo. En la práctica, el tamaño mínimo de nodo se establece normalmente en 10% de la muestra de aprendizaje para evitar potencialmente más de ajustar el modelo de tal manera que el árbol de decisión final es más probable que sea útil para la clasificación de poblaciones con características similares a la de la muestra de aprendizaje, pero era no se utiliza para derivar el modelo CART. En contraste con el enfoque LDA, CART puede ser especialmente útil cuando los patrones de correlación entre variables predictoras no son consistentes en toda la gama, debido a que no es necesario para la misma variable sea óptimo para todos los nodos de ramificación de todo el árbol de [22].
estimación de parámetros
para la aproximación LDA, que escribió un programa SAS /IML [25] para el cálculo de la media (m), la varianza (S) para los grupos de enfermos y de control, y todas las estimaciones de los parámetros se describen en el método sección. En primer lugar, el coeficiente de vector α
, AUC para la combinación lineal, así como para los marcadores individuales, se obtuvo con las ecuaciones (2) y (3) a partir de los datos de entrenamiento. Entonces, el coeficiente α
se aplicó a los datos de prueba correspondientes para obtener la puntuación combinación lineal. Tres valores de umbral correspondientes a los niveles de sensibilidad en el 0,7, 0,8, y 0,9 para la puntuación combinación lineal se obtuvieron con los datos de gastroparesia utilizando en la ecuación (5). se utilizó Cada valor de umbral en los datos que quedan fuera de clasificar el caso en el grupo, ya sea enfermo o no enferma. El estado predicho fue entonces tabulación cruzada con la categoría de las enfermedades conocidas. Francia El enfoque DF comenzó con un punto de partida arbitrario y luego buscó rejilla para los coeficientes que maximizan la estadística de Mann-Whitney U con los datos de entrenamiento en los siguientes pasos.
1) una puntuación combinación lineal para cada observación se obtuvo multiplicando el marcador de vector X con un coeficiente de vector de partida, α
(1, α
).
2) el AUC correspondiente a el vector de coeficiente α
se calcula con la ecuación (6). página 3) Repita los dos primeros pasos para cada posible vector de coeficientes y el agregado de la AUC correspondiente y α
. página 4) Seleccione el coeficiente que maximizado el AUC e identificar el valor de la puntuación combinación lineal crítica en 0.7, 0.8, y los niveles de 0,9 sensibilidad.
5) la aplicación del coeficiente de la etapa 4 para los datos de prueba para obtener la mejor puntuación combinación lineal.
6) uso cada valor crítico del paso 4 de los datos de prueba para predecir cada caso en ninguno de los grupos enfermo o no enfermo, entonces tabulación cruzada con la categoría de las enfermedades conocidas.
para el modelo CART, se utilizó el paquete ÁRBOL dentro de R [26] entorno para cada una de las cuatro medidas por hora, y su combinación junto con la edad y género del paciente para identificar el mejor modelo. La validación cruzada con un tamaño mínimo de 10 sujetos para cada nodo terminal se utiliza para optimizar el modelo de árbol de decisión de acuerdo con todas las observaciones [27]. AUC para cada árbol de decisiones optimizada se calculó de comparar entre todos los modelos. A continuación, una observación se sacó toda la muestra, y el resto de materias utiliza para construir el árbol de decisión, que a su vez se utiliza para predecir el estado de la enfermedad de la observación dejado fuera. La rentabilidad de cada árbol de decisión se resumió con el número total de predicciones erróneas a través de toda la muestra.
Datos Gastroparesis
un total de 320 cartas de pacientes de entre 16 ~ 89 (42,8 ± 14,3 (media ± std)), 255 (79%) mujeres, con medidas GES a 1 h, 2 h, 3 h y 4 h después de una comida estándar utilizando un método estandarizado (5) se han recogido retrospectivamente en la Universidad de Kansas Medical Center (KUMC). El protocolo de estudio fue aprobado por la Junta de Revisión Institucional (IRB) de KUMC. Durante la medición GES, la fracción de comida consumida y se registró el tiempo necesario para el consumo. Los sujetos con comida ciento inusual consumidos (por ejemplo < 20% de la comida) /tiempo de consumo (por ejemplo, > 30 minutos) fueron excluidos. Todos los pacientes fueron referidos ya sea con sospecha de gastroparesia o investigados por otras razones a causa de síntomas auto reportado como náuseas, sensación de plenitud, saciedad precoz, vómitos y distensión abdominal. Basándose en la evaluación global, además de las medidas GES por hora, los médicos del estudio diagnosticaron 197 (62%) de los 320 pacientes con gastroparesia como la razón principal para los síntomas clínicos antes mencionados y sus visitas al hospital. A pesar de las experiencias médicas similares, enfermedades distintas de la gastroparesia se consideraron como los diagnósticos primarios para los 123 pacientes restantes. No hubo diferencias significativas en la edad media (p = 0,12, t-test) y el sexo (p = 0.99, de χ 2 pruebas) se encontraron entre los grupos con y sin la gastroparesia. Para cada paciente, la gammagrafía vaciado gástrico se realizó en la mañana después de un ayuno durante la noche con procinéticos dejaron durante al menos 3 días. El método estandarizado para el vaciado gástrico consiste en el equivalente de dos huevos revueltos (sustitutos de huevo) marcado con 99m Tc azufre coloidal, 2 piezas de pan tostado con mermelada, y 4 onzas de agua con un valor calórico total de 255 kcal. Imágenes anterior y posterior del estómago se tomaron inmediatamente después de comer, y después cada hora durante 4 horas [28].
Resultados
durante la medición repetida de vaciado gástrico, retenciones por ciento del isótopo en el estómago al 1-h, 2-h, 3 h, y 4-h después de la comida disminuyó con el tiempo y están altamente correlacionados, especialmente para los varones y para pacientes con gastroparesia. coeficiente de correlación de Spearman varió de 0,34 (p < 0,001) entre 1-h y 4-h para los pacientes sin gastroparesis a 0,93 (p < 0,001) entre 3-h y 4 h-para pacientes con gastroparesia. En general, la distribución en porcentaje de retención desviada de la normal, con los dos primeros valores por hora sesgando hacia el extremo inferior, y el segundo dos horas sesgando hacia el extremo superior (Figura 1). Figura 1 Porcentaje de retención gástrica en 1-h, 2 h, 3 h, y 4-h después de la comida para el caso (verde) frente a control (gris). 1-h-c, 2-h-c, 3-h-c, 4-h-c representa por ciento de vaciado gástrico (GE) en 1-h, 2 h, 3 h, y 4-h después de la comida para los pacientes diagnosticados con gastroparesia; Bigote representa el 70% rango intercuartil.
Poderes de diagnóstico por LDA y el enfoque DF
medidas por hora a las 3 h y 4 h se había informado anteriormente como tener la mejor utilidad de diagnóstico, hemos contrastado su mejor combinación lineal por tanto LDA ( la Figura 2) y los enfoques DF (Tabla 1). En primer lugar, se estimó AUC para las dos mediciones, junto con el coeficiente óptimo para su mejor combinación lineal y los valores de umbral para la puntuación combinación lineal de 0,7, 0,8, y 0,9 grados de sensibilidad por tanto LDA y DF enfoques para todos menos 1 de cada 320 asignaturas. El coeficiente óptimo, junto con los tres valores de umbral se aplicó entonces al sujeto dejado fuera. Mediante la comparación de los valores de umbral con la puntuación combinación lineal calculada, se registró el estado gastroparetic predicho para el sujeto excluido. Las tasas de falsos negativos y falsos positivos se obtuvieron mediante la repetición del proceso de navaja de bolsillo para todos los 320 sujetos. A continuación, una transformación de energía Box-Cox se aplicó y se repitió el mismo análisis para los datos transformados. Figura 2 característico (ROC) Curva de funcionamiento del receptor para la retención por ciento por hora a las 2 h, 3 h, 4 h, y su mejor combinación lineal. Área bajo la curva (AUC) aumentó de 2 horas a 4 horas y se maximiza con la mejor combinación lineal de las tres mediciones por hora.
Tabla 1 Estimaciones de los parámetros (área bajo la curva (AUC) y el coeficiente para la mejor combinación lineal ) con el análisis de Fisher discriminante lineal (LDA) y distribución libre (DF) se aproxima
página 4-h
3-h
combinación lineal combinación lineal DF
LDA
Raw
Tran
Raw
Tran
α
Raw
α
Tran
α
Raw
α
Tran
Mean
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.681
0.834
0.055
0.881
STD
0.002
0.001
0.002
0.002
0.00
0.001
0.00
0.001
0.032
0.002
0.002
0.001
Median
0.830
0.879
0.824
0.827
0.02
0.869
0.02
0.869
0.679
0.833
0.055
0.880
Range
0.013
0.009
0.011
0.009
0.00
0.008
0.00
0.008
0.284
0.012
0.017
0.009
Nota: Raw significa AUC para la medición en escala original;
Tran representa AUC para la medición en escala transformada;
α es el coeficiente para la mejor combinación lineal para la medición a 3 h después de la comida México La lineal. combinaciones de las dos medidas hora aumentaron el poder diagnóstico de sus componentes individuales por ambos enfoques (Tabla 2), pero la ganancia era limitado, 3,9% para el DF, y 0,4% para el enfoque LDA. Como era de esperar, la transformación de potencia de Box-Cox en los marcadores individuales mejoró el poder de diagnóstico por la mejor combinación lineal con el enfoque LDA en un 4,7% a la del measures.Table prima 2 clasificaciones falsas (%) con la navaja de bolsillo de validación cruzada por discriminante lineal de Fisher análisis (LDA) y distribución libre (DF) se acerca
3- h DF
4-h combinación DF
lineal combinación lineal DF
LDA
0.7
24 (19,5%)
59 ( 30,0%)
16 (13,0%)
59 (30,0%)
15 (12,2%)
58 (29,4%)
15 (12,2%)
64 (32,3% ): perfil del 0,8
37 (30,1%): perfil 39 (19,8%): perfil 21 (17,1%): perfil 40 (20,3%): perfil 21 (17,1%): perfil 40 ( 20,3%)
20 (16,3%)
46 (23,4%)
0.9
60 (48,8%): perfil 21 (10,7%): perfil 27 (21,9%)
23 (11,7%)
28 (22,8%)
20 (10,2%)
27 (22,0%)
22 (11,2%)
Nota:: modelo predijo estado de la enfermedad (1 de sí, 0 para no);
y
: estado diagnosticado la enfermedad (1 para sí, 0 para no) Vaya con los datos en bruto, las diferencias en la suma de las tasas de positivos falsos y negativos falsos para el mejor. combinaciones lineales fueron 0,2%, 1,6% y -6,5% entre el DF y LDA se acerca a los 0,7, 0,8, 0,9 y niveles de sensibilidad. Mientras que las tasas de falsos negativos por el enfoque LDA mostraron gran desviación de la correspondiente a los niveles predeterminados de umbral (≤3.0%), los que por el enfoque DF están relativamente cerca (≤ ± 0,2%).
Transformación de datos mejoró el poder diagnóstico de las mejores combinaciones lineales, tanto para el LDA y DF enfoques por la disminución de la suma de las tasas de positivos falsos negativos y falsos. Las reducciones son del 2,2%, 2,8%, 13,8% y -0,9%, -1,1%, 20,1% para los enfoques DF y LDA, respectivamente. Curiosamente, la mayor mejora en el poder de diagnóstico está en el nivel más alto de sensibilidad para ambos enfoques.
Poderes de diagnóstico con enfoque Carro
Siete modelos de árboles de decisión, incluyendo el modelo completo (4 mediciones por hora a lo largo de la edad del paciente), las combinaciones de las 2 horas y 4-h, 3 h y 4 h, junto con medidas cada hora, fueron optimizados a través con el tamaño mínimo para el nodo final de 10 sujetos [26]-poda de árboles. Para todos los modelos de puntos de tiempo individuales, el porcentaje de retención en la 4-H tiene la mayor AUC de 0,865, seguido de 3-h, 2 h, y 1-h, respectivamente (Tabla 3). La tasa de falsos diagnósticos según el modelo de árbol de decisión con 4-h es de 14,4% (28 de 123 para los pacientes sin gastroparesia, y 18 de los 197 para las personas con gastroparesia), menos de la mitad de los que se diagnostica erróneamente por 1- h y los puntos 2-h, y 37% ((73 a 46) /73) menor que -al 3-h. Incluyendo 2-ho-3 h junto con el 4-h con el árbol de decisión no aumentó el número de diagnósticos correctos sobre el uso de 4-H solo como se indica por la validación cruzada de navaja. Estos difieren de los resultados obtenidos a partir de LDA y DF enfoques, en los que la combinación lineal de 3-h y 4 h-mostraron una ligera mejora sobre el uso de 4-h solo. Sin embargo, el modelo de árbol de decisión, ya sea con 4-h solos o su combinación con 2-ho-3 h no sufrió en la utilidad de diagnóstico en comparación con sus contrapartes modelos identificados, ya sea con o LDA enfoque DF, independientemente de transformación de datos. El modelo CART usando las cuatro medidas GES por hora a lo largo de la edad del paciente fue muy interesante. Para los criterios de retención de >gástrica; 10% en 4 horas y < 53% en 2-H, los pacientes > 47,5 años de edad fueron casi 2 veces menos probabilidades de tener gastroparesia (probabilidad = 0,44) como los que tienen la edad < 47.5 (probabilidad = 0,85) .table 3 clasificaciones falsas (%) con navaja de validación cruzada por Clasificación optimizado Y árbol de regresión (CART) modelos
1-h
2-h
3-h
4-h
2-h + 4 h
3-h + 4 h
4-h-h + 3 + 2 + 1-h-h + Edad
76 (61,8%)
28 (22,8%)
29 (23,6%)
28 (22,8%)
28 (22,8%)
28 (22,8%)
26 (21,1%) guía empresas 24 (12.2%)
69 (35,0%)
44 (22,3%)
18 (9,1%)
18 (9,1%)
18 (9.1%)
18 (9,1%)
total Diagnóstico erróneo
100 (31,3%)
97 (30,3%)
73 (22,8%)
46 (14,4 %)
46 (14,4%)
46 (14,4%)
44 (13,8%)
AUC Para optimizado Modelo
0,724 0,753
0,825 0,867
0,865 0,858
0.881
Nota:: modelo predijo estado de la enfermedad (1 para sí, 0 para no);
y
: estado de la enfermedad diagnosticada (1 para sí, 0 para no )
. Discusión
combinaciones lineales de marcadores diagnósticos obtenidos por LDA o enfoque DF por lo general conducen a potencias más elevadas (mayor discriminan AUC) que con sus componentes individuales. Un estudio de simulación (resultados no muestran aquí) indicó que el más fuerte es la correlación entre los marcadores individuales, menor es el aumento de AUC por su combinación lineal. La ganancia potencial en poder de diagnóstico, sin embargo, disminuye cuando la correlación entre los marcadores individuales aumentar hasta 0,7 y por encima. La eficacia de la utilización de una combinación lineal disminuye con el aumento de la magnitud de desproporción en matrices de covarianza entre los grupos de enfermos y de control.
Tamaños de muestra pequeños conducen a gran variación en coeficientes óptimos para mejor combinación lineal y el AUC correspondiente, especialmente para el enfoque LDA. A medida que aumenta el tamaño de la muestra, los coeficientes óptimos y el AUC de LDA o métodos DF pueden o no acercarse entre sí en función de la distribución de los marcadores individuales.
Valores de los marcadores normales
Cuando los valores de los marcadores son normal multivariante, las estimaciones de la enfoque LDA están muy cerca de la del método de DF en términos de AUC, los coeficientes óptimos, y el poder de diagnóstico como se indica por simulación. Con la distribución normal y tamaño de muestra adecuado, los dos primeros momentos capturan parámetro de localización y la escala del marcador con pequeñas variaciones. En tales casos, el enfoque LDA tiene la ventaja en el ahorro de tiempo de cálculo (más de 100 veces menos) sin sufrir en el poder predictivo que el enfoque DF. Sin embargo, LDA no puede superar DF, siempre y cuando la red de búsqueda de coeficiente óptimo con DF contiene la estimación puntual por LDA. En otras palabras, la limitación con DF es en el cálculo, en lugar de la metodología.
Valores de los marcadores
no es normal Cuando los valores de los marcadores se desvían de distribución normal, el enfoque DF siempre conduce a una mayor AUC para la mejor combinación lineal si la búsqueda rejilla para los coeficientes óptimos es lo suficientemente fina. El rendimiento degradación con el enfoque LDA es un resultado directo de la utilización de los medios que es parcial debido a la anormalidad. distribución exponencial, por ejemplo, tiende a tener una cola larga con un alto grado de asimetría, que conduce a una media con un sesgo positivo. Como consecuencia, las varianzas de los marcadores son inflados y el AUC tiende a ser más pequeño. Más importante aún, la mejor combinación lineal obtenido con el enfoque LDA tiende a sobreestimar la tasa de falsos negativos y subestimar la tasa de falsos positivos en el nivel de sensibilidad más baja (Tabla 2), y hacer exactamente lo contrario en el nivel de sensibilidad más alta. Por el contrario, la mejor combinación lineal de enfoque DF se ve menos afectada por los valores extremos y tiende a tener mayor poder de diagnóstico, mientras que el mantenimiento de los niveles de sensibilidad preestablecidos. Esto es importante porque, en la práctica, una tasa de falsos negativos fijo representa un límite crítico de la tolerancia en la medicina de diagnóstico. Más allá de este límite, la participación de la tasa de pérdida-beneficio aumentaría, o, al menos, la decisión de diagnóstico es menos rentable.
El efecto de transformación de datos
transformación de datos eficaz mejora el ajuste normal y por lo tanto la estimación de parámetros por enfoque LDA, pero si esta mejoría se mantenga en los nuevos datos que no se incluyen para la estimación de parámetros aún no está claro. La validación cruzada con los datos de gastroparesia indicó que la transformación de energía aumentó el AUC y estabilizado estimaciones de los parámetros en los conjuntos de entrenamiento, y que tales ganancias se traducirían en un mayor poder de diagnóstico en las unidades de prueba (Tabla 2). la transformación de datos se cerró la brecha en el poder de diagnóstico entre las mejores combinaciones lineales de LDA y DF se acerca con los datos clínicos. Curiosamente, el enfoque DF mostró una mejora consistente con la transformación a través de todos los niveles de sensibilidad en 0.7, 0.8, y 0.9. La tendencia con el enfoque LDA no es tan clara. Una razón podría ser las retenciones gástricas por ciento medido en 3 horas y 4-h son tan sesgada que la transformación de energía no es suficiente para poner las mediciones sobre la distribución casi normal.
Optimizar el poder diagnóstico de medidas GES con el modelo CART
investigaciones
investigaciones
Other Languages