Material docente de la Unidad de Bioestadística Clínica
Material docente de la Unidad de Bioestadística Clínica
1. Teo...
61 downloads
871 Views
3MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Material docente de la Unidad de Bioestadística Clínica
Material docente de la Unidad de Bioestadística Clínica
1. Teoría de la probabilidad 2. Introducción a la estadística 3. Análisis de la varianza 4. Modelos de regresión lineal 5. Precisión y validez de las pruebas diagnósticas 6. Modelos de regresión logística 7. Modelos de regresión de Poisson 8. Análisis de Supervivencia 9. Medidas de frecuencia de la enfermedad 1. Teoría de la probabilidad 1.1 Idea intuitiva 1.2 Formalización de la probabilidad 1.3 Definición axiomática de la probabilidad 1.4 Propiedades de la probabilidad 1.5 Probabilidad condicionada 1.6 Sucesos independientes 1.7 Regla de la probabilidad total 1.8 Teorema de Bayes 1.9 Problemas propuestos Anexo I Repaso de Algebra de Conjuntos Definiciones Propiedades Función de conjunto 2 Estadística 2.1 Definiciones 2.1.1 ¿Por qué la estadística? 2.2 Estadística descriptiva 2.2.1 Métodos gráficos de representación de datos 2.2.2 Medidas descriptivas 2.2.3.Medidas de posición 2.2.4 Medidas de dispersión 2.3 Variable aleatoria 2.3.1 Inducción de probabilidad a variables aleatorias 2.3.2 Función densidad de probabilidad (fdp) 2.3.3 Función acumulativa de probabilidad http://www.hrc.es/bioest/M_docente.html (1 of 5) [28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadística Clínica
2.3.4 Parámetros característicos de una fdp 2.4 Problemas propuestos 2.5 Inferencia estadística 2.6 Estimación de parámetros 2.6.1 Distribución muestral de medias 2.6.2 Estimación de proporciones 2.7 Problemas propuestos 2.8 Contrastes de hipótesis 2.8.1 Tamaño muestral para contrastes sobre medias 2.8.2 Comparación de medias 2.8.3 Independencia de v.a. cualitativas 2.9 Estadísticos de fuerza de asociación 2.10 Problemas propuestos 2.11 Introducción a la causalidad 2.12 Introducción al análisis multivariante 3. Análisis de la varianza 3.1 Bases del análisis de la varianza 3.2 Algunas propiedades 3.3 Ejemplo 1 3.4 Pruebas para la homocedasticidad 3.5 Modelos de Anova 3.5.1 Modelo I o de efectos fijos 3.5.2 Modelo II o de efectos aleatorios 3.6 Pruebas “a posteriori” 3.7 Análisis de la varianza de dos factores 3.8 Identidad de la suma de cuadrados 3.9 Contrastes de hipótesis en el anova de 2 vías 3.9.1 Modelo I 3.9.2 Modelo II 3.9.3 Modelo mixto 3.10 Ejemplo 2 3.11 Tamaños muestrales desiguales en un anova de 2 vías 3.12 Casos particulares: Anova sin repetición y Bloques completos aleatorios 3.13 Ejemplo 3 3.14 Análisis de la varianza de más de dos factores 4. Correlación y Modelos de regresión lineal 4.1 Bibliografía 4.2 Generalización del concepto de fdp a variables multidimensionales 4.3 Independencia de dos variables aleatorias 4.4 Función lineal 4.5 Modelo I de regresión lineal simple http://www.hrc.es/bioest/M_docente.html (2 of 5) [28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadística Clínica
4.6 Interpretación del contraste α1=0 4.7 Inferencias sobre la regresión 4.8 Análisis de la varianza de la regresión simple 4.9 Modelo II de regresión lineal simple 4.10 Propiedades del coeficiente de correlación 4.11 Potencia de los contrastes en regresión 4.12 Modelo de regresión lineal múltiple 4.13 Estimación y contrastes de hipótesis 4.14 Análisis de la varianza de la regresión múltiple 4.15 Variables indicadoras ("dummy") 4.16 Interacción y confusión en la regresión 4.17 Estrategias de modelización 4.18 El problema de la colinealidad 4.19 Análisis de los residuos 4.20 Regresión lineal con el PRESTA 5. Errores en las mediciones y clasificaciones clínicas: Precisión y validez 5.1 Índices de concordancia 5.2 Problemas del índice kappa 5.3 Clasificaciones multinomiales 5.4 Índice kappa con "pesos" 5.5 Distribución muestral del índice kappa 5.6 Cálculo del índice kappa con el PRESTA 5.7 Concordancia para variables continuas 5.8 Índices de validez 5.9 Cocientes de probabilidad (CP) 5.10 Intervalos de confianza para los CP's 5.11 Tablas Kx2 5.12 Más de dos enfermedades 5.13 Cálculo de estos índices con el PRESTA 5.14 Curvas ROC 5.15 Elección del punto de corte óptimo 5.16 Sesgos en la evaluación de las pruebas diagnósticas 6. Modelos de regresión logística 6.1 Bibliografía 6.2 Asociación entre variables binomiales 6.3 Modelo de regresión logística simple 6.4 Estimación de los coeficientes 6.5 Distribución muestral de los coeficientes 6.6 Estimación por intervalos y contrastes de hipótesis sobre los coeficientes 6.7 Modelo múltiple 6.8 Prueba de Hosmer-Lemeshow http://www.hrc.es/bioest/M_docente.html (3 of 5) [28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadística Clínica
6.9 Área bajo la curva ROC 6.10 Variables indicadoras ("dummy") 6.11 Interacción y confusión en regresión logística 6.12 Estrategias de modelización 6.13 La colinealidad en regresión logística 6.14 Regresión logística condicional 6.15 Evaluación de los modelos de regresión logística 7. Modelos de regresión de Poisson 7.1 Bibliografía 7.2 Variables de Poisson 7.3 Modelo de regresión de Poisson 7.4 Estimación de los coeficientes 7.5 Distribución muestral de los estimadores 7.6 Contrastes de hipótesis y estrategias de modelización 7.7 La colinealidad en regresión de Poisson 7.8 Relación entre los modelos de Poisson y logístico 8. Análisis de Supervivencia 8.1 Bibliografía 8.2 Introducción 8.3 Distribución de la variable tiempo de espera 8.4 Estimación de la función de supervivencia (método de Kaplan-Meier) 8.5 Varianza de los estimadores 8.6 Método actuarial 8.7 Comparación de funciones de supervivencia 8.8 Alternativa parámetrica 8.8.1 Función exponencial 8.8.2 Función de Weibull 8.8.3 Función lognormal 8.8.4 Función gamma 8.9 Modelo de riesgo proporcional (Cox) 8.10 Estimación de los coeficientes y contrastes de hipótesis 8.11 Estrategias de modelización 9. Medidas de frecuencia de la enfermedad 9.1 Bibliografía 9.2 Introducción 9.3 Prevalencia 9.4 Incidencia 9.4.1 Incidencia acumulada 9.4.2 Densidad de incidencia 9.5 Intervalos de confianza
http://www.hrc.es/bioest/M_docente.html (4 of 5) [28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadística Clínica
9.6 Medidas de asociación o efecto 9.6.1 Razón de tasas de incidencia 9.6.2 Riesgo relativo 9.6.3 Odds ratio 9.6.4 Diferencia absoluta de riesgo 9.6.5 Reducción absoluta de riesgo 9.6.6 Diferencia relativa de riesgo 9.6.7 Reducción relativa de riesgo 9.6.8 Número necesario a tratar 9.7 Comparación de las distintas medidas 9.8 Intervalos de confianza
http://www.hrc.es/bioest/M_docente.html (5 of 5) [28/12/2002 18:09:39]
TEORIA de la PROBABILIDAD
PROBABILIDAD V.Abraira Referencia bibliográfica A.Pérez de Vargas, V.Abraira. Bioestadística. Centro de Estudios Ramón Areces. Madrid. 1996. Idea intuitiva Número, entre 0 y 1, asociado con la verosimilitud de que ocurra un suceso, 0 cuando estamos seguros que el suceso no va a ocurrir y 1 cuando estamos seguros que sí va a ocurrir. El problema es ¿cómo asignar ese número en situaciones de incertidumbre? a) A veces se estima por la frecuencia relativa. P.e. una manera de aproximarnos a la probabilidad de que una intervención quirúrgica arriesgada tenga éxito es consultar el registro de las intervenciones quirúrgicas realizadas sobre pacientes similares, si de las últimas 10, ha sido un éxito en 8, la frecuencia relativa es 8/10=0,8 se parecerá a esa probabilidad. La frecuencia relativa cambia, en el ejemplo anterior si el registro, en lugar de 10 pacientes, tuviera 11, la frecuencia relativa sería necesariamente distinta (8/11 ó 9/11), pero hay una ley empírica que establece que cuando el "número de ensayos" (pacientes, en el ejemplo) es suficientemente grande, la frecuencia relativa se estabiliza. A veces, se define la probabilidad como el límite de la frecuencia relativa. ¿Cómo saber, en cada caso, si el "número de ensayos" es suficientemente grande? Una parte de la estadística tiene que ver con este problema. La gráfica muestra la evolución de la frecuencia relativa del resultado "cara 1" en 4 series de 100 tiradas de un dado. Se observa que la frecuencia relativa oscila, que la amplitud de las oscilaciones va decreciendo a medida que aumenta el número de tiradas y que todas las series tienden a estabilizarse a la misma altura, también que 100 no es un número "suficientemente grande" para que la frecuencia relativa ya esté estabilizada (los valores finales de las 4 series varían entre 0,17 y 0,21).
b) Hay situaciones en que se puede calcular: si todos los resultados del experimento son igualmente probables, entonces la probabilidad se define (definición clásica o de Laplace) como el cociente entre el número de casos favorables y el número de casos totales.
La probabilidad de que el resultado de tirar un dado sea un uno, se calcularía de esta forma. Compárese el resultado 1/6 obtenido así con la gráfica anterior.
http://www.hrc.es/bioest/Probabilidad_1.html [28/12/2002 18:09:56]
Formalización de la probabilidad
Formalización de la probabilidad Convenios: Los textos en color malva corresponden a un mayor nivel de formalización y pueden ser omitidos en una primera lectura. Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado concreto. Espacio muestral: conjunto de posibles resultados. Punto muestral: elemento del espacio muestral. Suceso: cualquier subconjunto del espacio muestral. Si representamos el espacio muestral por Ω y a los sucesos por A: A ⊂ Ω. Dado que el conjunto vacío es subconjunto de cualquier conjunto (∅ ⊂ Ω) y que todo conjunto es subconjunto de sí mismo (Ω ⊂ Ω), tanto el conjunto vacío como el espacio muestral son sucesos. Si lo necesita Repaso del álgebra de conjuntos Un problema a tener en cuenta es que dado un experimento, podemos encontrar más de un espacio muestral. Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral apropiado para estudiar la posible hemofilia de estos? Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto Ω1={sss, ssn, sns, nss, snn, nsn, nns, nnn} Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que asegurarse que no se olvida ninguno. En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A2={nns, nnn} Opción b: Pueden padecer hemofilia los tres hijos (3), dos (2), ... Ω2={3, 2, 1, 0} En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el suceso "los dos primeros no la padecen" no se puede representar porque en el espacio muestral no está contemplado el orden.
http://www.hrc.es/bioest/Probabilidad_12.html [28/12/2002 18:10:24]
Definición axiomática de probabilidad
Definición axiomática de probabilidad Convenios: Los textos en color malva corresponden a un mayor nivel de formalización Sea Ω: espacio muestral, P(Ω) conjunto de las partes de Ω, o conjunto de sucesos, o álgebra de sucesos. Se define probabilidad, o función de probabilidad, a cualquier función p: P(Ω)→ℜ (es decir, una regla bien definida por la que se asigna a cada suceso un, y un solo un, número real) que cumpla los axiomas siguientes i) p(A) ≥ 0 ∀ A ∈ P(Ω) ii) p(A1 ∪ A2 ∪ A3 ∪ ...) = p(A1) + p(A2) + p(A3) + ... si Ai ∩ Aj = ∅ ∀i ≠ j (sucesos mutuamente excluyentes) iii) p(Ω) = 1 A la estructura (Ω, P(Ω), p) se le denomina espacio de probabilidad. Establecer claramente el espacio de probabilidad será el primer paso imprescindible para estudiar una experiencia aleatoria. Muchas de las dificultades que surgen, en la práctica, en el análisis estadístico de investigaciones clínicas tienen que ver con el establecimiento implícito y defectuoso de este espacio. Obsérvese que es necesario asignar un número a todos los sucesos, no sólo a los sucesos elementales, pero si se ha asignado la probabilidad a los sucesos elementales, a través de la propiedad ii) se puede asignar a todos los demás. Ejemplo 1: Para el experimento aleatorio de tirar un dado, el espacio muestral es Ω = {1, 2, 3, 4, 5, 6}. En este espacio el conjunto de sucesos es P(Ω) = {∅, {1}, {2}, ...{1,2}, {1,3}, ...{1,2,3,4,5,6}}. Para establecer una probabilidad hay que asignar un número a todos esos sucesos. Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...= p({6})= 1/6, por la propiedad ii), p.e. la probabilidad del suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6. Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3} es: "el resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es: "el resultado de tirar el dado es una cara impar".
http://www.hrc.es/bioest/Probabilidad_13.html [28/12/2002 18:10:34]
Propiedades de la probabilidad
Propiedades de la probabilidad Demostraciones 1) p(Ac) = 1 - p(A) Ac representa el suceso complementario de A, es decir el formado por todos los resultados que no están en A. 2) A1 ⊂ A2 ⇒ p(A1) ≤ p(A2) 3) p(∅) = 0 4) p(A) ≤ 1 5) p(A ∪ B) = p(A) + p(B) - p(A ∩ B) (Regla general de la adicción) Ejemplo 2: Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son obesos y un 3% son hipertensos y obesos. ¿Qué probabilidad hay de que elegido un paciente al azar sea obeso o hipertenso? A = {obeso} B = {hipertenso} A ∩ B = {hipertenso y obeso} A ∪ B = {obeso o hipertenso} p(A) = 0,10; p(B) = 0,15; p(A ∩ B) = 0,03 p(A ∪ B) = 0,10 + 0,15 - 0,03 = 0,22
http://www.hrc.es/bioest/Probabilidad_14.html [28/12/2002 18:10:54]
Probabilidad condicionada
Probabilidad condicionada Como la probabilidad está ligada a nuestra ignorancia sobre los resultados de la experiencia, el hecho de que ocurra un suceso, puede cambiar la probabilidad de los demás. El proceso de realizar la historia clínica, explorar y realizar pruebas complementarias ilustra este principio. La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad condicionada y se define
Esta definición es consistente, es decir cumple los axiomas de probabilidad. Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la probabilidad. A veces es más fácil calcular la probabilidad condicionada teniendo en cuenta este cambio de espacio muestral. Ejemplo 3: Una mujer es portadora de la enfermedad de Duchenne ¿Cuál es la probabilidad de que su próximo hijo tenga la enfermedad? Según las leyes de Mendel, todos los posibles genotipos de un hijo de una madre portadora (xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El espacio muestral es Ω = {xX, xY, XX, XY} el suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, según la definición clásica de probabilidad p(A) = 1/4 = 0,25 La mujer tiene el hijo y es varón ¿qué probabilidad hay de que tenga la enfermedad? Se define el suceso B = {ser varón} = {xY, XY} la probabilidad pedida es p(A|B) y aplicando la definición anterior p(B) = 0,5; A ∩ B = {xY}; p(A ∩B) = 0,25; p(A|B) = 0,25/0,5 = 0,5 Si sabemos que es varón, el espacio muestral ha cambiado, ahora es B. Por lo tanto se puede calcular p(A|B) aplicando la definición clásica de probabilidad al nuevo espacio muestral p(A|B) = 1/2 = 0,5 Ejemplo 4: Se sabe que el 50% de la población fuma y que el 10% fuma y es hipertensa. ¿Cuál es la probabilidad de que un fumador sea hipertenso? A = {ser hipertenso} B = {ser fumador} A ∩ B = {ser hipertenso y fumador} p(A|B) = 0,10/0,50 = 0,20 Obsérvese que los coeficientes falso-positivo y falso-negativo de las pruebas diagnósticas son probabilidades condicionadas. La fórmula anterior se puede poner p(A ∩ B) = p(B) p(A|B) = p(A) p(B|A) llamada regla de la multiplicación, que se puede generalizar a más sucesos p(A1 ∩ A2 ∩ A3) = p((A1 ∩ A2) ∩ A3) = p(A1 ∩ A2) p(A3|A1 ∩ A2) = p(A1) p(A2|A1) p(A3|A1 ∩ A2)
http://www.hrc.es/bioest/Probabilidad_15.html (1 of 2) [28/12/2002 18:11:13]
Probabilidad condicionada
En general p(A1 ∩ A2 ∩ A3 ...) = p(A1) p(A2|A1) p(A3|A1 ∩ A2) ... llamado principio de las probabilidades compuestas y especialmente útil para aquellas situaciones en que las probabilidades condicionadas son más fáciles de obtener que las probabilidades de las intersecciones. Ejemplo 4: Se sabe por estudios previos que el 0,1% de la población tiene problemas vasculares. Un estudio sobre individuos con problemas vasculares revela que el 20% de ellos son placas de ateroma. Si el 10% de los individuos con placas de ateroma están expuestos a muerte súbita por desprendimiento de trombos ¿qué probabilidad tiene un individuo cualquiera de estar expuesto a muerte súbita por desprendimiento de trombos de una placa de ateroma? A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte súbita por ....} p(A1) = 0,001; p(A2|A1) = 0,20; p(A3|A1 ∩ A2) = 0,1 p(A1 ∩ A2 ∩ A3) = 0,001 x 0,20 x 0,1 = 0,000002 Ejemplo 5: Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las otras dos verdes. Definimos A1 = {la 1ª bola es azul}; A2 = {la 2ª bola es verde}; A3 = {la 3ª bola es verde} p(A1) = 2/10 aplicando la definición clásica de probabilidad, puesto que hay 10 bolas y 2 son verdes. p(A2|A1) = 5/9; si la primera bola extraída es azul, en la urna quedan 9 bolas, 5 de ellas verdes. p(A3|A1 ∩ A2) = 4/8; si la primera bola extraída es azul y la segunda verde en la urna quedan 8 bolas, 4 de ellas verdes. p(A1 ∩ A2 ∩ A3) = 2/10 x 5/9 x 4/8 = 1/18
http://www.hrc.es/bioest/Probabilidad_15.html (2 of 2) [28/12/2002 18:11:13]
Sucesos independientes
Sucesos independientes Dos sucesos son independientes si y sólo si p(A ∩ B) = p(A) p(B). Si dos sucesos son independientes
y del mismo modo p(B|A) = p(B) Esta propiedad coincide más con la idea intuitiva de independencia y algunos textos la dan como definición. Hay que notar, sin embargo, que ambas definiciones no son estrictamente equivalentes. Ejemplo 6: Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad ¿son independientes? Según vimos en el Ejemplo 3 el espacio muestral es Ω = {xX, xY, XX, XY} Definimos los sucesos A = {varón} = {xY, XY}; B = {enfermo} = {xY} A ∩ B = {xY} por lo tanto p(A) = 0,5; p(B) = 0,25; p(A ∩ B) = 0,25 ≠ p(A) p(B) NO son independientes.
http://www.hrc.es/bioest/Probabilidad_16.html [28/12/2002 18:11:32]
Regla de la PROBABILIDAD total
Regla de la probabilidad total Se llama partición a conjunto de sucesos Ai tales que A1 ∪ A2 ∪ ... ∪ An = Ω y Ai ∩ Aj = ∅ ∀ i ≠ j es decir un conjunto de sucesos mutuamente excluyentes y que cubren todo el espacio muestral
Regla de la probabilidad total: Si un conjunto de sucesos Ai forman una partición del espacio muestral y p(Ai) ≠ 0 ∀ Ai, para cualquier otro suceso B se cumple
Demostración Ejemplo 7: La prevalencia de infarto cardíaco para hipertensos es del 0,3% y para no hipertensos del 0,1%. Si la prevalencia de hipertensión en una cierta población es del 25% ¿Cuál es la prevalencia del infarto en esa población? A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una partición B = {padecer infarto} datos: p(B|A1) = 0,003; p(B|A2) = 0,001; p(A1) = 0,25 evidentemente p(A2) =0,75 por la propiedad 1 p(B) = 0,003x0,25 + 0,001 x 0,75 = 0,0015
http://www.hrc.es/bioest/Probabilidad_17.html [28/12/2002 18:12:21]
Teorema de Bayes
Teorema de Bayes Si los sucesos Ai son una partición y B un suceso tal que p(B) ≠ 0
Demostración Aplicaciones Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas y las enfermedades no están ligados de un modo biunívoco. Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cáncer de pulmón; E3: bronquitis obstructiva; etc. y Si a los síntomas y síndromes asociados con las mismas S1: tos; S2: estado febril; S3: hemotisis; etc. La información accesible en los libros de patología, o en un archivo de historias clínicas es del tipo Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las demás enfermedades En términos de probabilidad condicionada, esta información es p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una partición (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el síntoma) y se conocen sus prevalencias. Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en poblaciones en las que las prevalencias fueran diferentes. Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l. Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de oro o "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden representar en una tabla de doble entrada Patrón de oro
-
NE
E
a
b
Prueba http://www.hrc.es/bioest/Probabilidad_18.html (1 of 2) [28/12/2002 18:12:55]
r
Teorema de Bayes
+
c
d
t
u
s
Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimación de la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma. Simétricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE). Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular p(E|+) y/o p(NE|-). como E y NE son una partición, usando el Teorema de Bayes
y
Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal. Ejemplo 8: una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad de que sea diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en el que dé negativo? p(+|NE) = 0,04 ⇒ p(-|NE) = 0,96 p(-|E) = 0,05 ⇒ p(+|E) = 0,95 p(E) = 0,07 ⇒ p(NE) = 0,93
y
Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), serán la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa.
http://www.hrc.es/bioest/Probabilidad_18.html (2 of 2) [28/12/2002 18:12:55]
Problemas de probabilidad propuestos:
Problemas de probabilidad propuestos: 1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres hijos sanos. Calcular la probabilidad de que ella sea portadora de la enfermedad. Solución 2º Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0.05 y falso-negativo de 0.10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0.15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté enferma. Solución
http://www.hrc.es/bioest/Probabilidad_pro.html [28/12/2002 18:13:09]
Problemas de probabilidad resueltos:
Problemas de probabilidad resueltos: 1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres hijos varones sin la enfermedad. Calcular la probabilidad de que ella sea portadora de la enfermedad. Solución Si representamos por x el gen alterado y por X el gen normal, el espacio muestral para el nacimiento de la mujer Ω ={xX, XX}, cada suceso elemental con la misma probabilidad (1ª ley de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}, según la definición clásica de probabilidad p(A) = 1/2. Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY, todos con la misma probabilidad. El espacio muestral para el nacimiento de un hijo varón es Ω ={xY, XY}, por tanto la probabilidad de que un hijo varón no tenga la enfermedad es 1/2 (también según la definición clásica). Cómo los genotipos de los sucesivos hijos son independientes (2ª ley de Mendel), y de acuerdo a la definición de independencia, la probabilidad de que los 3 hijos varones no tengan la enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no fuera portadora, la probabilidad de que los 3 hijos varones no tengan la enfermedad es 1. Como el suceso A = {la mujer es portadora} y su complementario Ac = {la mujer no es portadora} forman una partición, se puede aplicar el teorema de Bayes en relación con el suceso B = {los 3 hijos varones no tienen la enfermedad}
2º Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0,05 y falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté enferma. Solución Sea NE = {la mujer no está enferma}, + = {el resultado de la prueba es positivo} y - = {el resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los datos que se dan son p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del primero se deduce que p(-|NE)=0,95 y del último p(NE)=0,85, por lo tanto aplicando el teorema de Bayes p(NE|--) = [ p(--|NE) p(NE) ] / [ p(--|NE) p(NE) + p(--|E) p(E) ] p(NE|--) = [ 0,95 x 0,85 ] / [ 0,95 x 0,85 + 0,10 x 0,15 = 0,982
http://www.hrc.es/bioest/Probabilidad_prosul.html [28/12/2002 18:18:34]
REPASO DE ALGEBRA DE CONJUNTOS
REPASO DE ALGEBRA DE CONJUNTOS V.Abraira Definiciones Dado un conjunto A={a, b, c, d}, la relación de pertenencia se representa por a ∈ A. Se llama cardinal del conjunto, y se representa car(A), al número de elementos que contiene. Se llama conjunto vacío, y se representa por ∅, al conjunto que no contiene ningún elemento. No desespere, estamos de acuerdo en que si no contiene ningún elemento, no es un conjunto, sin embargo su definición como tal es muy útil. Se llama universo o conjunto universal, y se suele representar por H, al conjunto formado por todos los elementos que se están considerando. Dado un conjunto A, se llama complementario del mismo, y se representa por Ac, al conjunto formado por los elementos del universo que no son de A. Dos conjuntos son iguales si están formados por los mismos elementos. Se dice que B es subconjunto de A, y se representa B ⊂ A, si todos los elementos de B pertenecen a A. Se dice también que B está incluido en A. Dados dos conjuntos A y B, se llama unión de ambos, y se representa A ∪ B, al conjunto formado por los elementos que pertenecen a A o a B. Ejemplo 1: A={a, b, c, d} B={c, d, e, h} A ∪ B = {a, b, c, d, e, h} Ejemplo 2: C={personas obesas} D={personas hipertensas} C ∪ D = {personas obesas o hipertensas} Se llama intersección y se representa A ∩ B, al conjunto formado por los elementos que pertenecen a A y a B. Ejemplo 3: para los conjuntos anteriores A ∩ B = {c, d} C ∩ D = {hipertensos y obesos} Si dos conjuntos no tienen elementos comunes, se llaman disjuntos y su intersección es el conjunto vacío. Si, para el ejemplo 2, en el universo que se está considerando no hay nadie que sea hipertenso y obeso C ∩ D = ∅ Al conjunto formado por todos los subconjuntos de un conjunto dado se le denomina conjunto de las partes del conjunto o álgebra y se representa por P(A) Ejemplo: A = {1, 2, 3} P(A) = {∅ , {1}, {2}, {3}, {1,2}, {1,3}, {2,3}, {1,2,3}} Propiedades Propiedades de la inclusión i) A ⊂ A ii) ∅ ⊂ A iii) A ⊂ B ⇒ B ⊄ A ; sólo si A = B iv) A ⊂ B y B ⊂ D ==> A ⊂ D
http://www.hrc.es/bioest/Algebra_conjuntos.html (1 of 2) [28/12/2002 18:31:54]
REPASO DE ALGEBRA DE CONJUNTOS
Propiedades de la unión e intersección
i) Identidad
A∪∅=A
A ∩H = A
ii) Idempotencia
A∪A=A
A∩A=A
iii) Commutatividad
A∪B=B∪A
A∩B=B∩A
iv) Asociatividad
(A ∪ B) ∪ D = A ∪ (B ∪ D)
(A ∩B) ∩ D = A ∩ (B ∩ D)
v) Distributividad
(A ∪ B) ∩ D = (A ∩D) ∪ (B ∩ D)
(A∩B) ∪ D = (A ∪ D) ∩ (B ∪ D)
vi) Absorción
A ∪ (A ∩ B) = A
A ∩ (A ∪ B) = A
vii) Complementaridad
A ∪ Ac = H
A ∩ Ac = ∅
Nota: A todo conjunto en el que se hayan definido dos operaciones que tengan estas propiedades, se le denomina Algebra de Boole. Función de conjunto: toda regla que de un modo perfectamente determinado haga corresponder un número real a cada elemento del conjunto. Se representa por f: A → ℜ el número x que le corresponde al elemento a, se representa por x=f(a) Se denomina imagen de la función al conjunto de números que están en correspondencia con algún elemento, a través de la función.
im f = { x ∈ℜ; a ∈ A , f(a)=x }
Volver
Ir a Bioestadística
http://www.hrc.es/bioest/Algebra_conjuntos.html (2 of 2) [28/12/2002 18:31:54]
Estadística
ESTADISTICA V.Abraira Referencia bibliográfica A.Pérez de Vargas, V.Abraira. Bioestadística. Centro de Estudios Ramón Areces. Madrid. 1996. Definiciones Conjunto de métodos científicos ligados a la toma, organización, recopilación, presentación y análisis de datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo con tales análisis. Arte de la decisión en presencia de incertidumbre. Ciencia que sirve para demostrar que dos personas han comido 1/2 pollo cada una, cuando en realidad una ha comido uno y la otra ninguno. ¿Por qué la estadística? ¿Usaron la estadística Galileo, Newton y Einstein? En ciertas ciencias (Biología, Ciencias Humanas, algunos campos de la Física, ...) aparece el concepto de experimento aleatorio (experimento que repetido en las "mismas condiciones" no produce el mismo resultado) y asociado al mismo el de variable aleatoria. Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo resultado) está caracterizada por un valor para cada condición. Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición. Los objetivos de la investigación científica se pueden entender, de un modo muy general, en términos de encontrar y describir las variables de interés y las relaciones entre ellas, para el problema en estudio. La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para variables aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad (azar). Se divide en dos áreas: Estadística descriptiva: Trata de describir las variables aleatorias en las "muestras". Estadística inductiva o inferencial: Trata de la generalización hacia las poblaciones de los resultados obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son válidas. Se enfrenta básicamente con dos tipos de problemas: Estimación, que puede ser puntual o por intervalos.
http://www.hrc.es/bioest/estadis_1.html (1 of 2) [28/12/2002 18:41:40]
Estadística
Contraste de hipótesis. ESTADISTICA DESCRIPTIVA La descripción completa de una variable aleatoria está dada por su función densidad de probabilidad (fdp). Afortunadamente una gran cantidad de variables de muy diversos campos están adecuadamente descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc. Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente dos: media y varianza. Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los parámetros correspondientes. Ejemplo: (hipotético) la concentración de glucosa en sangre en individuos no diabéticos, medida en mg/dl, es normal con media 98 y varianza 90. El problema es ¿cómo averiguar la fdp de una variable de interés? La familia, generalmente, se sabe por resultados de la teoría de la probabilidad, aunque, en cada caso, conviene verificarlo. Para conocer los parámetros se deberían conocer los resultados de todos los posibles experimentos (población: conjunto de todos los valores de una variable aleatoria). Generalmente la población es inaccesible, bien es infinita, o aunque finita suficientemente grande para ser inabordable. En consecuencia, se estudian muestras (subconjuntos de la población) que, en caso de ser aleatorias, permiten realizar estimaciones tanto de la familia como de los parámetros de las fdps. Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la misma probabilidad. Métodos gráficos de representación de muestras: El método gráfico más frecuente es el histograma, que puede adoptar distintas formas. Véanse algunos ejemplos. Advertencias: 1ª Estos diagramas tienen un fin descriptivo: deben ser fáciles de leer. 2ª El convenio es que la frecuencia sea proporcional al área (es proporcional a la altura sólo si las barras tienen la misma anchura). 3ª Para fines comparativos es mejor usar frecuencias relativas. 4ª El número de clases (barras), cuando la variable no es cualitativa, no debe ser ni muy grande ni muy pequeño. Generalmente se recomiendan entre 5 y 20 clases de igual tamaño. Otro criterio es usar la raíz cuadrada del número de datos. 5ª Los límites de las clases no deben ser ambiguos, p.e. no deben coincidir con valores posibles de los datos (una cifra decimal más).
http://www.hrc.es/bioest/estadis_1.html (2 of 2) [28/12/2002 18:41:40]
Medidas descriptivas
MEDIDAS DESCRIPTIVAS Medidas de posición o tendencia Media muestral: Si tenemos X1, X2, ... , Xn datos, se llama media muestral de los mismos a su media aritmética
Moda muestral: El valor que más se repite (puede no existir y si existe puede no ser única). Mediana muestral: Ordenando los Xi, el valor que está en el medio
Ejemplo: Sean los datos 3, 5, 7, 7, 8, 9 = 39/6 = 6,5;
= 7; moda = 7
Medidas de dispersión Rango: Si Xi están ordenados Xn - X1 Varianza:
aunque para el cálculo se suele usar otra fórmula más cómoda
Desviación típica o estándar:
¡¡Ojo!! no confundir con error típico o estándar Coeficiente de variación:
http://www.hrc.es/bioest/estadis_2.html (1 of 2) [28/12/2002 18:43:34]
Medidas descriptivas
http://www.hrc.es/bioest/estadis_2.html (2 of 2) [28/12/2002 18:43:34]
VARIABLE ALEATORIA
Variable aleatoria Una función que asocia un número real, perfectamente definido, a cada punto muestral. A veces las variables aleatorias (v.a.) están ya implícitas en los puntos muestrales. Ejemplo 1: Experiencia consistente en medir la presión sistólica de 100 individuos. Un punto muestral (resultado de un experimento) es ya un número (presión sistólica). La v.a. está implícita. Ejemplo 2: En el ejemplo de la mujer portadora de hemofilia. Ω = {sss, ssn, sns, snn, nss, nsn, nns, nnn} Se podría definir una variable que asignara a cada punto muestral el número de orden en el espacio muestral. X: sss
1; ssn
2; sns
3;...
Pero otra posible v.a.: a cada punto muestral el número de s. X: sss
3; ssn
2; ...
Los conjuntos pueden ser: discretos: número finito o infinito numerable de elementos. continuos: número infinito no numerable de elementos. Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las definidas sobre espacios muestrales continuos se llaman continuas. Una v.a. puede ser continua, aunque nosotros sólo podamos acceder a un subconjunto finito de valores. P.e. la presión arterial es una v.a. continua pero sólo podemos acceder a un conjunto finito de valores por la limitación de los aparatos de medida. En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas. Inducción de la probabilidad a variables aleatorias Las v.a permiten definir la probabilidad como una función numérica (de variable real) en lugar de como una función de conjunto como se había definido antes Ejemplo 3: Tiramos una moneda 3 veces. Representamos cara por c y cruz por z. Ω = {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz} La probabilidad de cada suceso elemental es 1/8. Por ejemplo p(ccc)=1/8, ya que la probabilidad de sacar cara en una tirada es 1/2 según la definición clásica y las tiradas son independientes. Definimos la v.a. X: número de caras, que puede tomar los valores {0, 1, 2, 3}. Se buscan todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le asigna la probabilidad del suceso correspondiente.
http://www.hrc.es/bioest/estadis_21.html (1 of 5) [28/12/2002 18:44:02]
VARIABLE ALEATORIA
x
Sucesos
px
0
{zzz}
1/8
1
{czz, zcz, zzc}
3/8
2
{ccz, czc, zcc}
3/8
3
{ccc}
1/8
A esta función se le denomina función densidad de probabilidad (fdp), que desgraciadamente "funciona" de distinta manera en las variables discreta que en las continuas. En el caso de las variables discretas, como en el ejemplo, es una función que para cada valor de la variable da su probabilidad. Ejemplo 4: Supongamos la variable tipo histológico de un tumor, con los valores 1, 2, 3, 4. Si la fdp fuera
x
f(x)
1
0,22
2
0,27
3
0,30
4
0,21
significaría que la probabilidad del tipo 2 es 0,27, etc. Para variables continuas la probabilidad de que una variable tome cualquier valor concreto es 0, por lo tanto la fdp sólo permite calcular la probabilidad para un intervalo del tipo (a<X
http://www.hrc.es/bioest/estadis_21.html (2 of 5) [28/12/2002 18:44:02]
VARIABLE ALEATORIA
Para las variables aleatorias de interés hay tablas, y programas de ordenador, donde buscar esos valores. Distribución acumulativa o función de distribución F(x) = p(X ≤ x) Para el ejemplo 3
x
f(x)
F(x)
0
1/8
1/8
1
3/8
4/8
2
3/8
7/8
3
1/8
8/8
y para el ejemplo 4
x
f(x)
F(x)
1
0,22
0,22
2
0,27
0,49
3
0,30
0,79
4
0,21
1
Parámetros característicos de una fdp Valor esperado o esperanza matemática o media
si X es una v.a. cualquier función de ella, h(x), es también una v.a., en consecuencia también se define este parámetro para una función de v.a.
http://www.hrc.es/bioest/estadis_21.html (3 of 5) [28/12/2002 18:44:02]
VARIABLE ALEATORIA
Ejemplo 5: Se tira un dado. Se define como v.a. el número que sale ¿Cuál es su media? La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En consecuencia la media es
Observese que es un número que la v.a. no puede alcanzar. ¿Qué significa? No mucho. Se define ahora una función sobre X: el premio: si sale 1 ó 2 se gana 100 ptas, si sale 3 se gana 500 y si sale 4, 5 ó 6 no se gana nada
X
h(x)
1
100
2
100
3
500
4
0
5
0
6
0
¿Cuál es el valor medio de esta función?
¿qué significa? es el valor medio a la larga: si se juega un número grande de veces la ganancia final es como si en cada jugada se hubiera ganado 116,6 pts. Si la apuesta costara menos de eso el juego sería ventajoso para el jugador (así se enriqueció Voltaire), si costara más, para la banca. (llamar a ésto honestidad del juego le costó el puesto de ministro a Laplace). Varianza: Se define como:
aunque para el cálculo se suele usar esta otra fórmula equivalente:
http://www.hrc.es/bioest/estadis_21.html (4 of 5) [28/12/2002 18:44:02]
VARIABLE ALEATORIA
¿Qué mide la varianza? Mide la dispersión de la variable alrededor de la media. Otras lecturas recomendadas Variables and parameters. Altman & Bland. BMJ 1999; 318:1667.
http://www.hrc.es/bioest/estadis_21.html (5 of 5) [28/12/2002 18:44:02]
Problemas de estadística propuestos
Problemas de estadística propuestos (1ª parte): 1º Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si está comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. ¿Cuál debería ser el precio de la apuesta para que la ganancia esperada de la banca sea de 50 pts? Solución 2º La siguiente tabla muestra la fdp para la variable X: número de personas por día que solicitan un tratamiento innecesario en el servicio de urgencias de un pequeño hospital.
x
0
1
2
3
4
5
f(x)
0,01
0,1
0,3
0,4
0,1
?
a. Encontrar f(5) b. Construir F(x) c. Encontrar p(X≤2) d. Encontrar p(X<2) e. Encontrar p(X>3) f. Calcular la media y la varianza Solución 3º Se desarrolla un compuesto para aliviar las migrañas. El fabricante afirma que es efectivo en un 90% de los casos. Se prueba sobre 4 pacientes. Sea X el número de pacientes que obtiene alivio. a. Encontrar la fdp para X, suponiendo que la afirmación del fabricante sea correcta. b. Encontrar p(X≤1) c. Si el compuesto no alivia a ninguno de los pacientes ¿es esa una razón para poner en duda la eficacia afirmada por el fabricante? Razonar sobre la base de la probabilidad implicada. d. Calcular la media. ¿Qué significa en este ejemplo? Solución 4º Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia aguda. La fdp para X es f(x) = -x/2 + 1, para 0 < x < 2. a. Comprobar que es una fdp. b. Hallar p(X>1) c. Hallar p(X=1) d. Hallar p(X≥1) Ayuda: hacerlo todo gráficamente e. Calcular la media y la varianza (Sólo para iniciados). Solución
http://www.hrc.es/bioest/estadis_pro.html [28/12/2002 18:44:46]
Problemas de estadística resueltos
Problemas de estadística resueltos (1ª parte): 1º Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si está comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. ¿Cuál debería ser el precio de la apuesta para que la ganancia esperada de la banca sea de 50 pts? Solución El espacio muestral para el problema es Ω = {(1,1), (1,2), (1,3), ..., (6,6)} con 36 puntos muestrales. Todos los sucesos elementales tiene la misma probabilidad 1/36. Se define la v.a. X: suma de las dos caras. Esta variable puede tomar los valores 2, 3, 4, ....,12. La tabla con la fdp inducida es x
Sucesos
f(x)
2
{(1,1)}
1/36
3
{(1,2), (2,1)}
2/36
4
{(1,3), (2,2), (3,1)}
3/36
5
{(1,4), (2,3), (3,2), (4,1)}
4/36
6
{(1,5), (2,4), (3,3), (4,2), (5,1)}
5/36
7
{(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}
6/36
8
{(2,6), (3,5), (4,4), (5,3), (6,2)}
5/36
9
{(3,6), (4,5), (5,4), (6,3)}
4/36
10
{(4,6), (5,5), (6,4)}
3/36
11
{(5,6), (6,5)}
2/36
12
{(6,6)}
1/36
La tabla de la función premio es x
h(x)
2
0
3
0
4
0
5
0
6
0
7
100
8
100
9
100
10
300
11
300
12
300
Por lo tanto el valor esperado del premio es
en consecuencia, la apuesta debería costar 91,7 + 50 = 141,7 para que la ganancia esperada de la banca sea 50 ptas. 2º La siguiente tabla muestra la fdp para la variable X: número de personas por día que solicitan un tratamiento innecesario en el servicio de urgencias de un pequeño hospital. http://www.hrc.es/bioest/estadis_prosul.html (1 of 4) [28/12/2002 18:45:31]
Problemas de estadística resueltos
x
0
1
2
3
4
5
f(x)
0,01
0,1
0,3
0,4
0,1
?
a. Encontrar f(5) b. Construir F(x) c. Encontrar p(X≤2) d. Encontrar p(X<2) e. Encontrar p(X>3) f. Calcular la media y la varianza Solución a. Por la construcción de las fdps es obvio que . Para que se cumpla esta condición es necesario que f(5)=0,09 b.
x
0
1
2
3
4
5
f(x)
0,01
0,1
0,3
0,4
0,1
0,09
F(x)
0,01
0,11
0,41
0,81
0,91
1
c. p(X≤2) = F(2) = 0,41 d. p(X<2) = p(X≤1) = F(1)=0,11 e. p(X>3) = 1 - p(≤3) = 1- F(3) = 1 - 0,81 = 0,19 f.
3º Se desarrolla un compuesto para aliviar las migrañas. El fabricante afirma que es efectivo en un 90% de los casos. Se prueba sobre 4 pacientes. Sea X el número de pacientes que obtiene alivio. a. Encontrar la fdp para X, suponiendo que la afirmación del fabricante sea correcta. b. Encontrar p(X≤1) c. Si el compuesto no alivia a ninguno de los pacientes ¿es esa una razón para poner en duda la eficacia afirmada por el fabricante? Razonar sobre la base de la probabilidad implicada. d. Calcular la media. ¿Qué significa en este ejemplo? Solución a. Representando por a que un paciente tenga alivio y por n que no lo tenga, el espacio muestral para el problema es Ω = {aaaa, naaa, anaa, aana, aaan, ..., nnnn}, Si es cierta la afirmación del fabricante p(a)=0,9 y p(n)=0,1 La v.a. X: número de pacientes que tienen alivio puede tomar los valores 0, 1, 2, 3, 4. La tabla con la fdp inducida es x
Sucesos
f(x) 0,14
0
{nnnn}
1
{annn, nann, nnan, nnna}
4x0,9x0,13
2
{aann, anan, anna, naan, nana, nnaa }
6x0,92x0,12
http://www.hrc.es/bioest/estadis_prosul.html (2 of 4) [28/12/2002 18:45:31]
Problemas de estadística resueltos
3
{aaan, aana, anaa, naaa}
4
{aaaa}
4x0,93x0,1 0,94
b. p(X≤1) = f(0) + f(1) = 0,14 + 4x0,9x0,13 = 0,0037 c. La probabilidad de que no alivie a ningún paciente es f(0)=0,0001. Es una probabilidad tan baja que, efectivamente, si ese fuera el resultado hay suficientes razones para poner en duda la afirmación de que alivia al 90% de los pacientes. d.
Si se repitiera un número suficientemente grande de veces la experiencia de administrar el fármaco a 4 pacientes, el número promedio de pacientes que experimentarían alivio sería 3,6.
4º Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia aguda. La fdp para X es f(x) = -x/2 + 1, para 0 < x < 2. a. Comprobar que es una fdp. b. Hallar p(X>1) c. Hallar p(X=1) d. Hallar p(X≥1) Ayuda: hacerlo todo gráficamente e. Calcular la media y la varianza (Sólo para iniciados). Solución a. La gráfica de la fdp es La condición equivalente a
para variables continuas es que el área bajo la fdp sea 1. De modo general ese área se calcula mediante cálculo integral, pero en este caso se puede calcular por la conocida fórmula del área de un triángulo A = (bxh)/2, es decir A = (2x1)/2=1
b. Gráficamente, la probabilidad pedida es el área coloreada de verde, por lo tanto se puede calcular también con la fórmula del área del triángulo. Ahora b=1 y para calcular h hay que ver que valor toma la fdp cuando x=1, y = -1/2 + 1 = 1/2. Por lo tanto, la probabilidad es (1x1/2)/2 = 1/4
c. Como en toda variable continua la probabilidad de que tome un valor concreto es 0, por lo tanto p(X=1) = 0 d. Obviamente p(X≥1) = p(X >1) = 1/4 e. Media
varianza
http://www.hrc.es/bioest/estadis_prosul.html (3 of 4) [28/12/2002 18:45:31]
Problemas de estadística resueltos
http://www.hrc.es/bioest/estadis_prosul.html (4 of 4) [28/12/2002 18:45:31]
Estadística inferencial: estimación de parámetros y contrastes de hipótesis
Estadística inferencial Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en la figura
Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la denominada población de muestreo: población (la mayor parte de las veces no definida con precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia entre la población de muestreo y la población diana y que sólo puede ser controlado por el diseño del estudio. Tamaño muestral El tamaño muestral juega el mismo papel en estadística que el aumento de la lente en microscopía: si no se ve una bacteria al microscopio, puede ocurrir que: - la preparación no la contenga - el aumento de la lente sea insuficiente. Para decidir el aumento adecuado hay que tener una idea del tamaño del objeto. Del mismo modo, para decidir el tamaño muestral: i) en un problema de estimación hay que tener una idea de la magnitud a estimar y del error aceptable. ii) en un contraste de hipótesis hay que saber el tamaño del efecto que se quiere ver.
http://www.hrc.es/bioest/Introducion.html [28/12/2002 18:46:52]
Estimación de parámetros
Estimación de parámetros En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no los parámetros. Para calcularlos necesitaríamos tener todos los posibles valores de la variable, lo que no suele ser posible. La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a partir de subconjuntos de valores (muestras) de la variable. Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para calcularla. Estimación: Proceso por el que se trata de averiguar un parámetro de la población representado, en general, por θ a partir del valor de un estadístico llamado estimador y representado por El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico que se use. ¿Qué es esto? Concretemos, p.e. en la media (µ). Si para cada muestra posible calculamos la media muestral (
) obtenemos un valor distinto (
es un estadístico: es una variable
aleatoria y sólo depende de la muestra), habrá por tanto una fpd para , llamada distribución muestral de medias. La desviación típica de esta distribución se denomina error típico de la media. Evidentemente, habrá una distribución muestral para cada estadístico, no sólo para la media, y en consecuencia un error típico para cada estadístico. Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de interés, ese estadístico podría ser un estimador del parámetro.
http://www.hrc.es/bioest/Introducion_est.html [28/12/2002 18:47:24]
Distribucción muestral de medias
Distribución muestral de medias Si tenemos una muestra aleatoria de una población N(µ,σ ), se sabe (Teorema del límite central) que la fdp de la media muestral es también normal con media µ y varianza σ2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones cualesquiera. Es decir error estándar de la media.
es el error típico, o
¿Cómo usamos esto en nuestro problema de estimación? 1º problema: No hay tablas para cualquier normal, sólo para la normal µ=0 y σ=1 (la llamada z); pero haciendo la transformación (llamada tipificación)
una normal de media µ y desviación σ se transforma en una z. Llamando zα al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de α, es decir, que la probabilidad que la variable sea mayor que ese valor es α (estos son los valores que ofrece la tabla de la normal)
podremos construir intervalos de la forma
para los que la probabilidad es 1 - α.
Teniendo en cuenta la simetría de la normal y manipulando algebraícamente
que también se puede escribir
o, haciendo énfasis en que
es el error estándar de la media,
Recuérdese que la probabilidad de que µ esté en este intervalo es 1 - α. A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - α)%, o nivel de significación de 100α%. El nivel de confianza habitual es el 95%, en cuyo caso α=0,05 y zα /2=1,96. Al valor se dice que
es un estimador de µ.
http://www.hrc.es/bioest/esti_medias.html (1 of 2) [28/12/2002 18:48:00]
se le denomina estimación puntual y
Distribucción muestral de medias
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se calcula
se puede decir que µ tiene una probabilidad de 0,95 de estar comprendida en el intervalo
que sería el intervalo de confianza al 95% para µ En general esto es poco útil, en los casos en que no se conoce µ tampoco suele conocerse σ2; en el caso más realista de σ2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.
o, haciendo énfasis en que
es el error estándar estimado de la media,
Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error. Otras lecturas recomendadas Interpreting study results: confidence intervals. Guyatt et al. CMAJ. 152:169-173. 1995
http://www.hrc.es/bioest/esti_medias.html (2 of 2) [28/12/2002 18:48:00]
Estimación de proporciones
Estimación de proporciones Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo: número de diabéticos en 2000 personas). Si n es grande y p no está próximo a 0 ó 1 (np ≥ 5) X es aproximadamente normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico
(proporción
muestral), que es también aproximadamente normal, con error típico dado por en consecuencia, un IC para p al 100(1 - α)% será
es decir, la misma estructura que antes: Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq ≤ 0,25 si se substituye pq por 0,25 se obtiene un intervalo más conservador (más grande). Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.
¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad. ¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.
http://www.hrc.es/bioest/esti_propor.html [28/12/2002 18:50:15]
Problemas de estadística propuestos
Problemas de estadística propuestos (2ª parte): 1º En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene hecho?
= 132 mg/dl y s2=109. Construir el IC al 95% para µ ¿Qué asunción se ha
Solución 2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz? Solución
http://www.hrc.es/bioest/estadis_pro2.html [28/12/2002 18:50:45]
Problemas de estadística resueltos
Problemas de estadística resueltos (2ª parte): 1º En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene hecho?
= 132 mg/dl y s2=109. Construir el IC al 95% para µ ¿Qué asunción se ha
Solución Usando la fórmula general para cuando σ2 es desconocida
podemos, o bien mirar a las tablas de la t (o en un programa de ordenador) el valor de t0,025 que para 89 grados de libertad (los grados de libertad son n - 1) es 1,99, o bien como n > 30 aproximar a la z y usar el valor 1,96.
Para poder usar esta fórmula es necesario que la variable sea normal. ¿es abusiva esta asunción? Ver, por ejemplo The normal distribution. Altman & Bland. BMJ 1995; 310:298. 2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz? Solución La fórmula para calcular IC para proporciones es
y aproximando p y q por sus estimaciones
es decir, hay una probabilidad del 95% de que la probabilidad de pasar la gripe si se está vacunado esté comprendida entre el 4% y el 16%. Para los no vacunados
Existe solapamiento, aunque pequeño, entre ambos intervalos; por tanto no podemos asegurar que la vacuna sea eficaz. http://www.hrc.es/bioest/estadis_pro2sul.html (1 of 2) [28/12/2002 18:50:58]
Problemas de estadística resueltos
http://www.hrc.es/bioest/estadis_pro2sul.html (2 of 2) [28/12/2002 18:50:58]
Contrastes de hipótesis
Contrastes de hipótesis Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error. La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se representa por H0. Rechazar H0 implica aceptar una hipótesis alternativa (H1). La situación se puede esquematizar:
H0 rechazada
H0 cierta
H0 falsa H1 cierta
Error tipo I (α)
Decisión correcta (*)
H0 no rechazada Decisión correcta
Error tipo II (β)
(*) Decisión correcta que se busca α=p(rechazar H0|H0 cierta) β=p(aceptar H0|H0 falsa) Potencia=1-β=p(rechazar H0|H0 falsa) Detalles a tener en cuenta: 1 α y β están inversamente relacionadas. 2 Sólo pueden disminuirse las dos, aumentando n. Los pasos necesarios para realizar un contraste relativo a un parámetro θ son: 1. Establecer la hipótesis nula en términos de igualdad
2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del interés del investigador
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.
http://www.hrc.es/bioest/Introducion_ch.html (1 of 4) [28/12/2002 18:54:24]
Contrastes de hipótesis
3. Elegir un nivel de significación: nivel crítico para α 4. Elegir un estadístico de contraste: estadístico cuya distribución muestral se conozca en H0 y que esté relacionado con θ y establecer, en base a dicha distribución, la región crítica: región en la que el estadístico tiene una probabilidad menor que α si H0 fuera cierta y, en consecuencia, si el estadístico cayera en la misma, se rechazaría H0. Obsérvese que, de esta manera, se está más seguro cuando se rechaza una hipótesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido rechazar. Por otro lado, la decisión se toma en base a la distribución muestral en H0, por eso es necesario que tenga la igualdad. 5. Calcular el estadístico para una muestra aleatoria y compararlo con la región crítica, o equivalentemente, calcular el "valor p" del estadístico (probabilidad de obtener ese valor, u otro más alejado de la H0, si H0 fuera cierta) y compararlo con α. Ejemplo: Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra hipótesis es que la presión sistólica media en varones jóvenes estresados es mayor que 18 cm de Hg. Estudiamos una muestra de 36 sujetos y encontramos
1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos rechazar) es:
2. la hipótesis alternativa
es un contraste lateral derecho. 3. Fijamos "a priori" el nivel de significación en 0,05 (el habitual en Biología). 4. El estadístico para el contraste es
y la región crítica T>tα http://www.hrc.es/bioest/Introducion_ch.html (2 of 4) [28/12/2002 18:54:24]
Contrastes de hipótesis
Si el contraste hubiera sido lateral izquierdo, la región crítica sería Ttα/2 En este ejemplo t(35)0,05=1,69. 5. Calculamos el valor de t en la muestra
no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0. Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes estadísticos) es buscar en las tablas el "valor p" que corresponde a T=0,833, que para 35 g.l. es aproximadamente 0,20. Es decir, si H0 fuera cierta, la probabilidad de encontrar un valor de T como el que hemos encontrado o mayor (¿por qué mayor? Porque la H1 es que µ es mayor , lo que produciría una media muestral mayor y por tanto mayor valor de t) es 0,20, dicho de otra manera la probabilidad de equivocarnos si rechazamos H0 es 0,20, como la frontera se establece en 0,05 no la rechazamos. Este valor crítico de 0,05 es arbitrario pero es la convención habitual. ¿Cuán razonable es? Problema al respecto: en la hipótesis de que un mazo de cartas esté bien barajado, la probabilidad de que al sacar dos cartas sean, p.e.:1 el as de oros y 2 el rey de bastos es 1/40 x 1/39=0,000833. Si hacemos la experiencia y obtenemos ese resultado ¿rechazaríamos la hipótesis de que el mazo está bien barajado? ¿Cuánto se parece esto a la lógica del contraste de hipótesis? Volvamos al problema del estrés. Como no se rechaza H0, se puede cometer un error tipo II. ¿Cuál es β?. De hecho, sería la información relevante a comunicar en este estudio (la probabilidad del error que se pude cometer en él). Habitualmente, sin embargo, no se da porque los paquetes estadísticos no la calculan. Para calcularla se debe concretar H1, p.e. µ = 20 (el criterio para este valor no es estadístico)
http://www.hrc.es/bioest/Introducion_ch.html (3 of 4) [28/12/2002 18:54:24]
Contrastes de hipótesis
β=p(aceptar H0|H1 cierta) Supongamos que el tamaño muestral sea suficientemente grande para poder aproximar t a z. ¿Cuándo se acepta H0? si z ≤ 1,69
es decir, se acepta H0 si ¿Qué probabilidad hay de encontrar si µ = 20 (zona verde del gráfico)? En esta hipótesis lo que se distribuye como una z es
Otras lecturas recomendadas Hypothesis testing. Guyatt et al. CMAJ. 152:27-32. 1995
http://www.hrc.es/bioest/Introducion_ch.html (4 of 4) [28/12/2002 18:54:24]
Tamaño muestral en contrastes sobre medias
Cálculo del tamaño muestral para contrastes sobre medias Sea el contraste (bilateral) H0: µ = µ0 H1: µ > µ0 Para calcular el tamaño muestral debemos, además de fijar α y β, concretar H1 Concretando H1: µ = µ0 + δ. Si n suficientemente grande para poder usar la normal, es decir
resulta que Si el contraste fuera a dos colas habría que cambiar zα por zα/2
http://www.hrc.es/bioest/tamano.html [28/12/2002 18:55:02]
Comparación de medias
Comparación de medias La hipótesis nula H0: µ1 − µ2 = d0 Generalmente d0=0 Hay 3 situaciones distintas: 1º
conocidos (poco frecuente).
2º
desconocidos pero iguales.
3º
desconocidos pero distintos.
Los estadísticos son distintos (z en 1 y t en 2 y 3) pero el procedimiento es el mismo. En los 3 casos se supone que las muestras son independientes; si no lo fueran hay otro estadístico (t pareada). Todos asumen normalidad. Si no se cumpliera hay que usar los llamados test no paramétricos. Ejemplo En un ensayo clínico para evaluar un hipotensor se compara un grupo placebo con el grupo tratado. La variable medida es la disminución de la presión sistólica y se obtiene: grupo placebo n = 35; Hg. y s2 = 33,9; grupo tratado n = 40;
= 3,7 mm de
= 15,1 mm de Hg. y s2 = 12,8. ¿Es eficaz el tratamiento?
Se trata de un contraste sobre diferencias de medias H0: µT − µP = 0 H1: µT − µP > 0 Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales o distintas, para ello se plantea el contraste H0: H1: El estadístico es , para el que p<0,05, en consecuencia rechazamos la H0 y concluimos que las varianzas son distintas. Por lo tanto usaríamos la t para varianzas distintas. Haciendo los cálculos t=-10,2 p<0,05 rechazamos la H0 y concluimos que las medias son distintas. Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e. 0 para placebo y 1 para tratado) y Diferen con la diferencia de presión arterial para cada individuo al acabar el estudio y al empezar. Originalmente en el archivo podría haber una variable con la presión al empezar y otra al acabar y se crearía la diferencia con la opción: Transformar ---> Calcular. Para calcular la t desplegamos los menús que se ven en la gráfica:
http://www.hrc.es/bioest/ch_medias.html (1 of 3) [28/12/2002 18:55:43]
Comparación de medias
Y el programa calcula la t para varianzas iguales y distintas y realiza el contraste para las varianzas. Para el contraste sobre las varianza el SPSS no usa la prueba descrita más arriba, sino la de Levene que no asume normalidad y se puede usar para comparar varias varianzas. Estadísticos del grupo TRATA
N
Media
0
35
3,729
5,666
,958
1
40
15,075
3,576
,565
DIFEREN
Desviación Error típ. de típ. la media
Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F
DIFEREN
Se han asumido varianzas iguales No se han asumido varianzas iguales
10,431
Sig.
,002
Prueba T para la igualdad de medias
t
gl Sig. (bilateral)
Diferencia de medias
Error típ de la Intervalo de confianza para la diferencia diferencia Inferior
Superior
-10,503
73
,000
-11,346
1,080
-13,500
-9,193
-10,201
55,909
,000
-11,346
1,112
-13,575
-9,118
¿Qué nos está diciendo este resultado? Que si el tratamiento fuera igual de eficaz que el placebo, la probabilidad de haber obtenido una diferencia entre ambos como la que hemos encontrado o mayor es muy pequeña (<0,000) ¿Bastaría esto para convencernos de que debemos tratar con este tratamiento?
http://www.hrc.es/bioest/ch_medias.html (2 of 3) [28/12/2002 18:55:43]
Comparación de medias
http://www.hrc.es/bioest/ch_medias.html (3 of 3) [28/12/2002 18:55:43]
Contrastes sobre v.a. cualitativas
Contrastes sobre independencia de v.a. cualitativas Se quiere estudiar un posible factor pronóstico del éxito de una terapia, p.e. cierto grado de albuminuria como mal pronóstico en la diálisis. Los resultados de un estudio de este tipo se pueden comprimir en una tabla 2x2 del tipo F
nF
E
a
b
m = a+b
nE
c
d
n = c+d
e = a+c
f = b+d
T
Se estudian T individuos, a tienen al factor (F) y tiene éxito la terapia (E), b no tienen al factor (nF) y tiene éxito la terapia, ... ¡Ojo! A pesar de la aparente "inocencia" de esta tabla, puede significar cosas distintas segíun el diseño del estudio. No todas las probabilidades de las que se habla más abajo se pueden estimar siempre. H0 es que el factor F y el éxito E son independientes (F no es factor pronóstico) y H1 que están asociados (sí es factor pronóstico). Si son independientes p(E∩F) = p(E)p(F). A partir de los datos de la tabla las mejores estimaciones de estas probabilidades son
, por lo tanto en H0
,
(cociente entre el producto en consecuencia el valor esperado para esa celda en H0 es de los totales marginales y el gran total), del mismo modo se calculan los demás valores esperados y se construye el estadístico
que se distribuye según una distribución conocida denominada ji-cuadrado, que depende de un parámetro llamado "grados de libertad" (g.l.) Los g.l. en esta tabla son 1. Esto se puede generalizar a tablas CxF y los grados de libertad son (C-1)x(F-1). Ejemplo En una muestra de 100 pacientes que sufrieron infarto de miocardio se observa que 75 sobrevivieron más de 5 años (éxito). Se quiere estudiar su posible asociación con la realización de ejercicio moderado (factor). La tabla es F
nF
E
50
25
75
nE
10
15
25
60
40
100
Calculamos los valores esperados en H0 F
nF
E
60x75/100=45
40x75/100=30
nE
60x25/100=15
40x25/100=10
Obsérvese que una vez calculado uno de los valores esperados, los demás vienen dados para conservar los
http://www.hrc.es/bioest/ch_cualitativas.html (1 of 3) [28/12/2002 18:57:07]
Contrastes sobre v.a. cualitativas
totales marginales (eso es lo que significa que hay 1 g.l.). A partir de aquí calculamos
Rechazamos la H0 y concluimos que hay asociación entre el ejercicio y la supervivencia. Obviamente esta asociación no es necesariamente causal. Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Super con un código distinto para cada grupo, p.e. 1 para supervivencia y 0 para no y Ejer también con dos códigos. Para calcular la ji-cuadrado desplegamos los menús que se ven en la gráfica:
y la salida es Tabla de contingencia EJERC * SUPER Recuento SUPER
EJERC
Total
0
1
0
15
25
40
1
10
50
60
25
75
100
Total Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Valor
gl
Sig. asint. (bilateral)
5,556
1
,018
http://www.hrc.es/bioest/ch_cualitativas.html (2 of 3) [28/12/2002 18:57:07]
Sig. exacta Sig. exacta (unilateral) (bilateral)
Contrastes sobre v.a. cualitativas
Corrección de continuidad
4,500
1
,034
Razón de verosimilitud
5,475
1
,019
Estadístico exacto de Fisher
,033
Asociación lineal por lineal
5,500
N de casos válidos
100
1
,019
a Calculado sólo para una tabla de 2x2. b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 10,00.
http://www.hrc.es/bioest/ch_cualitativas.html (3 of 3) [28/12/2002 18:57:07]
,017
Estadísticos de fuerza de la asociación
Estadísticos de fuerza de la asociación ¿Cuál es la fuerza de la asociación? Ni el estadístico χ2 ni su valor p asociado miden esa fuerza, es decir se puede encontrar un alto valor de χ2 (pequeño valor de p) con una asociación débil si el tamaño muestral fuera grande. Hay varios estadísticos propuestos para medir esta fuerza: 1º Diferencia de riesgo o Reducción absoluta del riesgo (RAR): A partir de la tabla del ejemplo anterior podemos estimar la probabilidad (riesgo en la terminología epidemiológica) de que un
individuo que haga ejercicio tenga éxito:
y también la probabilidad de que lo
. Se llama Diferencia de riesgo o Reducción tenga uno que no lo haga: absoluta del riesgo a esta diferencia: 0,20 que puede oscilar entre -1 y 1; 0 indica no asociación. 2º Reducción relativa del riesgo (RRR): La magnitud de la diferencia de riesgo es difícil de interpretar: una diferencia de 0,001 puede ser mucho o poco dependiendo del riesgo basal. Para superar esta dificultad se define la RRR como la reducción absoluta del riesgo dividida por el riesgo basal o riesgo del grupo de referencia. En el ejemplo, si consideramos como referencia el no hacer ejercicio, el RRR sería 0,20/0,63 = 0,32. 3º Riesgo relativo (RR): Otro índice relativo es el riesgo relativo definido como el cociente entre los riesgos. En el ejemplo anterior RR=0,83/0,63=1,32. Los individuos que hacen ejercicio tienen una probabilidad de éxito 1,32 veces mayor que los que no. El RR puede oscilar entre 0 y
∞; 1 indica no asociación. Es el estadístico preferido.
4º Odds ratio (OR): Es un estadístico menos intuitivo que el RR. Para caracterizar un proceso binomial se puede usar su probabilidad (p) o el cociente p/q llamado odds. En el ejemplo anterior, para el ejercicio p = 0,83 y el odds = 0,83/0,17=4,88, es decir es 4,88 veces más probable tener éxito que no tenerlo si se hace ejercicio y para el no ejercicio p = 0,63 y el odds = 0,63/0,37=1,70. Para comparar ambos procesos podemos usar su cociente u odds ratio OR = 4,88/1,70 = 2,87. El odds para el ejercicio es 2,87 veces mayor que para el no ejercicio. El
∞
; 1 indica no asociación. Queda como ejercicio para el OR también puede oscilar entre 0 y lector comprobar que el OR se puede estimar como el cociente de los productos cruzados de los elementos de la tabla, OR=(50x15)/(10x25)=3. La diferencia con el anterior es debida a errores de redondeo. ¿Qué ventajas tiene el OR frente al RR?. En principio parece menos intuitivo aunque un jugador no opinaría lo mismo. De hecho el OR proviene del mundo de las apuestas. Si queremos comparar dos juegos ¿qué da más información el OR o el RR? ... y ¿si queremos comparar dos estrategias terapéuticas? Por otro lado si el estudio del ejemplo anterior se hubiera hecho de otra forma: muestreando por un lado individuos con éxito y por otro sin éxito (diseño caso-control) el RR no se podría estimar y sin embargo el OR sí y de la misma forma (se puede demostrar usando el teorema de Bayes). Además, cuando se estudian fenómenos con probabilidades bajas (típicamente enfermedades) el OR tiende al RR.
http://www.hrc.es/bioest/fuerza_asocia.html (1 of 2) [28/12/2002 18:58:29]
Estadísticos de fuerza de la asociación
Sean dos fenómenos con probabilidades p1 y p2 próximas a cero, en consecuencia q1 y q2 estarán próximos a 1 y su cociente también, por lo tanto
Resumiendo, el OR se puede estimar en diseños como el caso-control en los que el RR no se puede y si se estudian fenómenos con baja prevalencia el OR estima el RR. Además el OR es un buen indicador en sí mismo. 5º Número necesario a tratar (NNT): En el contexto de la evaluación de tratamientos (ensayos clínicos) se suele usar este índice definido como el número de personas que se necesitaría tratar con un tratamiento para producir, o evitar, una ocurrencia adicional del evento. Del mismo modo se define número necesario para perjudicar (NNP) para evaluar efectos indeseables. Se calcula como el inverso del RAR. En el ejemplo NNT = 1/0,20 = 5 que se interpreta como por cada 5 pacientes que hagan ejercicio se consigue que uno tenga éxito. Otras lecturas recomendadas Assessing the effects of treatment: measures of association. Jaeschke et al. CMAJ. 152:351357. 1995 Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo. Abraira SEMERGEN 26: 535-536. 2000. Medidas del efecto de un tratamiento (II): odds ratio y numero necesario para tratar. Abraira SEMERGEN 27: 418-420. 2001.
http://www.hrc.es/bioest/fuerza_asocia.html (2 of 2) [28/12/2002 18:58:29]
Problemas de estadística propuestos
Problemas de estadística propuestos (3ª parte): 1º Plantear (y resolver) el contraste de hipótesis adecuado para el problema 2 de la serie anterior. Solución 2º Antiguos estudios muestran que el germicida DDT puede acumularse en el cuerpo. En 1965, la concentración media de DDT en las partes grasas del cuerpo en la población española era de 9 ppm. Se espera que como resultado de los controles realizados esta concentración haya disminuido. a. Construir la hipótesis nula y alternativa para documentar esta afirmación. b. Explicar en términos prácticos las consecuencias de cometer un error tipo I y un error tipo II. c. Se realiza el contraste de forma que la potencia para detectar una concentración media de 6 ppm es de 0,8. Explicar en términos prácticos qué significa. Solución 3º En un estudio caso-control para estudiar la posible asociación entre estado civil y mortalidad en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que entre 60 que sobrevivieron sólo lo eran 15. Plantear y resolver el contraste. ¿Cuál sería el mejor estimador del efecto? Solución
http://www.hrc.es/bioest/estadis_pro3.html [28/12/2002 19:00:49]
Problemas de estadística propuestos
Problemas de estadística propuestos (3ª parte): 1º Plantear (y resolver) el contraste de hipótesis adecuado para el problema 2 de la serie anterior: Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. En los otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz? Solución H0: No hay asociación entre la vacuna y la gripe (la vacuna no es eficaz) Construimos la tabla V
nV
G
10
20
30
nG
90
80
170
100
100
200
Calculamos los valores esperados en H0 V
nV
G
100x30/200=15
100x30/200=15
nG
100x170/200=85
100x170/200=85
Calculamos el estadístico χ2
Como el valor crítico de χ 2 es 3,84 rechazamos la H0 y concluimos que la vacuna es eficaz. 2º Antiguos estudios muestran que el germicida DDT puede acumularse en el cuerpo. En 1965, la concentración media de DDT en las partes grasas del cuerpo en la población española era de 9 ppm. Se espera que como resultado de los controles realizados esta concentración haya disminuido. a. Construir la hipótesis nula y alternativa para documentar esta afirmación. b. Explicar en términos prácticos las consecuencias de cometer un error tipo I y un error tipo II. c. Se realiza el contraste de forma que la potencia para detectar una concentración media de 6 ppm es de 0,8. Explicar en términos prácticos qué significa.
http://www.hrc.es/bioest/estadis_pro3sul.html (1 of 3) [28/12/2002 19:01:09]
Problemas de estadística propuestos
Solución a. Llamando µ a a la concentración media antes y µ d a la concentración media ahora, las hipótesis se plantean H0: µa = µd H1: µa > µd b. Error tipo I = (rechazar H0|H0 cierta) es decir concluir que la concentración ha disminuido, cuando en realidad no ha sido así. Error tipo II = (aceptar H0|H0 falsa) es decir concluir que la concentración no ha disminuido, cuando en realidad si ha disminuido c. El diseño garantiza que si la concentración media ha disminuido 6 ppm o más el estudio tiene una probabilidad de 0,8 de detectarlo. 3º En un estudio caso-control para estudiar la posible asociación entre estado civil y mortalidad en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que entre 60 que sobrevivieron sólo lo eran 15. Plantear y resolver el contraste. ¿Cuál sería el mejor estimador del efecto? Solución H0: No hay asociación entre el estado civil y la mortalidad Construimos la tabla Soltero
No
Morir
30
20
50
No
15
45
60
45
65
110
Calculamos los valores esperados en H0 Soltero
no
Morir
45x50/110=20,5
65x50/110=29,5
No
45x60/110=24,5
65x60/110=35,5
Calculamos el estadístico χ2
Como el valor crítico de χ2 es 3,84 rechazamos la H0 y concluimos que hay asociación. El mejor estimador de la fuerza de la asociación (realmente el único posible de los que hemos http://www.hrc.es/bioest/estadis_pro3sul.html (2 of 3) [28/12/2002 19:01:09]
Problemas de estadística propuestos
visto para este tipo de estudios) es el OR estimado como
http://www.hrc.es/bioest/estadis_pro3sul.html (3 of 3) [28/12/2002 19:01:09]
Introducción a la causalidad
Introducción a la causalidad 1 Causalidad en la vida común: Parece que forma parte de la mente humana el buscar relaciones entre las cosas y particularmente entre acciones y sus consecuencias como modo de entender el mundo y adaptarse al mismo. Ya figura en el aprendizaje del niño, incluso la repetición. Sin embargo en el lenguaje común e incluso literario se usa con mucha laxitud: "Un hombre entró en un local provocando una nube de humo, se alisó el cabello provocando la aparición de un barman de aspecto feroz". Queneau. "Sobre como la divina providencia regula la igualdad en el nacimiento de los sexos". Arthunot. 2 Causalidad en la filosofía: Para Aristóteles (visión finalista) existen 4 tipos de causa: Causa material: el mármol para una estatua,la existencia del miocardio y su necesidad de riego sanguíneo para el infarto de miocardio. Causa eficiente: la mano del escultor para la estatua, el trombo para el infarto. Causa formal: el canon de belleza para la estatua, la necesidad de nutrientes para el infarto. Causa final: depende de posiciones "a priori": el aumento de la belleza en el mundo para la estatua, para la regulación de la población en el mundo o para que existan cardiólogos para el infarto. Evidentemente estos conceptos se solapan. No es infrecuente encontrar esta visión finalista en Biología: "El sistema inmunológico está para defender al individuo de ataques externos". Otras posiciones: i) ontológica (Leibniz): La causalidad es un principio del ser. "Las leyes causales que una cosa cumple constituyen un aspecto fundamental e inseparable de su modo de ser". D. Bohm. ii) legalista (Hume): La causalidad es la forma en que se expresan las leyes científicas basadas en una generalización de la experiencia y con capacidad predictiva. Las características de la relación causal son: a) contigüidad (causa y efecto deben estar contiguos en espacio y tiempo). b) prioridad (la causa precede en el tiempo al efecto). c) conjunción constante (las relaciones anteriores deben conservarse en varios casos). iii) a priorista (Kant): La causalidad es un "a priori" que se necesita para el conocimiento racional. No procede del conocimiento, es un supuesto previo que lo hace posible. iv) escéptica: "La razón por la que la física ha dejado de buscar las causas es que en realidad no existen. La Ley de causalidad como mucho de lo que se da por bueno entre los filósofos, es una reliquia de una época pasada que sobrevive, como la monarquía, porque se supone erróneamente que no hace ningún daño". B. Russell. 3 Elementos de la relación causal 1 Elemento inicial (A) o causa: su definición depende del modelo. Pueden ser causas: a) Acciones intencionales (p.e. administración de un tratamiento): las más claras b) Acciones no intencionales: acciones naturales (lluvia), hechos (fumar),... c) Atributos (sexo), constructos (inteligencia): como no se definen en función de cambios, a veces en lugar de causas se habla de determinantes. 2 Elemento final (B) o efecto que se define en términos de cambio con respecto a: a) situación previa b) lo que hubiera ocurrido si no hubiera ocurrido la causa. Es la que plantea más problemas en el diseño experimental: necesidad de control. 3 Relación entre ambos a) Algunos autores (Russell) la definen exclusivamente como funcional en el sentido de función matemática. b) Otros (Galileo, Stuart Mill, Kant) también como condición. La relación condicional puede ser: i) Necesaria y suficiente: Si A, entonces B y Si B, entonces A. ii) Necesaria y no suficiente: Si A, entonces B o no B y Si B, entonces A iii) No necesaria y suficiente: Si A, entonces B y Si B, entonces A o no A iv) No necesaria y no suficiente: Si A, entonces B o no B y Si B, entonces A o no A http://www.hrc.es/bioest/causali.html (1 of 3) [28/12/2002 19:01:45]
Introducción a la causalidad
El cuarto caso es el más difícil de establecer por su ambigüedad, pero es el más frecuente en Biología. 4 Características de la relación causal: siguiendo a Hume, pero con un lenguaje más actual a) temporalidad: la causa precede al efecto b) dirección: la relación va de la causa al efecto c) asociación: entendida como cuantificación de la constancia de la relación 5 Modelos causales en Biología 1 Modelo de Koch-Henle (sugerido por Koch a propósito de la tuberculosis y paradigmático en el estudio de enfermedades infecciosas): más que un modelo es un conjunto de reglas de decisión que asumen los principios anteriores: i) el microorganismo debe encontrarse siempre en los casos de enfermedad. ii) el microorganismo deberá poder ser aislado en cultivo, demostrando ser una estructura viva y distinta de otras que pueden encontrarse en otras enfermedades. iii) el microorganismo debe distribuirse de acuerdo con las lesiones y ellas deben explicar las manifestaciones de la enfermedad. iv) el microorganismo cultivado (algunas generaciones) deberá ser capaz de producir la enfermedad en el animal de experimentación. 2 Modelo de Bradford Hill: más conocido como criterios de Bradford Hill, aunque estrictamente no son criterios, y paradigmático en el estudio de enfermedades no infecciosas y también asume los principios anteriores adecuados a la relación causal tipo iv: i) fuerza de la asociación, medida con los índices estadísticos apropiados. ii) consistencia entre distintos observadores, en diferentes lugares, tiempos y circunstancias. iii) especificidad de las causas. iv) temporalidad v) gradiente biológico en la relación dosis-respuesta. vi) plausibilidad biológica. vii) coherencia con otros conocimientos. viii) evidencia experimental ix) analogía con otras relaciones causales 3 Modelo de Rothman, con más contenido teórico, contempla las relaciones multicausales, fue desarrollado en el ámbito de la epidemiología y es el más adaptado a los métodos estadísticos multivariantes. Define causa como todo acontecimiento, condición o característica que juega un papel esencial en producir un efecto (p.e. una enfermedad) Distingue entre: Causa componente causa que contribuye a formar un conglomerado que constituirá una causa suficiente. Causa suficiente conjunto de causas que producen un efecto. Causa necesaria ver más adelante (punto iii) Características del modelo: i) Ninguna de la causas componentes es superflua ii) No exige especificidad: un mismo efecto puede ser producido por distintas causas suficientes iii) Una causa componente puede formar parte de más de una causa suficiente para el mismo efecto. Si una causa componente forma parte de todas las causas suficientes de un efecto se la denomina causa necesaria iv) Una misma causa componente puede formar parte de distintas causas suficientes de distintos efectos v) Dos causas componentes de una causa suficiente se considera que tienen una interacción biológica, es decir ninguna actúa por su cuenta. El grado de interacción puede depender de otras causas componentes.
http://www.hrc.es/bioest/causali.html (2 of 3) [28/12/2002 19:01:45]
Introducción a la causalidad
http://www.hrc.es/bioest/causali.html (3 of 3) [28/12/2002 19:01:45]
Introducción al análisis multivariante
Introducción al análisis multivariante ¿qué es? ¿qué añade? ¿es siempre necesario? Volvamos al problema del ejercicio y la supervivencia al infarto. Supongamos que: 1) El problema tiene interés 2) el RR de 1,32 es suficientemente preciso 3) es clínicamente relevante. ¿Lo aceptamos? Es decir ¿consideramos la asociación estadística establecida y pasamos a considerar si es causal? Supongamos que si tenemos en cuenta el tabaco, resultara que el 99% de los que hacen ejercicio no fuman, mientras que sólo no fuman el 70% de los que no lo hacen y el tabaco ya hubiera demostrado una asociación con la supervivencia: ¿hemos encontrado un nuevo factor pronóstico o sólo estamos viendo indirectamente el efecto del tabaco? Dicho en la jerga usual: ¿es el tabaco una variable de confusión para la asociación entre el ejercicio y la supervivencia? Una variable es de confusión cuando está asociada simultáneamente con la variable en estudio (el ejercicio en este caso) y con la variable respuesta (la supervivencia) y no forma parte de la cadena causal. La confusión se puede abordar por: i) diseño: en este ejemplo se podría hacer que en la muestra estuvieran igualmente representados los fumadores y los no fumadores. Este es el objetivo fundamental de la asignación aleatoria a los grupos en los ensayos clínicos. ii) análisis: por análisis multivariante (los más comunes son los modelos de regresión) con los que se puede analizar simultáneamente el efecto de varias variables y obtener estimaciones del efecto de cada una corregido o ajustado por las otras. ¿Cuándo es necesario el análisis multivariante? Siempre que el diseño no controle la confusión ... y eso ¿cuándo ocurre? No se puede saber a priori: el mejor método para evitar confusión es la selección aleatoria, pero no lo garantiza.
http://www.hrc.es/bioest/multivariante.html [28/12/2002 19:02:29]
Análisis de la varianza
ANÁLISIS DE LA VARIANZA V. Abraira Bibliografía: V. Abraira, A. Pérez de Vargas Métodos Multivariantes en Bioestadística. Ed. Centro de Estudios Ramón Areces. 1996. Análisis de la varianza El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad α. Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - α)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - α)m, que para valores de α próximos a 0 es aproximadamente igual a αm. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de α, usando en su lugar α/m, aunque resulta un método muy conservador. Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.
http://www.hrc.es/bioest/Anova_1.html [28/12/2002 19:03:14]
Análisis de la varianza
Bases del análisis de la varianza Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única población normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la población σ2: 1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de σ2 y la media de k estimadores centrados es también un estimador centrado y más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los términos independientes de la suma de cuadrados. 2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es también un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad. MSA y MSE, estiman la varianza poblacional en la hipótesis de que las k muestras provengan de la misma población. La distribución muestral del cociente de dos estimaciones independientes de la varianza de una población normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hipótesis usando esa distribución. Si en base a este contraste se rechaza la hipótesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hipótesis de que las k medias provengan de una misma población. Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un único contraste se contrasta la igualdad de k medias. Existe una tercera manera de estimar la varianza de la población, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una única muestra, su varianza muestral también es un estimador centrado de σ2: Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de http://www.hrc.es/bioest/Anova_2.html (1 of 2) [28/12/2002 19:04:11]
Análisis de la varianza
cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad. Los resultados de un anova se suelen representar en una tabla como la siguiente: Fuente de variación Entre grupos Tratamientos Dentro Error Total
G.L.
SS
MS
F
k-1
SSA
SSA/(k-1)
MSA/MSE
(n-1)k
SSE
SSE/k(n-1)
kn-1
SST
Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región crítica para dicho contraste es F > Fα(k-1,(n-1)k)
http://www.hrc.es/bioest/Anova_2.html (2 of 2) [28/12/2002 19:04:11]
Algunasd propiedades de la tabla de anova
Algunas propiedades Es fácil ver en la tabla anterior que GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE El análisis de la varianza se puede realizar con tamaños muestrales iguales o distintos, sin embargo es recomendable iguales tamaños por dos motivos: 1) La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es igual. 2)
Igual tamaño minimiza la probabilidad de error tipo II.
http://www.hrc.es/bioest/Anova_3.html [28/12/2002 19:04:53]
Ejemplo de anova
Ejemplo 1 Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son: Grupo 1
2
3
4
5
180
172
163
158
147
173
158
170
146
152
175
167
158
160
143
182
160
162
171
155
181
175
170
155
160
La tabla de anova es: GL
SS
MS
F
Tratamiento
4
2010,64
502,66
11,24
Error
20
894,4
44,72
Total
24
2905,04
Fuente de variación
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y concluimos que los resultados de los tratamientos son diferentes.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e. de 1 a 5) y Presion con la presión arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los menús que se ven en la gráfica:
http://www.hrc.es/bioest/Anova_4.html (1 of 2) [28/12/2002 19:05:49]
Ejemplo de anova
La tabla de anova que devuelve el programa es
que incluye también el “valor p” asociado al contraste.
http://www.hrc.es/bioest/Anova_4.html (2 of 2) [28/12/2002 19:05:49]
Pruebas para la homocesdasticidad
Pruebas para la homocedasticidad Para que este contraste de hipótesis, basado en la F, lo sea de la igualdad de medias es necesario que todas las muestras provengan de una población con la misma varianza (σ2), de la que MSE y MSA son estimadores. Por lo tanto es necesario comprobarlo antes de realizar el contraste. Del mismo modo que no se puede usar repetidamente la prueba basada en la en la t para comparar más de dos medias, tampoco se puede usar la prueba basada en la F para comparar más de dos varianzas. La prueba más usada para contrastar si varias muestras son homocedásticas (tiene la misma varianza) es la prueba de Bartlett. La prueba se basa en que, en la hipótesis nula de igualdad de varianzas y poblaciones normales, un estadístico calculado a partir de las varianzas muestrales y MSE sigue una distribución Otras pruebas para contrastar la homocedasticidad de varias muestras son la de Cochran y la de la F del cociente máximo, ambas similares y de cálculo más sencillo pero restringidas al caso de iguales tamaños muestrales. La de Cochran es particularmente útil para detectar si una varianza es mucho mayor que las otras En el caso de que las muestras no sean homocedásticas, no se puede, en principio, realizar el análisis de la varianza. Existen, sin embargo, soluciones alternativas: Sokal y Rohlf describen una prueba aproximada, basada en unas modificaciones de las fórmulas originales. Hay situaciones en que la heterocedasticidad es debida a falta de normalidad. En estos casos existen transformaciones de los datos que estabilizan la varianza: la raíz cuadrada en el caso de Poisson, el arco seno de la raíz cuadrada de p para la binomial, el logaritmo cuando la desviación estándar es proporcional a la media. En la práctica, si las pruebas de homocedasticidad obligan a rechazar la hipótesis nula, se prueba si con alguna de estas transformaciones los datos son homocedásticos, en cuyo caso se realiza el anova con los datos transformados. Hay que tener en cuenta que estas pruebas van "al reves" de lo habitual. La hipótesis nula es lo que se quiere probar, en consecuencia hay que usarlas con precaución.
http://www.hrc.es/bioest/Anova_5.html [28/12/2002 19:07:16]
Modelos de análisis de la varianza
Modelos de análisis de la varianza El anova permite distinguir dos modelos para la hipótesis alternativa: modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas. modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es el Ejemplo 1, porque en él se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras. Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas. La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían distintas. Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.
http://www.hrc.es/bioest/Anova_6.html [28/12/2002 19:08:03]
Modelo I de análisis de la varianza
Modelo I o de efectos fijos Un valor individual se puede escribir en este modelo como
µ es la media global, αi es la constante del efecto, o efecto fijo, que diferencia a las k poblaciones. También se puede escribir: representa la desviación de la observación j-ésima de la muestra i-ésima, con respecto a su media. A este término se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del análisis de la varianza son k variables (una para cada muestra), todas con una distribución normal de media 0 y varianza σ2. La hipótesis nula en este análisis es que todas las medias son iguales
que puede escribirse en términos del modelo como:
Como en H0 se cumplen las condiciones del apartado anterior se tratará de ver como se modifican las estimaciones de la varianza en H1. En H0 MSA y MSE son estimadores centrados de σ2, es decir y usando el superíndice 0 para indicar el valor de las variables en H0 E[MSA0] = σ2 E[MSE0] = σ2 Se puede ver que MSE es igual en la hipótesis nula que en la alternativa. Por lo tanto: E[MSE] = E[MSE0] = σ2 Sin embargo al valor esperado de MSA en la hipótesis alternativa se le añade un término con respecto a su valor en la hipótesis nula
Al segundo sumando dividido por n se le llama componente de la varianza añadida por el tratamiento, ya que tiene forma de varianza, aunque http://www.hrc.es/bioest/Anova_7.html (1 of 2) [28/12/2002 19:08:37]
Modelo I de análisis de la varianza
estrictamente no lo sea pues αi no es una variable aleatoria. La situación, por lo tanto, es la siguiente: en H0, MSA y MSE estiman σ2; en H1, . Contrastar la H0 es equivalente a MSE estima σ2 pero MSA estima contrastar la existencia de la componente añadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza. El estadístico de contraste es F=MSA/MSE que, en la hipótesis nula, se distribuye según una F con k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima
http://www.hrc.es/bioest/Anova_7.html (2 of 2) [28/12/2002 19:08:37]
.
Modelo II de análisis de la varianza
Modelo II o de efectos aleatorios En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y aleatorias. De modo que un valor aislado Yij se puede escribir como:
donde µ es la media global, εij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza σ2 (como en el modelo I) y A
i
es una variable distribuida normalmente, independiente de las εij, con media 0 y varianza
.
La diferencia con respecto al modelo I es que en lugar de los efectos fijos αi ahora se consideran efectos aleatorios Ai. Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor esperado de MSA se le añade el término de componente añadida (que aquí es una verdadera varianza ya que Ai es una variable aleatoria):
Para llegar a este resultado se utiliza la asunción de independencia entre Ai y εij y es, por tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las cobayas significaría que las variaciones de grasa en el hígado de cada cobaya son independientes de las variaciones entre cobayas. Esta asunción se violaría si, por ejemplo, en el animalario existieran 2 cepas genéticas tales que en una de ellas la concentración de grasa en las células hepáticas fuera mayor y más variable que en la otra. Por tanto, en H0 tanto MSA como MSE estiman σ2, mientras que en H1, MSE . La existencia de esta componente sigue estimando σ2 y MSA estima añadida se contrasta con F=MSA/MSE y en caso afirmativo, la varianza de Ai se estima como:
http://www.hrc.es/bioest/Anova_8.html [28/12/2002 19:09:33]
Pruebas "a posteriori"
Pruebas “a posteriori” En general, en un modelo II el interés del investigador es averiguar si existe componente añadida y en su caso estimarla. Sin embargo, en un modelo I, lo que tiene interés son las diferencias entre los distintos grupos. En el Ejemplo 1, lo que interesa, una vez visto que la presión arterial media es diferente para los cinco grupos, es, por ejemplo, estimar el efecto de la dieta sin sal, α3 − α1, o el aumento del efecto de la segunda dosis del fármaco con respecto a la primera dosis α5 – α4. Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles hipótesis del tipo µi – µj = 0. Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango (diferencia entre medias) de todos los pares de muestras como estadístico y dicho rango debe superar un cierto valor llamado mínimo rango significativo para considerar la diferencia significativa. La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador de la varianza, es decir un estimador basado en todas las muestras. Una manera semigráfica habitual de representar los resultados es dibujar una línea que una cada subconjunto de medias adyacentes entre las que no haya diferencias significativas. Para los datos del Ejemplo 1 la salida semigráfica para la prueba LSD de, por ejemplo, el Statgraphics es
http://www.hrc.es/bioest/Anova_9.html (1 of 2) [28/12/2002 19:10:59]
Pruebas "a posteriori"
que se interpreta como: Los grupos 5 y 4 están unidos por una línea vertical de ‘X’ por tanto sus medias no son diferentes entre sí y lo mismo los grupos 4, 3 y 2, mientras que la media del grupo 1 es distinta de la de todos los demás.
http://www.hrc.es/bioest/Anova_9.html (2 of 2) [28/12/2002 19:10:59]
Análisis de la varianza de dos vías
Análisis de la varianza de dos factores Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de variación. En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensión arterial, se podría plantear que, quizás, la evolución de la misma fuera diferente para los hombres y las mujeres, en cuyo caso, y si el número de hombres y mujeres en cada muestra no fuera el mismo, podría ocurrir que una parte del efecto atribuido a los tratamientos fuera debido al sexo. En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:
modelo I modelo II modelo mixto donde µ es la media global, αi o Ai el efecto del nivel i del 1º factor, βj o Bj el efecto del nivel j del 2º factor y εijk las desviaciones aleatorias alrededor de las medias, que también se asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza σ2. A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade la de aditividad de los efectos de los factores. A los términos (αβ)ij, (AB)ij, (αB)ij, se les denomina interacción entre ambos factores http://www.hrc.es/bioest/Anova_10.html (1 of 3) [28/12/2002 19:11:37]
Análisis de la varianza de dos vías
y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora. Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles se esquematizan en la figura
A
B
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fácilmente observables. Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interacción. Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo. La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como http://www.hrc.es/bioest/Anova_10.html (2 of 3) [28/12/2002 19:11:37]
Análisis de la varianza de dos vías
referencia).
http://www.hrc.es/bioest/Anova_10.html (3 of 3) [28/12/2002 19:11:37]
Identidad de la suma de cuadrados
Identidad de la suma de cuadrados La suma de cuadrados total en un anova de 2 vías, es:
(donde para representar las medias se ha usado la convención habitual de poner un punto (.) en el lugar del subíndice con respecto al que se ha sumado) que dividida por sus grados de libertad, abn - 1, estima la varianza σ2 en el supuesto de que las ab muestras provengan de una única población. Se puede demostrar que
que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos sumandos reciben respectivamente el nombre de suma de cuadrados del 1º factor (tiene a -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1º factor), del 2º factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 2º factor), de la interacción (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a la interacción) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos alrededor de las medias de cada muestra). Los resultados de un análisis de la varianza de dos factores se suelen representar en una tabla como la siguiente: Fuente de variación
GL
SS
MS
1º factor
a -1
SSA
SSA/(a - 1)
2º factor
b-1
SSB
SSB/(b - 1)
(a - 1)(b - 1)
SSAB
SSAB/[(a - 1)(b - 1)]
Error
ab(n - 1)
SSE
SSE/[ab(n - 1)]
Total
abn - 1
SST
Interacción
Los grados de libertad también son aditivos. En ocasiones se añade una primera línea llamada de tratamiento o de subgrupos cuyos grados de libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interacción, que corresponderían a la suma de cuadrados y grados de libertad del tratamiento de un análisis de una vía en que las ab muestras se considerarán como muestras de una clasificación única. http://www.hrc.es/bioest/Anova_11.html (1 of 2) [28/12/2002 19:12:02]
Identidad de la suma de cuadrados
Para plantear los contrastes de hipótesis hay que calcular los valores esperados de los distintos cuadrados medios.
http://www.hrc.es/bioest/Anova_11.html (2 of 2) [28/12/2002 19:12:02]
Contrastes de hipótesis en anova de 2 vías
Contrates de hipótesis en un análisis de la varianza de dos factores Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:
Modelo I MS
Valor esperado
MSA
MSB
MSAB MSE Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis: i) no existe interacción (MSAB/MSE)
ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)
iii) no existe efecto del segundo factor (MSB/MSE)
http://www.hrc.es/bioest/Anova_12.html (1 of 2) [28/12/2002 19:13:09]
Contrastes de hipótesis en anova de 2 vías
Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar las siguientes. En este caso lo que está indicado es realizar un análisis de una vía entre las ab combinaciones de tratamientos para encontrar la mejor combinación de los mismos.
http://www.hrc.es/bioest/Anova_12.html (2 of 2) [28/12/2002 19:13:09]
Contrastes de hipótesis en un anova de 2 vías modelo II
Contraste de hipótesis en un anova de 2 vías Modelo II MS
Valor esperado
MSA MSB MSAB MSE donde son, respectivamente las componentes añadidas por el primer factor, por el segundo y por la interacción, que tienen la misma forma que los del modelo I, sin más que cambiar αi y βj por Ai y Bj, respectivamente. La interacción se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza la hipótesis nula se contrastarían cada uno de los factores con MSA/MSAB y MSB/MSAB. En un modelo II, como no se está interesado en estimar los efectos de los factores sino sólo la existencia de la componente añadida, sí tiene sentido contrastar la existencia de la misma para cada factor incluso aunque exista interacción. Aquí el problema se plantea cuando no se puede rechazar la hipótesis nula y se concluye que no existe interacción: entonces tanto MSE como MSAB estiman σ2, entonces ¿cuál se elige para contrastar la componente añadida de los factores? En principio, parece razonable escoger su media (la media de varios estimadores centrados es también un estimador centrado y más eficiente), sin embargo si se elige MSAB se independiza el contraste para los factores de un posible error tipo II en el contraste para la interacción. Hay autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede asegurar baja la probabilidad para el error tipo II. La media de los cuadrados medios se calcula dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad.
http://www.hrc.es/bioest/Anova_13.html (1 of 3) [28/12/2002 19:13:51]
Contrastes de hipótesis en un anova de 2 vías modelo II
Ejemplo A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes adecuados. Fuente de variación
G.L.
SS
MS
1º factor
4
315,8
78,95
2º factor
3
823,5
274,5
Interacción
12
328,9
27,41
Error
100
2308,0
23,08
Total
119
3776,2
Se empezaría contrastando la existencia de interacción: f = 27,41/23,08 = 1,188 como F0,05(12,100) = 1,849 no se puede, al nivel de significación del 95%, rechazar la hipótesis nula y se concluye que no existe interacción. Si usamos MSAB para contrastar los factores: 1º factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la hipótesis nula y se concluye la no existencia de componente añadida por este factor. 2º factor: f = 274,5/27,41 = 10,015 como F0,05(3,12) = 3,49 se rechaza la hipótesis nula y se acepta la existencia de componente añadida por este factor. El resultado del análisis es: no existe componente añadida por la interacción, tampoco por el 1º factor y sí existe componente añadida por el 2º. La estimación de esta componente es: como a partir de los grados de libertad de la tabla podemos calcular a = 5, b = 4 y n = 6 resulta que la estimación de es 274,5 - 27,41 = 247,09; por lo tanto que representa un 35,7% de componente añadida por el segundo factor. Si se hubiera optado por promediar, los cuadrados medios promediados son (328,9+2308,0)/(12+100)= 23,54 con 112 grados de libertad y hubiera resultado significativo también el 1º factor.
La salida de un paquete estadístico, p.e. el Statgraphics, para un anova de 2 factores modelo II http://www.hrc.es/bioest/Anova_13.html (2 of 3) [28/12/2002 19:13:51]
Contrastes de hipótesis en un anova de 2 vías modelo II
http://www.hrc.es/bioest/Anova_13.html (3 of 3) [28/12/2002 19:13:51]
Contrastes de hipótesis en un anova de 2 vías (modelo mixto)
Contrastes de hipótesis en un anova de dos vías Modelo mixto
Supóngase el primer factor de efectos fijos y el segundo de efectos aleatorios, lo que no supone ninguna perdida de generalidad, ya que el orden de los factores es arbitrario.
MS
Valor esperado
MSA MSB MSAB MSE
Se contrastan la interacción y el factor aleatorio con el término de error, si la interacción fuera significativa no tiene sentido contrastar el efecto fijo y si no lo fuera, el efecto fijo se contrasta con el término de interacción o con el promedio de interacción y error.
http://www.hrc.es/bioest/Anova_14.html [28/12/2002 19:15:28]
Ejemplo
Ejemplo Se quiere probar la eficacia de un somnífero estudiando posibles diferencias de la misma por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes varones y otros dos de mujeres y tanto para los hombres como para las mujeres se suministra a un grupo el somnífero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse. Los resultados son: Placebo Somnífero 30 35 50 32 45 30 47 25 38 30 50 42 35 30 46 15 25 18 32 23
Hombre
Mujer
Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga que tiene dos niveles: placebo y somnífero. El segundo factor es el sexo también con 2 niveles: hombres y mujeres. El tamaño de las muestras es n=5. La tabla de anova es: Fuente de variación
GL
SS
MS
Somnífero
1
696,2
696,2
Sexo
1
105,8
105,8
Interacción
1
0,2
0,2
Error
16 1197,6
74,85
Total
19 1999,8
Se empieza contrastando la interacción: f = 0,2/74,85 = 0,0026 que como es menor que F0,05(1,16)=4,49 no se rechaza la hipótesis nula de que no existe interacción. A continuación se contrastan los factores: para el somnífero f = 696,2/74,85 = 9,3 que es mayor que 4,49 por lo tanto existe efecto del somnífero y para el http://www.hrc.es/bioest/Anova_15.html (1 of 3) [28/12/2002 19:16:00]
Ejemplo
sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias entre los sexos. La estimación del efecto del somnífero será la diferencia entre las medias de los que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez que se ha visto que no tiene efecto.
Para analizarlo con un paquete estadístico, p.e. el Statgraphics, se necesita crear un archivo con tres variables
y el resultado, pidiendo la tabla de anova
http://www.hrc.es/bioest/Anova_15.html (2 of 3) [28/12/2002 19:16:00]
Ejemplo
y la tabla de medias
Por tanto la estimación del efecto del somnifero es 39,8 - 28,0=11,8 min
http://www.hrc.es/bioest/Anova_15.html (3 of 3) [28/12/2002 19:16:00]
Tamaños muestrales desiguales en un anova de dos factores
Tamaños muestrales desiguales en un anova de dos factores Aunque los paquetes estadísticos suelen hacer el anova de dos factores, tanto en el caso de tamaños muestrales iguales como desiguales, conviene resaltar que el análisis es bastante más complicado en el caso de tamaños desiguales. La complicación se debe a que con tamaños desiguales hay que ponderar las sumas de cuadrados de los factores con los tamaños muestrales y no resultan ortogonales (su suma no es la suma de cuadrados total) lo que complica no sólo los cálculos sino también los contrastes de hipótesis. Por esto, cuando se diseña un análisis factorial de la varianza se recomienda diseñarlo con tamaños iguales. Hay ocasiones en que, sin embargo, por la dificultad de obtener los datos o por pérdida de alguno de ellos es inevitable recurrir al análisis con tamaños desiguales. Algunos autores recomiendan, incluso, renunciar a alguno de los datos para conseguir que todas las muestras tengan el mismo tamaño. Evidentemente esta solución es delicada pues podría afectar a la aleatoriedad de las muestras.
http://www.hrc.es/bioest/Anova_16.html [28/12/2002 19:16:24]
Casos particulares de anova
Casos particulares: Anova de dos factores sin repetición En ciertos estudios en que los datos son difíciles de obtener o presentan muy poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin repetición, es decir, en el que en cada muestra sólo hay una observación (n=1). Hay que tener en cuenta que, como era de esperar con este diseño, no se puede calcular SSE. El término de interacción recibe el nombre de residuo y que, como no se puede calcular MSE, no se puede contrastar la hipótesis de existencia de interacción. Esto último implica también que: a) en un modelo I, para poder contrastar las hipótesis de existencia de efectos de los factores no debe haber interacción (si hubiera interacción no tenemos término adecuado para realizar el contraste). b) en un modelo mixto existe el mismo problema para el factor fijo. Bloques completos aleatorios Otro diseño muy frecuente de anova es el denominado de bloques completos aleatorios diseñado inicialmente para experimentos agrícolas pero actualmente muy extendido en otros campos. Puede considerarse como un caso particular de un anova de dos factores sin repetición o como una extensión al caso de k muestras de la comparación de medias de dos muestras emparejadas. Se trata de comparar k muestras emparejadas con respecto a otra variable cuyos efectos se quieren eliminar. Por ejemplo, en un ensayo clínico para comparar los efectos de dos analgésicos y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le suministrara un tratamiento distinto, habría una gran variación individual en las respuestas, debido a que no todas las cefaleas son de la misma intensidad y no todos los individuos tienen la misma percepción del dolor, que dificultaría el hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se aplican los tres tratamientos a los mismos individuos en diferentes episodios de cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se elimina la variación individual. En este diseño a los datos de cada individuo se les denomina bloque y los datos se representan en una tabla de doble entrada análoga a la del anova de clasificación única en la que las a columnas son los tratamientos y las b filas los bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las hipótesis que se pueden plantear son: (igualdad de medias de tratamientos) http://www.hrc.es/bioest/Anova_17.html (1 of 2) [28/12/2002 19:16:52]
Casos particulares de anova
y también, aunque generalmente tiene menos interés: (igualdad de medias de bloques) A pesar del parecido con la clasificación única, el diseño es diferente: allí las columnas eran muestras independientes y aquí no. Realmente es un diseño de dos factores, uno de efectos fijos: los tratamientos, y el otro de efectos aleatorios: los bloques, y sin repetición: para cada bloque y tratamiento sólo hay una muestra. El modelo aquí es:
donde αi es el efecto del tratamiento i y Bj el del bloque j. No hay término de interacción ya que, al no poder contrastar su existencia no tiene interés. Al ser un modelo mixto exige la asunción de no existencia de interacción y los contrastes se hacen usando el término MSE como divisor.
http://www.hrc.es/bioest/Anova_17.html (2 of 2) [28/12/2002 19:16:52]
Ejemplo de anova de bloques completos aleatorios
Ejemplo 3 En el ensayo clínico de los analgésicos descrito anteriormente se encuentran los siguientes resultados: Placebo
Analgésico A Analgésico B
35
20
22
40
35
42
60
50
30
50
40
35
50
30
22
La tabla de anova correspondiente: Fuente de variación
G.L.
SS
MS
Analgésico (tratamiento)
2
748,8
374,4
Paciente (bloque)
4
767,6
191,9
Error
8
409,2
51,15
Total
14
1925,6
Los contrastes de hipótesis se hacen: para el analgésico f=374,4/51,15=7,32 que como es mayor que F0,05(2,8)=4,46 existe un efecto del tratamiento. para los bloques f=191,9/51,15=3,75 que es menor que F0,05(4,8)=3,84 por tanto no hay componente añadida por los pacientes. El archivo para analizarlo con en un paquete estadístisco
http://www.hrc.es/bioest/Anova_18.html (1 of 3) [28/12/2002 19:17:42]
Ejemplo de anova de bloques completos aleatorios
y el resultado
http://www.hrc.es/bioest/Anova_18.html (2 of 3) [28/12/2002 19:17:42]
Ejemplo de anova de bloques completos aleatorios
http://www.hrc.es/bioest/Anova_18.html (3 of 3) [28/12/2002 19:17:42]
Anova de más de dos factores
Análisis de la varianza de más de dos factores Es una generalización del de dos factores. El procedimiento, por lo tanto, será: 1) encontrar el modelo, teniendo en cuenta si los factores son fijos o aleatorios y todos los términos de interacción. 2) subdividir la suma de cuadrados total en tantos términos ortogonales como tenga el modelo y estudiar los valores esperados de los cuadrados medios para encontrar los estadísticos que permitan realizar los contrastes de hipótesis. Un modelo de tres factores fijos, por ejemplo, será:
Los tres primeros subíndices para los factores y el cuarto para las repeticiones, nótese que aparecen términos de interacción de segundo y tercer orden, en general en un modelo de k factores aparecen términos de interacción de orden 2, 3,... hasta k y el número de términos de interacción de orden n será el número combinatorio Ck;n. Este gran número de términos de interacción dificulta el análisis de más de dos factores, ya que son difíciles de interpretar y complican los valores esperados de los cuadrados medios por lo que también resulta difícil encontrar los estadísticos para los contrastes. Por estas razones no se suele emplear este tipo de análisis y cuando interesa estudiar varios factores a la vez se recurre a otros métodos de análisis multivariante.
http://www.hrc.es/bioest/Anova_19.html [28/12/2002 19:18:31]
Correlacion y modelos de regresion lineal
CORRELACION Y MODELOS DE REGRESION LINEAL V. Abraira Bibliografía: V. Abraira, A. Pérez de Vargas Métodos Multivariantes en Bioestadística. Ed. Centro de Estudios Ramón Areces. 1996. D.G. Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and Other Multivariables Methods. PWS-KENT Publishing Company. 1988. Generalización del concepto de fdp a variables multidimensionales La función densidad de probabilidad (fdp) para una variable aleatoria es una función a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable. En el caso discreto:
en el caso continuo:
Esto se puede generalizar a más de una variable. Para n variables aleatorias X1, X2, ..., Xn se llama fdp conjunta a una función n-dimensional f(x1,x2,...,xn) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables. En el caso discreto:
en el caso continuo:
Del mismo modo que en el caso unidimensional estas funciones están sometidas a las condiciones:
http://www.hrc.es/bioest/Reglin_1.html (1 of 3) [28/12/2002 19:19:23]
Correlacion y modelos de regresion lineal
discreta
continua
Ejemplo 1: En una cierta población se definen dos variables discretas: X1= hipertensión arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y 1=sí. La fdp conjunta podría ser X1 X2
0
1
0
0,4
0,1
1
0,3
0,2
f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal (X2=0) es 0,4. Obsérvese que la suma de los valores de la fdp es 1. A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como 0,1+0,2=0,3. En general dada una fdp conjunta (para simplificar la notación consideremos sólo dos variables X e Y) se pueden calcular las denominadas fdp marginales como Caso discreto Caso continuo
y simétricamente para la variable Y. En el ejemplo anterior: X1
http://www.hrc.es/bioest/Reglin_1.html (2 of 3) [28/12/2002 19:19:23]
Correlacion y modelos de regresion lineal
X2
0
1
f2(X2)
0
0,4
0,1
0,5
1
0,3
0,2
0,5
f1(X1)
0,7
0,3
Se definen también las fdp condicionadas
que permiten calcular las respectivas probabilidades condicionadas. En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensión (X1) condicionada al consumo no excesivo de sal (X2=0). X1 0
0,4/0,5=0,8
1
0,1/0,5=0,2
Obsérvese que como esto es una fdp, la suma de sus valores debe ser 1. 0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo excesivo de sal.
http://www.hrc.es/bioest/Reglin_1.html (3 of 3) [28/12/2002 19:19:23]
Correlacion y modelos de regresion lineal
Independencia de dos variables aleatorias Dos v.a. X e Y se dice que son estocásticamente independientes si y sólo si f(x,y)=f1(x).f2(y). En caso contrario se dice que están correlacionadas. ¿Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes. Según la definición de fdp condicionada, si X e Y son independientes
que coincide más con la idea intuitiva de independencia. ¿Cuándo diríamos que la hipertensión es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la población general: f1(x1). En el ejemplo, la probabilidad de ser hipertenso en la población general f1(1)=0,3 y en los consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes). Diríamos que el consumo de sal y la hipertensión están correlacionados o asociados, o que la hipertensión depende del consumo de sal o, en terminología epidemiológica, que el consumo de sal es un factor de riesgo para la hipertensión. En cualquier caso, la correlación no implica dependencia causal. El problema, en la práctica, es que no se suelen conocer las fdp's. A partir de una muestra sólo se puede obtener una estimación de la misma, además también se desean obtener estimaciones de la fuerza de la asociación. Los modelos de regresión son modelos matemáticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemáticas de dependencia se puedan concebir, los más usados son lineal, polinómico, logístico, de Poisson, ...
http://www.hrc.es/bioest/Reglin_3.html [28/12/2002 19:20:10]
Modelo lineal
Función lineal Se llama función lineal de una variable, a una función de la forma
α0: ordenada en el origen (valor de Y cuando X=0) α1: pendiente (cambio de Y al aumentar X en 1)
Modelo de regresión lineal simple Es un modelo de regresión lineal entre dos variables
es un modelo probabilístico, que también se puede escribir
A la variable Y se la denomina variable dependiente y a X independiente. Modelo I de regresión lineal se asume que
i) X no es una variable aleatoria ii) para cada valor xi de X existe una v.a. Y|xi cuya media está dada por el modelo iii) todas las variables Y|xi son normales, independientes y con igual varianza.
Ejemplo 2: Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Variable X: gr. de sal diarios (no aleatoria) Variable Y: presión arterial en mm. de Hg http://www.hrc.es/bioest/Reglin_4.html (1 of 3) [28/12/2002 19:20:44]
Modelo lineal
asumimos que para cada valor de X, Y no está determinada, sino que sigue una distribución normal cuya media está dada por el modelo:
α0 presión arterial media de los que no toman nada de sal. α1 cambio de la media de presión arterial por aumentar 1 gr el consumo de sal, asumiendo que es constante. Si fuera 0, quiere decir que la presión no cambia con el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que están correlacionadas y su magnitud mide la fuerza de la asociación. A partir de una muestra aleatoria, la teoría estadística permite: i) estimar los coeficientes αi del modelo (hay dos procedimientos: mínimos cuadrados y máxima verosimilitud que dan el mismo resultado). ii) estimar la varianza de las variables Y|xi llamada cuadrados medios del error y representada por s2 o MSE. A su raíz cuadrada se le llama error estándar de la estimación. iii) conocer la distribución muestral de los coeficientes estimados, tanto su forma (t) como su error estándar, que permite hacer estimación por intervalos como contrastes de hipótesis sobre ellos. Ejemplo 3: Para el diseño del ejemplo 2 una muestra produce los siguientes datos: X (sal)
Y (Presión)
1,8
100
2,2
98
3,5
110
4,0
110
4,3
112
5,0
120
La "salida" de un paquete estadístico es:
http://www.hrc.es/bioest/Reglin_4.html (2 of 3) [28/12/2002 19:20:44]
Modelo lineal
86,371 presión arterial media sin nada de sal. 6,335 aumento de presión por cada gr de sal; como es distinto de 0 indica correlación. La pregunta es ¿podría ser 0 en la población? En términos de contrastes de hipótesis H0 : α 1=0 H1 : α1≠0 según iii) aquí t=7,546 con un valor p=0,002
se rechaza H0. Para hacer estimación por intervalos de la fuerza de la asociación o el efecto
en este ejemplo para α1 al 95% 6,335±2,776x0,840=(4,004 8,666) y del mismo modo se ha calculado en la salida anterior, aunque en general tiene menos interés, para α0
http://www.hrc.es/bioest/Reglin_4.html (3 of 3) [28/12/2002 19:20:44]
Interpretación del contraste
Interpretación del contraste α1=0 Si no se puede rechazar esta hipótesis, puede ocurrir que: i) el modelo sea inapropiado, bien porque las variables son independientes, bien porque la dependencia no sea lineal. Hay que investigar otros modelos. ii) se cometa error tipo II, el modelo es adecuado, pero el tamaño de la muestra es insuficiente. Hay que calcular la potencia. Si se rechaza la hipótesis puede ocurrir que: i) el modelo es adecuado ii) se cometa error tipo I iii) exista una relación no lineal, pero los datos son compatibles con un modelo lineal. Análisis de residuos. Inferencias sobre la regresión A veces interesa hacer inferencias sobre la propia regresión, es decir sobre µY|xi para cualquier valor de xi . Si a los valores xi de la muestra se les aplica la ecuación estimada, se obtiene una estimación de µY|xi
cuya distribución muestral también es conocida. A veces se representan los intervalos de confianza para la regresión en la denominada banda de confianza de la regresión. En la figura se presenta la banda de confianza para los datos del ejemplo 3
http://www.hrc.es/bioest/Reglin_5.html [28/12/2002 19:21:56]
Análisis de la varianza de la regresión
Análisis de la varianza de la regresión Es un modo alternativo de hacer contrastes sobre el coeficiente α1. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación. Para el ejemplo 3
Observese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de F es el cuadrado del de t. Ejemplo 4: Se quiere investigar el efecto de la ingestión masiva de vitamina C sobre el hígado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le administra y al otro no. Se sacrifica a los animales y se mide la concentración de lípidos en el hígado. Grupo control Tratado (=0) (=1) 23,8
13,8
15,4
9,3
21,7
17,2
18,0
15,1
¿Hay diferencia entre ambos grupos? Se podría plantear un contraste sobre medias con la t de Student.
http://www.hrc.es/bioest/Reglin_6.html (1 of 2) [28/12/2002 19:22:41]
Análisis de la varianza de la regresión
También se puede plantear un modelo de regresión entre la variable grupo (X=0 control y X=1 tratado) y la variable lípido (Y)
Interpretar los coeficientes ¿Qué es mejor?
http://www.hrc.es/bioest/Reglin_6.html (2 of 2) [28/12/2002 19:22:41]
Modelo II de regresion lineal
Modelo II de regresión lineal Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es normal bivariante. La normal bivariante es una extensión a dos dimensiones de la normal univariante. Su representación gráfica es una campana tridimensional. Depende de 5 parámetros: µx, µy, σx, σy y ρ que son respectivamente las medias, las desviaciones típicas de X e Y, y su coeficiente de correlación. Dicho coeficiente se define como
Siendo el numerador la llamada covarianza
Las propiedades de la normal bivariante son: i) las fdps marginales son ambas normales con medias µx, µy y desviaciones típicas σx, σy respectivamente. ii) las fdps condicionadas f(y|x) son también normales con medias y varianzas
obsérvese que la media depende linealmente de x, es decir, también se puede escribir
iii) simétricamente las fdps f(x|y) A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos procedimientos que en el modelo I y ¡¡se obtienen los mismos resultados!! Ahora, sin embargo, también se obtiene un estimador para el coeficiente de correlación (la "famosa" r) que no tiene sentido en el modelo I.
http://www.hrc.es/bioest/Reglin_7.html [28/12/2002 19:37:26]
Propiedades del coeficiente de correlación lineal
Propiedades del coeficiente de correlación i) número sin dimensiones entre -1 y 1. ii) si las variables son independientes ρ = 0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí. iii) si las variables estuvieran relacionadas linealmente ρ=1 Un contraste que interesa realizar en un modelo II es H0: ρ=0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal. ¿Qué mide r? Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal. ¿Qué no mide r? - no mide la magnitud de la pendiente ("fuerza de la asociación")
- tampoco mide lo apropiado del modelo lineal
http://www.hrc.es/bioest/Reglin_8.html (1 of 3) [28/12/2002 19:38:16]
Propiedades del coeficiente de correlación lineal
Potencia de los contrastes en regresión Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En el caso de la regresión, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30 en la práctica) a la normal. Usaremos esto. 1-β = p(rechazar Ho| Ho falsa) Supongamos que
asumamos normalidad ¿qué potencia tiene el contraste si α1 fuera 5 (recordar que se necesita concretar H1)? ¿Cuándo rechazamos H0 al 95%? Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que calcular la probabilidad de encontrar
si α1 fuera 5. Calculamos
http://www.hrc.es/bioest/Reglin_8.html (2 of 3) [28/12/2002 19:38:16]
Propiedades del coeficiente de correlación lineal
y lo miramos en la tabla de la normal 1-β =0,512=51,2%.
http://www.hrc.es/bioest/Reglin_8.html (3 of 3) [28/12/2002 19:38:16]
Modelo de regresion múltiple
Modelo de regresión lineal múltiple Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicos genéticos, etc. Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad. La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es
α0 : media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de Y que no depende de las Xi). αi : cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las demás. Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II. La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes http://www.hrc.es/bioest/Reglin_9.html (1 of 2) [28/12/2002 19:38:40]
Modelo de regresion múltiple
se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de σ2 es
que se distribuye como una χ2 con n - (k+1) grados de libertad. Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:
1. El número de observaciones (n), es menor o igual que el número de variables independientes (k). 2. Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).
http://www.hrc.es/bioest/Reglin_9.html (2 of 2) [28/12/2002 19:38:40]
Estimación y contrastes de hipótesis en modelos de regresion lineal
Estimación y contrastes de hipótesis: Usando la teoría resumida en el apartado anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.
y los contrastes de hipótesis H0: αI = 0 H1: αi ≠ 0 se realizan con el estadístico
Ejemplo 5 Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás variables. Tabla de datos Paciente Colesterol Edad
Grasas Ejerci.
1
350
80
35
0
2
190
30
40
2
3
263
42
15
1
4
320
50
20
0
5
280
45
35
0
6
198
35
50
1
7
232
18
70
1
8
320
32
40
0
http://www.hrc.es/bioest/Reglin_10.html (1 of 2) [28/12/2002 19:39:43]
Estimación y contrastes de hipótesis en modelos de regresion lineal
9
303
49
45
0
10
220
35
35
0
11
405
50
50
0
12
190
20
15
2
13
230
40
20
1
14
227
30
35
0
15
440
30
80
1
16
318
23
40
2
17
212
35
40
1
18
340
18
80
0
19
195
22
15
0
20
223
41
34
0
La salida del programa de ordenador es
Interpretemos esta "salida"
http://www.hrc.es/bioest/Reglin_10.html (2 of 2) [28/12/2002 19:39:43]
Anova de la regresión múltiple
Análisis de la varianza de la regresión De un modo similar a RLS se puede descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si el modelo lineal no es adecuado, ambos estimadores estimarían la varianza de Y y si es adecuado no. Comparando ambos estimadores con la prueba de la F se contrasta lo adecuado del modelo. Para el ejemplo 5
Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los coeficientes. Se define también el coeficiente de determinación como el cociente entre la suma de cuadrados de la regresión y la suma de cuadrados total (R2 = SSR/SST) y a su raíz cuadrada (R) se le denomina coeficiente de correlación múltiple.
Además de esta prueba global del modelo basada en el análisis de la varianza, se pueden plantear pruebas parciales sobre si una variable, o un grupo de variables, añadidas a un modelo previo lo mejoran. Se tiene un modelo
y se añade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas será lo que ha mejorado la suma de cuadrados por añadir la variable X* y tendrá 1 grado de libertad. SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) SSE(Y,X1,...,Xk,X*) y el cociente
llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en la hipótesis http://www.hrc.es/bioest/Reglin_11.html (1 of 3) [28/12/2002 19:42:22]
Anova de la regresión múltiple
nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es totalmente equivalente a contrastar que el coeficiente α* de la nueva variable es cero con la prueba basada en la t. Del mismo modo, si al modelo original se le añaden p variables X1*,...,Xp*, se puede definir SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) SSE(Y,X1,...,Xk,X1*,...,Xp*) que tiene p grados de libertad, y el cociente
se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha hipótesis. Ejemplo 6 Con los datos del ejemplo 5, realizar el contraste de la F parcial para añadir la variable ejercicio a un modelo que sólo contenga la edad y las grasas consumidas.
La tabla de anova correspondiente al modelo con EDAD y GRASAS es
Por lo tanto, comparando esta tabla con la del modelo completo SSR(COLEST,EJERC|GRASAS,EDAD) = SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) = 49275,94 48940,18 = 335,76 por tanto Fpar=335,76/3381,83=0,099
http://www.hrc.es/bioest/Reglin_11.html (2 of 3) [28/12/2002 19:42:22]
Anova de la regresión múltiple
que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hipótesis de que EJERC no mejora el modelo. Obsérvese que esta Fpar es exactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables independientes.
http://www.hrc.es/bioest/Reglin_11.html (3 of 3) [28/12/2002 19:42:22]
VARIABLES "dummy"
Variables indicadoras ("dummy") En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del ejercicio moderado (EJERC=1). ¿Es razonable esta asunción? y ¿para la variable FUMA codificada como 0: no fuma, 1:fumador y 2:ex-fumador? Una solución podría ser crear tantas variables como categorías. No sirve porque serían combinación lineal y el modelo es irresoluble. La solución es crear tantas variables como categorías menos 1 (en los ejemplos anteriores 2) denominadas variables indicadoras con el siguiente esquema X1
X2
No-fumador
0
0
Fumador
1
0
Ex-fumador
0
1
Las variables X1 y X2 ya no son combinación lineal y, por tanto, el modelo es resoluble. El modelo quedaría
α0 es µY cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; α0 + α1 es µY cuando X1 es 1 y X2 es 0, es decir fumadores, por lo tanto α1 es lo que cambia µY entre fumadores y no-fumadores y del mismo modo α2 es lo que cambia µY entre ex-fumadores y no-fumadores. Con este esquema de codificación los coeficientes tienen una clara interpretación cuando, como en este caso, una de las categorías (no-fumador) se quiere usar como referencia para las demás. A dicha categoría se le asigna el valor cero para todas las variables indicadoras. Sin embargo, para variables en las que no haya una categoría que sea natural usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es más útil otro esquema de codificación. Para discutirlo supóngase la variable lugar de residencia con cuatro lugares: A, B, C y D. Se crearán tres variables indicadoras (siempre una menos que categorías) con el siguiente esquema
http://www.hrc.es/bioest/Reglin_12.html (1 of 7) [28/12/2002 19:43:56]
VARIABLES "dummy"
X1
X2
X3
A
-1
-1
-1
B
1
0
0
C
0
1
0
D
0
0
1
El modelo quedará
y por lo tanto µY = α0 - α1 - α2 - α3 = µY|A para los residentes en A µY = α0 + α1 = µY|B para los residentes en B µY = α0 + α2 = µY|C para los residentes en C µY = α0 + α3 = µY|D para los residentes en D si se suman las 4 ecuaciones: α0 = ( µY|A + µY|B + µY|C + µY|D)/4 por lo tanto α0 es la media de Y en los cuatro lugares de residencia α1 la diferencia de los residentes en B con respecto a la media α2 la diferencia de los residentes en C con respecto a la media y α3 la diferencia de los residentes en D con respecto a la media y, evidentemente, α1 - α2 - α3 la diferencia de los residentes en A con respecto a la media. De modo que a diferencia del esquema anterior, se usa como nivel de referencia la media en todas las categorías en lugar de una de ellas. Otro posible esquema de codificación que a veces se usa en la literatura es X1
X2
X3
A
1
1
1
B
0
1
1
C
0
0
1
D
0
0
0
http://www.hrc.es/bioest/Reglin_12.html (2 of 7) [28/12/2002 19:43:56]
VARIABLES "dummy"
y queda para el lector, a modo de ejercicio, la interpretación de los coeficientes de regresión en este caso. Conviene destacar que estas variables indicadoras no tienen ningún sentido por sí solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusión siempre en bloque, usando la F del modelo completo si sólo están dichas variables en el modelo, o la F parcial correspondiente a las mismas si hay más variables. Ejercicio propuesto: Para los datos del Ejemplo 5, crear "dummys" para el ejercicio (¿con qué esquema?) y contrastar (con la F parcial) si estas variables mejoran el modelo que sólo contiene edad y grasas. Interpretar los coeficientes. Ejemplo 7: Considérense los siguientes datos, procedentes de una muestra hipotética, sobre presión arterial en cm de Hg y "status" de fumador, codificado como 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresión entre presión arterial y "status" de fumador y estimar por intervalos la presión arterial media según el "status" de fumador, a partir de los resultados del modelo más adecuado. Paciente Presión arte. Fumador 1
15,0
0
2
19,0
2
3
16,3
1
4
22,0
1
5
18,0
2
6
19,8
0
7
23,2
1
8
14,4
0
9
20,3
2
10
22,0
1
11
20,5
2
12
19,0
2
13
12,7
0
14
14,0
0
http://www.hrc.es/bioest/Reglin_12.html (3 of 7) [28/12/2002 19:43:56]
VARIABLES "dummy"
15
11,8
0
16
11,2
2
17
14,0
0
18
19,5
1
19
22,3
1
20
15,0
0
21
12,6
2
22
16,4
0
23
13,5
2
24
13,7
1
Los resultados de un modelo entre presión arterial y "status" de fumador tal y como está codificado en la tabla son
En este caso de una única variable independiente, el contraste sobre el modelo global con la F es equivalente al realizado con la t sobre el coeficiente α1 y con ninguno se puede rechazar la hipótesis nula (p=0,250) de no dependencia. Es decir, analizado de este modo no hay dependencia entre ambas variables. Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema http://www.hrc.es/bioest/Reglin_12.html (4 of 7) [28/12/2002 19:43:56]
VARIABLES "dummy"
discutido antes la tabla de datos queda PACIEN
PRE_AR
FUMADOR FUMA
EX_FUMA
1
15.0
0
0
0
2
19.0
2
0
1
3
16.3
1
1
0
4
22.0
1
1
0
5
18.0
2
0
1
6
19.8
0
0
0
7
23.2
1
1
0
8
14.4
0
0
0
9
20.3
2
0
1
10
22.0
1
1
0
11
20.5
2
0
1
12
19.0
2
0
1
13
12.7
0
0
0
14
14.0
0
0
0
15
11.8
0
0
0
16
11.2
2
0
1
17
14.0
0
0
0
18
19.5
1
1
0
19
22.3
1
1
0
20
15.0
0
0
0
21
12.6
2
0
1
22
16.4
0
0
0
23
13.5
2
0
1
http://www.hrc.es/bioest/Reglin_12.html (5 of 7) [28/12/2002 19:43:56]
VARIABLES "dummy"
24
13.7
1
1
0
y el modelo entre PRE_AR y FUMA y EX_FUMA
Para contrastar si la presión arterial depende del "status" de fumador, deberá usarse el contraste basado en la F (p=0,018) y por lo tanto al nivel de significación habitual α=0,05 se rechaza la hipótesis nula de no dependencia. A pesar de que el coeficiente para EX_FUMA no es significativamente distinto de 0 (p=0,220), se mantiene en el modelo porque FUMA no tiene sentido por sí sola. Obsérvese que usando las variables indicadoras se ha encontrado una dependencia que antes no se había puesto de manifiesto, debido a la falta de linealidad para los códigos usados. La estimación puntual de la presión arterial media de los no-fumadores (α0 en el modelo) es 14,789 con un error estándar estimado de 1,07 y, como t0,025(21) = 2,08, su intervalo de confianza al 95% es 14,789 ± 2,08x1,07 = (12,563 17,014). La estimación del aumento medio de la presión arterial en los fumadores (α1) es 5,068 que es significativamente distinto de cero (p=0,005) y la estimación del aumento medio de la presión arterial en los ex-fumadores (α 2) es 1,974 pero no es significativamente distinto de cero (p=0,220). Para realizar la estimación por intervalos de la presión media en fumadores (α0 + α 1) y ex-fumadores (α 0 + α2) se necesita estimar sus respectivas varianzas http://www.hrc.es/bioest/Reglin_12.html (6 of 7) [28/12/2002 19:43:56]
VARIABLES "dummy"
var(α 0 + α 1) = var( α 0) + var( α 1) + 2cov( α 0 , α 1) = 1,145 + 2,618 - 2 x 1,145 = 1,473 EE(α 0 + α 1) = 1,214 var(α 0 + α 2) = var( α 0) + var( α 2) + 2cov( α 0 , α 2) = 1,145 + 2,434 - 2 x 1,145 = 1,289 EE(α0 + α 2) = 1,135 Por lo tanto los intervalos de confianza al 95% para la presión arterial media de fumadores y ex-fumadores son fumadores: (14,789+5,068) ± 2,08x1,214 = (17,332 22,382) ex-fumad : (14,789+1,974) ± 2,08x1,135 = (14,402 19,124) recordemos que para no-fumadores se había obtenido no-fumad : 14,789 ± 2,08x1,07 = (12,563 17,015) y que la diferencia entre no-fumadores y ex-fumadores no es significativa, mientras que la diferencia entre no-fumadores y fumadores sí lo es.
http://www.hrc.es/bioest/Reglin_12.html (7 of 7) [28/12/2002 19:43:56]
Interacción y confusión con los modelos de regresión lineal
Interacción y confusión en la regresión Los modelos de regresión pueden usarse con dos objetivos: 1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y 2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el interés podría ser encontrar el modelo que mejor prediga el nivel de colesterol en sangre, en función de las otras variables (objetivo 1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel de colesterol (objetivo 2). El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimación del coeficiente de la variable de interés. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso. La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras. Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina variable de confusión para la asociación. Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenómenos. En el ejemplo 5 la edad no presenta una correlación significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable de confusión para la asociación entre colesterol y edad. Para que exista confusión no es necesario que exista un cambio tan drástico (la correlación es significativa en un caso y no lo es en el otro), también puede ocurrir que, aún siendo significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la mejor estimación del coeficiente es la que se obtiene del modelo en que figura la variable de confusión, en el ejemplo, la mejor estimación del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas. En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se diría que, para el nivel de colesterol, existe interacción entre la edad y el ejercicio realizado. En este caso no existe una única estimación del coeficiente de la variable de interés, sino que habría una estimación para cada nivel de la otra variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para http://www.hrc.es/bioest/Reglin_13.html (1 of 6) [28/12/2002 19:45:03]
Interacción y confusión con los modelos de regresión lineal
los que no lo realizan. Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable Y y otra variable X1 es µY = α0 + α1 X1 donde α1 cuantifica la asociación: es el cambio en µY por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo µY = α0 + α1 X1 + α2 X2 produce una estimación para α 1 diferente del modelo anterior. Evidentemente esta definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusión si la estimación de α1 obtenida por el modelo µY = α0 + α1 X1 + α2 X2 + ... + αk Xk es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de α1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk Contrastar la existencia de confusión requiere, por lo tanto, comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en la estimación, que puede afectar tanto al propio coeficiente como a su error estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su error estándar cambian en más del 10%). El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es µY = α0 + α1 X1 + α2 X2 + α3 X1 X2 En este modelo, el valor de µY para unos valores determinados x1, x2 de X1, X2 es µY = α0 + α1 x1 + α2 x2 + α3 x1 x2 y para los valores x1 + 1 y x2
http://www.hrc.es/bioest/Reglin_13.html (2 of 6) [28/12/2002 19:45:03]
Interacción y confusión con los modelos de regresión lineal
µY = α0 + α1(x1 + 1) + α2 x2 + α3 (x1 + 1) x2 = α0 + α1 x1 + α1 + α2 x2 + α3 x1 x2 + α3 x2 restando ambas se encuentra el cambio en µY por una unidad de cambio en X1 manteniendo fijo X2 α1 + α3 x2 que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en µY por una unidad de cambio en X2 manteniendo fijo X1 es α2 + α3 x1 Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente α3 es cero (no hay interacción), o distinto de cero (existe interacción). En caso de que exista interacción los coeficientes α1 y α2 por sí solos no significan nada y la asociación de las variables X1 y X2 con Y estará cuantificada por las expresiones anteriores. Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión. Ejemplo 8 En un trabajo para estudiar la relación de la presión arterial sistólica con el consumo de tabaco y café, codificadas ambas como 0: no y 1: sí, se han obtenido los siguientes datos de una muestra aleatoria hipotética Paciente Presión arte. Tabaco
Café
1
15,0
0
1
2
11,0
1
1
3
26,3
1
0
4
13,0
1
1
5
18,0
0
1
6
19,8
1
1
7
23,2
1
0
8
14,4
0
0
http://www.hrc.es/bioest/Reglin_13.html (3 of 6) [28/12/2002 19:45:03]
Interacción y confusión con los modelos de regresión lineal
9
13,3
1
1
10
12,0
1
1
11
22,5
1
0
12
23,5
1
0
13
12,7
0
1
14
14,0
0
1
15
11,8
0
0
16
21,2
1
0
17
14,0
0
0
18
15,5
1
1
19
12,3
1
1
20
15,0
0
0
21
22,6
1
0
22
16,4
0
1
23
23,5
1
0
24
13,7
1
1
Contrastar la existencia de interacción y confusión y obtener la mejor estimación por intervalos para el efecto de ambos factores. Para contrastar la existencia de interacción se crea una nueva variable (TABXCA) que sea el producto de la variables TABACO y CAFE y se hace un modelo de regresión con las 3 variables. El resultado es
http://www.hrc.es/bioest/Reglin_13.html (4 of 6) [28/12/2002 19:45:03]
Interacción y confusión con los modelos de regresión lineal
Según la tabla de anova, el modelo completo es muy significativo (p=0,000). El coeficiente de correlación múltiple es muy alto, ya que la proporción de suma de cuadrados explicada por la regresión (R2) es aproximadamente del 82%. El coeficiente del término de interacción es significativamente distinto de cero (p=0,000), y aunque el del término del CAFE no lo sea (p=0,332) se mantiene en el modelo en aplicación del principio jerárquico. Hay interacción entre CAFE y TABACO y no puede hablarse, por lo tanto, de un efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de café y otro distinto para los no consumidores de café y, del mismo modo, hay un efecto del café para los consumidores de tabaco y otro efecto para los no consumidores de tabaco. Vamos a estimar el efecto del tabaco. La presión arterial media en la muestra es 16,86 y la estimación de la presión arterial de los no-fumadores y no consumidores de café (α0) es 13,8. Según vimos antes la estimación del efecto del tabaco (cambio en la presión arterial media por ser fumador) es para los no consumidores de café α1 y para los consumidores de café α1 + α 3. La varianza estimada de esta última estimación es
http://www.hrc.es/bioest/Reglin_13.html (5 of 6) [28/12/2002 19:45:03]
Interacción y confusión con los modelos de regresión lineal
var(α 1 + α 3) = var(α 1) + var( α 3) + 2cov( α 1 , α 3) = 1,779 + 3,251 + 2x(-1,779) = 1,472 por lo tanto EE(α 1 + α 3) = 1,213. Como t0,025(20)= 2,086 los intervalos de confianza estimados al 95% para el efecto del tabaco son no consumidores de café: 9,457 ± 2,086x1,334 = ( 6,675 12,240) consumidores: 9,457-10,852 ± 2,086x1,213 = (-3,925 1,135) para los no consumidores de café, el tabaco aumenta la presión arterial media en 9,457 unidades y este aumento es significativamente distinto de cero, mientras que para los consumidores de café la disminuye en -1,395 unidades, si bien esta disminución no es significativamente distinta de cero (su intervalo de confianza incluye el cero).
http://www.hrc.es/bioest/Reglin_13.html (6 of 6) [28/12/2002 19:45:03]
Estrategias de modelización
Estrategias de modelización El problema es ¿cómo usamos todo esto? Debido a los dos objetivos distintos que un análisis de regresión puede tener es difícil establecer una estrategia general para encontrar el mejor modelo de regresión, es más, el mejor modelo significa cosas distintas con cada objetivo. En un análisis predictivo el mejor modelo es el que produce predicciones más fiables para una nueva observación, mientras que en un análisis estimativo el mejor modelo es el que produce estimaciones más precisas para el coeficiente de la variable de interés. En ambos casos se prefiere el modelo más sencillo posible (a este modo de seleccionar modelos se le denomina parsimonia), de modo que en un análisis estimativo, se puede excluir del modelo una variable que tenga un coeficiente significativamente distinto de cero y que su contribución a la predicción de la variable dependiente sea importante, porque no sea variable de confusión para la variable de interés (el coeficiente de dicha variable no cambia), en un análisis predictivo esa variable no se excluiría. Sin embargo, hay una serie de pasos que deben realizarse siempre: i) Especificación del modelo máximo. ii) Especificación de un criterio de comparación de modelos y definición de una estrategia para realizarla. iii) Evaluación de la fiabilidad del modelo. i) Especificación del modelo máximo Se trata de establecer todas las variables que van a ser consideradas. Recuérdese que el modelo saturado (el máximo que se puede considerar) tiene n - 1 variables pero que, con este modelo, los grados de libertad para SSE son cero, y R2=1, de modo que, en general, el modelo saturado no tiene interés y el modelo máximo deberá tener menos variables independientes que el modelo saturado (un criterio habitual es incluir como máximo una variable cada 10 casos). El criterio para decidir qué variables forman el modelo máximo lo establece el investigador en función de sus objetivos y del conocimiento teórico que tenga sobre el problema, evidentemente cuanto menor sea el conocimiento previo mayor tenderá a ser el modelo máximo. Un modelo máximo grande minimiza la probabilidad de error tipo II o infraajuste, que en un análisis de regresión consiste en no considerar una variable que realmente tiene un coeficiente de regresión distinto de cero. Un modelo máximo pequeño minimiza la probabilidad de error tipo I o sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de regresión realmente sea cero). http://www.hrc.es/bioest/Reglin_14.html (1 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
Debe tenerse en cuenta también que un sobreajuste, en general, no introduce sesgos en la estimación de los coeficientes (los coeficientes de las otras variables no cambian), mientras que un infraajuste puede producirlos, pero que un modelo máximo grande aumenta la probabilidad de problemas de colinealidad. En el modelo máximo deben considerarse también los términos de interacción que se van a introducir (en un modelo estimativo sólo interesan interacciones entre la variable de interés y las otras) y la posibilidad de incluir términos no lineales. En Biología son muy frecuentes relaciones no lineales, que pueden modelizarse con términos cuadráticos o de mayor orden o con transformaciones tales como la exponencial o el logaritmo. En el ejemplo 5 podría considerarse que la dependencia del nivel de colesterol en sangre con las grasas consumidas puede no ser lineal y presentar, por ejemplo, saturación: por encima de un cierto nivel de grasas ingeridas el colesterol en sangre ya no sube más, o un punto umbral: las grasas consumidas elevan el colesterol, sólo si sobrepasan un cierto valor. Cada uno de estos fenómenos puede modelarse satisfactoriamente con un término cuadrático o una transformación logarítmica o exponencial (introducir en el modelo junto con, o en lugar de, la variable GRASAS, la variable (GRASAS)2; o log(GRASAS) o EXP(GRASAS)) y ambos juntos, con un término cúbico ((GRASAS)3). ii) Comparación de modelos Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios estadísticos sugeridos para comparar modelos, el más frecuentemente usado es la F parcial, recordando que cuando los dos modelos sólo difieren en una variable, el contraste sobre la F parcial es exactamente el mismo que el realizado con la t sobre el coeficiente de regresión, pero a veces interesa contrastar varias variables conjuntamente mejor que una a una (por ejemplo todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo para variables indicadoras). Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir variables distintas a las de interés, es sobre todo los cambios en los coeficientes y no los cambios en la significación del modelo. Los distintos modelos a comparar se pueden construir de dos formas: por eliminación o hacia atrás ("backward") y por inclusión o hacia adelante ("forward"). Con la primera estrategia, se ajusta el modelo máximo y se calcula la F parcial para cada variable como si fuera la última introducida (que es equivalente a la t para esa variable), se elige la menor de ellas y se contrasta con el nivel de significación elegido. Si es mayor o igual que el valor crítico se adopta este http://www.hrc.es/bioest/Reglin_14.html (2 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
modelo como resultado del análisis y si es menor se elimina esa variable y se vuelve a repetir todo el proceso hasta que no se pueda eliminar ninguna variable. Con la estrategia hacia adelante, se empieza con un modelo de una variable, aquella que presente el mayor coeficiente de correlación simple. Se calcula la F parcial para la inclusión de todas las demás, se elige la mayor de ellas y se contrasta con el nivel de significación elegido. Si es menor que el valor crítico, se para el proceso y se elige el modelo simple como mejor modelo, y si es mayor o igual que dicho valor crítico, esa variable se incluye en el modelo y se vuelve a calcular la F parcial para la inclusión de cada una de todas las restantes, y así sucesivamente hasta que no se pueda incluir ninguna más. Una modificación de esta última estrategia es la denominada "stepwise" que consiste en que, cada vez que con el criterio anterior se incluye una variable, se calculan las F parciales de todas las incluidas hasta ese momento como si fueran las últimas y la variable con menor F parcial no significativa, si la hubiera, se elimina. Se vuelven a calcular las F parciales y se continua añadiendo y eliminando variables hasta que el modelo sea estable. Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se puede contrastar varias variables en lugar de una sola y que, en aplicación del principio jerárquico, cuando se contrasta un término de interacción, el modelo debe incluir todos los términos de orden inferior y, si como resultado del contraste, dicho término permanece en el modelo, también ellos deben permanecer en el mismo, aunque no se pueda rechazar que los coeficientes correspondientes no son distintos de cero. En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias automáticamente (con un paquete estadístico, por ejemplo) por lo que se ha comentado más arriba sobre los distintos criterios dependiendo del objetivo del estudio, los términos de interacción y las variables indicadoras. Ejemplo 9 Encontrar el mejor modelo para los datos del ejemplo 5, con el objetivo de estimar el efecto del consumo de grasas sobre el nivel del colesterol y usando la estrategia hacia atrás. El modelo máximo estaría formado por EDAD, GRASAS, EJERC (teniendo en cuenta que está codificado en 3 niveles podría ser conveniente analizarlo a través de 2 variables indicadoras, pero no se va a hacer por simplicidad del ejemplo), se considerará también el término (GRASAS)2 para analizar relaciones no lineales y los términos de interacción entre GRASAS y EDAD y entre GRASAS y EJERC. La interacción entre EDAD y EJERC en este caso no interesa, puesto que la variable de interés es GRASAS. En el archivo de datos, habrá que crear 3 variables nuevas: GRASA2 = http://www.hrc.es/bioest/Reglin_14.html (3 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
(GRASAS)2, GRAXED = GRASAS x EDAD y GRAXEJ = GRASAS x EJERC y el resultado del análisis del modelo máximo es
Recordando que la F parcial de una variable dadas todas las demás es el cuadrado del valor de t para el coeficiente de la misma, la variable que tiene menor F parcial no significativa es GRAXEJ, por lo tanto esta variable se elimina y se ajusta ahora un modelo excluyéndola.
http://www.hrc.es/bioest/Reglin_14.html (4 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
Obsérvese que R apenas ha disminuido (R siempre disminuye al quitar variables y su disminución es otro de los estadísticos propuestos para comparar modelos) pero la F global ha mejorado (p=0,018 frente a 0,040). En este modelo la menor F parcial no significativa corresponde a EDAD, sin embargo, en el modelo todavía está el término de interacción entre EDAD y GRASAS (GRAXED) en consecuencia EDAD no se puede quitar (principio jerárquico), la siguiente F parcial corresponde a EJERCI y no es significativa, en consecuencia se quita EJERCI. El nuevo modelo es
http://www.hrc.es/bioest/Reglin_14.html (5 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
No hay cambios en los coeficientes de GRASAS, ni GRASA2, ni GRAXED (EJERCI no es variable de confusión, por lo tanto se puede eliminar definitivamente. Si hubiera habido cambios no se podría eliminar a pesar de no ser significativa). La variable con menor F parcial sigue siendo EDAD y la siguiente GRAXED. Se quita y el nuevo modelo es
La menor F parcial no significativa es, ahora, la de GRASAS, pero GRASA2 debe contrastarse antes y como tampoco es significativa (obsérvese, no obstante, que está en el borde y podría tratarse de un problema de falta de potencia) se quitaría GRASA2. El modelo finalmente queda
http://www.hrc.es/bioest/Reglin_14.html (6 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
Donde la F global es significativa siendo también significativas las F parciales de las dos variables que permanecen, de modo que éste podría ser el modelo final. No obstante, como el objetivo del estudio es estimar el efecto de las grasas, se debería probar un modelo sin la edad y si en éste último modelo no hubiera cambios en la estimación del efecto de las grasas, podría quitarse la edad, en aplicación del principio de parsimonia.
Como el cambio en el coeficiente es mayor que el 10%, concluimos que EDAD es variable de confusión y el modelo final es el que comntoene GRASAs y EDAD. iii) Evaluación de la fiabilidad del modelo Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir, evaluar si se comporta igual en otras muestras extraídas de la misma población. Evidentemente, el modo más completo de evaluarlo será repetir el estudio con otra muestra y comprobar que se obtienen los mismos resultados, aunque generalmente esta aproximación resulta excesivamente costosa. Otra aproximación alternativa consiste en partir aleatoriamente la muestra en dos grupos y ajustar el modelo con cada uno de ellos y si se obtienen los mismos resultados se considera que el modelo es fiable. Esta aproximación es demasiado estricta ya que, en la práctica, casi nunca se obtienen los mismos resultados. Una validación menos estricta consiste en ajustar el modelo sobre uno de los grupos (grupo de trabajo) y calcular su R2, que se puede interpretar como el cuadrado del coeficiente de correlación simple entre la variable dependiente y http://www.hrc.es/bioest/Reglin_14.html (7 of 8) [28/12/2002 19:45:46]
Estrategias de modelización
las estimaciones obtenidas en la regresión. Después, y con el modelo obtenido en el grupo de trabajo, calcular las estimaciones de la variable dependiente en el otro grupo (grupo de validación) y calcular el coeficiente de correlación simple al cuadrado entre estas estimaciones y la variable dependiente (R2*), a este coeficiente se le denomina coeficiente de correlación de validación cruzada. A la diferencia R2-R2* se le denomina reducción en la validación cruzada y, aunque no hay reglas firmes al respecto, se considera que una reducción superior a 0,90 indica un modelo no fiable y una reducción inferior a 0,10 indica un modelo muy fiable. Otras lecturas Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las aplicaciones biomédicas de la regresión múltiple. Medicina Clínica. 2001;116:741-745.
http://www.hrc.es/bioest/Reglin_14.html (8 of 8) [28/12/2002 19:45:46]
El problema de la colinealidad
El problema de la colinealidad Es uno de los problemas más desesperantes con que uno se puede encontrar en un análisis de regresión. Como ya vimos al hablar de la estimación de los coeficientes, si en un modelo de RLM alguna variable independiente es combinación lineal de otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular, es decir, su determinante es cero y no se puede invertir. A este fenómeno se le denomina colinealidad. Que una variable X1 sea combinación lineal de otra X2, significa que ambas están relacionadas por la expresión X1 = β 1 + β 2X2, siendo β1 y β2 constantes, por lo tanto el coeficiente de correlación entre ambas variables será 1. Del mismo modo, que una variable X1 sea combinación lineal de otras X2, ..., Xi con i>2, significa que dichas variables están relacionadas por la expresión X1 =β 1 + β 2X2 + ... + β iXi, siendo β1,..., βi constantes y por tanto, el coeficiente de correlación múltiple RX1|X2,...Xi también será 1. Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad cuando alguno de los coeficientes de correlación simple o múltiple entre algunas de las variables independientes es 1, es decir, cuando algunas variables independientes están correlacionadas entre sí. En la práctica, esta colinealidad exacta raras veces ocurre, pero sí surge con cierta frecuencia la llamada casi-colinealidad, o por extensión, simplemente colinealidad en que alguna variable es "casi" combinación lineal de otra u otras, o dicho de otro modo, algunos coeficientes de correlación simple o múltiple entre las variables independientes están cercanos a 1, aunque no llegan a dicho valor. En este caso la matriz X'X es casi-singular, es decir su determinante no es cero pero es muy pequeño. Como para invertir una matriz hay que dividir por su determinante, en esta situación surgen problemas de precisión en la estimación de los coeficientes, ya que los algoritmos de inversión de matrices pierden precisión al tener que dividir por un número muy pequeño, siendo además inestables. Además, como la matriz de varianzas de los estimadores es proporcional a X'X, resulta que en presencia de colinealidad los errores estándar de los coeficientes son grandes (hay imprecisión también en sentido estadístico). Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar previamente la existencia de casi-colinealidad (la colinealidad exacta no es necesario estudiarla previamente, ya que todos los algoritmos la detectan, de hecho no pueden acabar la estimación). Como medida de la misma hay varios estadísticos propuestos, los más sencillos son los coeficientes de determinación de cada variable independiente con todas las demás, es decir
http://www.hrc.es/bioest/Reglin_15.html (1 of 6) [28/12/2002 19:46:44]
El problema de la colinealidad
y, relacionados con ellos, el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos como
Una regla empírica, citada por Kleinbaum, consiste en considerar que existen problemas de colinealidad si algún FIV es superior a 10, que corresponde a algún R2i 0,9 y Ti < 0,1. Aunque puede existir colinealidad con FIV bajos, además puede haber colinealidades que no impliquen a todas las variables independientes y que, por tanto, no son bien detectadas por el FIV. Otra manera, más completa, de detectar colinealidad es realizar un análisis de componentes principales de las variables independientes. Esta técnica es matemáticamente compleja y aquí se hace sólo un resumen de la misma necesario para entender el diagnóstico de la colinealidad. Se denominan componentes principales de un conjunto de variables a otras variables, combinación lineal de las originales y que tienen tres propiedades características: i) son mutuamente independientes (no están correlacionadas entre sí) ii) mantienen la misma información que las variables originales iii) tienen la máxima varianza posible con las limitaciones anteriores. De hecho, para modelos predictivos los componentes principales son las variables independientes ideales. La varianza de cada componente principal es un autovalor (número asociado a una matriz) de la matriz de varianzas-covarianzas de las variables originales. El número de autovalores nulos indica el número de variables que son combinación lineal de otras (el número de colinealidades exactas) y autovalores próximos a cero indican problemas graves de colinealidad. El cálculo de los autovalores permite, por lo tanto, determinar no sólo la existencia de colinealidad, sino también el número de colinealidades. Para determinar cuándo un autovalor pequeño está suficientemente próximo a cero se usa su valor relativo con respecto al mayor, en este sentido, para cada autovalor se define el índice de condición como la raíz cuadrada del cociente entre el mayor de ellos y dicho autovalor y se denomina número de condición al mayor de los índices de condición.
http://www.hrc.es/bioest/Reglin_15.html (2 of 6) [28/12/2002 19:46:44]
El problema de la colinealidad
Para Belsley índices de condición entre 5 y 10 están asociados con una colinealidad débil, mientras que índices de condición entre 30 y 100 señalan una colinealidad moderada a fuerte. Una vez determinada la presencia y el número de colinealidades, es conveniente averiguar qué variables están implicadas en ellas. Usando ciertas propiedades de la matrices se puede calcular la proporción de la varianza de las variables sobre cada componente. Si dos o más variables tienen una proporción de varianza alta en un componente indica que esas variables están implicadas en la colinealidad y, por tanto, la estimación de sus coeficientes está degradada por la misma. Belsley propone usar conjuntamente los índices de condición y la proporción de descomposición de varianza para realizar el diagnóstico de colinealidad, usando como umbral de proporción alta 0,5 de modo que, finalmente, dicho diagnóstico se hará: Los índices de condición altos (mayores que 30) indican el número de colinealidades y la magnitud de los mismos mide su importancia relativa. Si un componente tiene un índice de condición mayor que 30 y dos o más variables tienen un proporción de varianza alta en el mismo, esas variables son colineales. Como ya se indicó más arriba, la mejor solución a los problemas de colinealidad consiste en plantear el modelo de regresión con los componentes principales en lugar de con las variables originales, si bien esta solución sólo está indicada en los modelos predictivos. En los modelos estimativos no tiene sentido, ya que el interés del modelo es, justamente, estimar el efecto sobre la variable independiente de una variable determinada y no interesa, por lo tanto, usar otras variables distintas. Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media) o, incluso, eliminar alguna de las variables colineales. En este mismo sentido hay que tener en cuenta que las variables producto introducidas para estudiar la interacción pueden dan lugar a problemas de colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos términos de interacción. Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe colinealidad exacta con el término independiente, y si una variable tiene varianza casi cero (toma valores muy próximos para todas las observaciones) existe casi-colinealidad. Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para la variable, por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene http://www.hrc.es/bioest/Reglin_15.html (3 of 6) [28/12/2002 19:46:44]
El problema de la colinealidad
una varianza 100 veces menor que si se midiera en años. En este caso un cambio de escala puede evitar el problema de la colinealidad. También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sería el contrario, por ejemplo, podría dar lugar a problemas de precisión medir la edad en días. Ejemplo 10 Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los índices de condición y la matriz de proporción de descomposición de la varianza de los estimadores. Realizando los análisis de regresión de cada una de las variables independientes con todas las demás, se obtienen los siguientes coeficientes de determinación, tolerancia y factores de inflación de la varianza
que indican problemas graves de colinealidad. Obsérvese que el factor de inflación mayor corresponde a la variable GRASAS, resultado esperable debido a que se han creado tres variables más (GRASA2, GRAXED y GRAXEJ) a partir de ella. Los autovalores de la matriz X'X y los índices de condición, así como la matriz de proporción de descomposición de varianza son:
http://www.hrc.es/bioest/Reglin_15.html (4 of 6) [28/12/2002 19:46:44]
El problema de la colinealidad
Hay un índice de condición alto (50,781) y asociado con el mismo hay cinco variables (el término constante, GRASAS, GRASA2, EDAD y GRAXED) con proporción de varianza alta. Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos sorprende), EDAD y con la constante. Al existir esta última colinealidad, el centrado de variables podría mejorar el problema, se podría también renunciar a estudiar los términos no lineales GRASA2 y GRAXED. Empecemos por centrar las variables continuas. GRASAC = GRASAS - 39,7 EDADC = EDAD - 36,25 GRASC2 = GRASAC x GRASAC GRXEDC = GRASAC x EDADC GRXEJC = GRASAC x EJERC y, para ellas, el diagnóstico de colinealidad queda:
http://www.hrc.es/bioest/Reglin_15.html (5 of 6) [28/12/2002 19:46:44]
El problema de la colinealidad
y tanto los índices de condición como la proporción de varianza, indican que el centrado ha resuelto los problemas de colinealidad. Referencias D.G. Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and Other Multivariables Methods. PWS-KENT Publishing Company. 1988. D.A. Belsley Conditioning Diagnostics: Collinearity and Weak Data in Regression. John Wiley &Sons. 1991
http://www.hrc.es/bioest/Reglin_15.html (6 of 6) [28/12/2002 19:46:44]
Análisis de los residuos
Análisis de los residuos Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada también en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso. Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria
siendo k cualquier número real positivo. Otro modo alternativo de escribirlo es
Por lo tanto, un modo de contrastar, sin la asunción de normalidad, la hipótesis nula H0 : αi = a es calcular el cociente
y la probabilidad de error tipo I al rechazarla es ≤1/k2 Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estimación de EE(αi) no es válida. Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en que las variables εx1,...,xk son independientes, distribuidas normalmente con media cero y todas con la misma varianza σ2 εx1,...,xk es un conjunto de variables, una para cada combinación x1,...,xk de valores de las variables X1,...,Xk.
denominados residuos, son los valores que en la muestra toman estas variables. Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable εx1,...,xk para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable ε80,35,0; el del segundo a la variable ε30,40,2; etc., es http://www.hrc.es/bioest/Reglin_16.html (1 of 3) [28/12/2002 19:47:24]
Análisis de los residuos
decir, para cada variable sólo se tiene un valor muestral. Para el problema del ejemplo 8, sin embargo, sólo hay cuatro variables: ε0,0, ε1,0, ε0,1 y ε1,1 y sí puede haber suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de ajuste a la distribución normal (ji-cuadrado o KolmogorovSmirnov) y de homoscedasticidad (Bartlett). El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0) y la misma varianza (σ 2), los residuos ( ) también tienen una distribución normal con media 0 y varianza desconocida σ2 y, simplemente, contrastar este extremo. Al conjunto de técnicas que se usan para ello se le denomina análisis de los residuos. El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una población normal con media 0 y varianza σ2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov. Hay que tener en cuenta que de este modo se están contrastando globalmente todas las asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida también a que el modelo sea inapropiado o a existencia de heterocedasticidad. Teniendo en cuenta que (n-(k+1))s2/σ2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de libertad, la variable
llamada residuo normalizado tendrá una distribución t de Student con (n-(k+1)) grados de libertad, que para valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribución de esta variable en lugar de el residuo. Además de estas pruebas de significación para asegurar que globalmente se cumplen las asunciones del modelo, es útil realizar un análisis gráfico de los mismos que permite discriminar entre distintas violaciones de las mismas. Si se representara en una gráfica bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observaría una nube de puntos en dirección horizontal y con anchura constante (la media de cada εx1,...,xk debería ser cero y tener todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma estimación una gráfica de los residuos contra los valores predichos tendrá el mismo aspecto (fig. A). Si se viola la linealidad se observará una falta de linealidad también en los residuos (fig. B), si se viola la homoscedasticidad, la anchura de la banda no será constante (fig. C), una relación lineal entre los residuos y las predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D).
http://www.hrc.es/bioest/Reglin_16.html (2 of 3) [28/12/2002 19:47:24]
Análisis de los residuos
http://www.hrc.es/bioest/Reglin_16.html (3 of 3) [28/12/2002 19:47:24]
Regrseión lineal con el PRESTA
Regresión lineal con el PRESTA Con el PRESTA se puede realizar la regresión lineal simple con dos opciones: L (regresión lineal) o R (regresión múltiple) que tienen diferentes prestaciones. La opción L puede leer las dos variables de diferentes archivos asumiendo que están en el mismo orden. Acepta variable de control, es decir permite leer sólo aquellos casos que cumplan alguna condición con respecto a otra variable, por ejemplo, si hay un archivo con 3 variables: SEXO, EDAD y PRESIS se pueden hacer la regresión lineal de PRESIS y EDAD sólo para los varones usando SEXO como variable de control. Acepta que el archivo tenga datos no especificados incluso en las variables a analizar (aunque obviamente no los usa). Produce también una gráfica con los puntos, la recta de regresión y la banda de confianza al nivel solicitado. Permite dividir la nube de puntos en varias zonas (hasta un máximo de 5) y realizar regresiones distintas para cada zona como una primera aproximación a regresiones no lineales. La opción R, en cambio, exige que ambas variables estén en el mismo archivo, no acepta archivos que contengan valores no especificados aunque sea en otras variables distintas a las del análisis y tampoco acepta variable de control. No produce gráfica y la salida contiene además de los estadísticos de L, el análisis de la varianza de la regresión, la matriz de covarianzas de los coeficientes de regresión y una lista con los residuos que se puede guardar en otra variable del archivo. Permite guardar en otra variable del archivo los residuos. Para crear los residuos normalizados, hay que dividir esta variable por el error estándar de la estimación (s), con la opción de operar con variables del menú de Entrada y Edición de Datos. Con esta misma opción se pueden restar los residuos de la variable dependiente para obtener los valores predichos y realizar con la opción de gráficas bivariantes el análisis gráfico. En el menú de Entrada y Edición de Datos existen las opciones de operar con variables, que permite la creación de una variable producto de otras dos, para estudiar las interacciones y los términos no lineales, creación de variables "dummy" que permite crear variables indicadoras con los tres esquemas explicados en el texto y transformación de variables que, entre otras, permite el centrado de variables. Además, a partir de la versión 2.2, el PRESTA incluye una opción con el diagnóstico de colinealidad. El programa pregunta el nombre del archivo y las variables a estudiar.
http://www.hrc.es/bioest/Reglin_17.html (1 of 2) [28/12/2002 19:48:36]
Regrseión lineal con el PRESTA
http://www.hrc.es/bioest/Reglin_17.html (2 of 2) [28/12/2002 19:48:36]
Intro_errores
Errores en las mediciones y clasificaciones clínicas: Precisión y validez V. Abraira Introducción Todo proceso de medición (proceso mediante el cual se cuantifica una magnitud) está amenazado por diversas fuentes de error, derivadas tanto de las limitaciones del instrumento de medida, como de la naturaleza de la magnitud a medir. Clásicamente se distingue entre el error debido a la precisión limitada del instrumento que atenta a la reproducibilidad de la medición introduciendo un error aleatorio en la misma y el debido a la validez, también limitada, que introduce un error sistemático, que en epidemiología se denomina sesgo. De modo esquemático se puede decir que la validez depende exclusivamente del instrumento y tiene que ver con la cuestión de si el mismo mide lo que debe medir, mientras que la precisión depende tanto del instrumento como del proceso de medición y tiene que ver con cuánto se aproxima la medida al valor real de la magnitud. En ambos casos es siempre cuestión de grado, no existen instrumentos infinitamente precisos y válidos, hay sólo instrumentos más precisos y/o válidos que otros. Al modo habitual de controlar la validez de un instrumento de medida se le denomina calibración, y consiste en comparar las medidas obtenidas con él con unos patrones de referencia (cuanto más se parezcan estas medidas al patrón, más válido es el instrumento), mientras que la manera de controlar la precisión de un instrumento es comparar entre sí medidas repetidas de un mismo objeto y evaluar el grado de acuerdo entre ellas (cuanto más se parezcan estas medidas entre sí, más preciso es). En ciertas situaciones, en la práctica clínica entre ellas, el proceso de control de la precisión y validez de una medida es más complejo que el esbozado hasta aquí, debido a dos fenómenos inherentes a las mismas y que, hasta ahora, no se han considerado. De un lado, las magnitudes a medir son aleatorias, es decir presentan diversos grados de variabilidad impredecible propia. Si, por ejemplo, se trata de controlar la precisión de la medición de la presión arterial diastólica habría que repetir la medición en un mismo individuo varias veces y como la propia presión arterial es variable a lo largo del tiempo, el resultado se vería afectado simultáneamente por la variabilidad introducida por la precisión limitada del instrumento (manómetro y observador) y la variabilidad propia de la presión arterial. Por otro lado, además de magnitudes tales como presión, temperatura, concentración de hemoglobina en sangre, etc., se trabaja con magnitudes como dolor, mejoría en un proceso patológico, grado pronóstico de una afección, etc., para las cuales no existe un patrón de referencia claro y objetivo ni escala métrica apropiada y que, por tanto, suelen describirse en escalas ordinales o, incluso, nominales, cuya apreciación puede estar muy distorsionada por influencias subjetivas. Estas magnitudes suelen denominarse variables blandas (véase Feinstein) y dan lugar a clasificaciones mejor que a mediciones en sentido estricto (que implica la existencia de una escala métrica). Evidentemente, existen también variables objetivas ("duras" en la jerga) que dan lugar a clasificaciones, por ejemplo muerto/vivo. Los procesos de clasificación sufren los mismos problemas de validez y precisión que los de medición, pero con ciertas complicaciones añadidas en el caso de las variables blandas. Para controlar su validez, no suelen existir patrones de referencia, o no son tan objetivos o accesibles como en el caso de una magnitud física. Por ejemplo, en la calibración de las imágenes obtenidas por resonancia nuclear magnética para diagnosticar lesiones de menisco, ¿cuál es el patrón de referencia adecuado? ¿la visión directa mediante artroscopia? ¿es ésta suficientemente objetiva, o también está influida por factores subjetivos dependientes de la propia técnica, de la experiencia del médico que la realiza, de la diversidad de meniscos "normales"? En este sentido se suele distinguir entre dos modos de controlar la validez de un instrumento de medida (nótese que se está usando el término instrumento de medida en un sentido muy amplio, en este ejemplo no es sólo el "aparato" usado para obtener la imagen, sino el conjunto formado por el aparato que produce la imagen y el observador que la interpreta, siendo, además, éste último más crítico para los errores de medición-clasificación): cuando se hace con patrones objetivos se habla de exactitud ("accuracy" en la literatura clínico-epidemiológica inglesa), mientras que cuando se controla comparando simplemente con una referencia considerada mejor ("gold standard") se habla de conformidad. En cuanto a la reproducibilidad, sobre todo con métodos de clasificación, se distingue entre la reproducibilidad del mismo instrumento (típicamente un observador en este caso) en dos instantes de tiempo diferentes y se habla de concordancia ("agreement" en la literatura en inglés) o consistencia interna o intraobservador, por ejemplo un radiólogo o un servicio de radiología tomado como unidad, ¿clasifica igual la misma radiografía estudiada hoy y dos meses después? y reproducibilidad del mismo instrumento usado en diferentes condiciones, por ejemplo dos radiólogos diferentes ¿clasifican del mismo modo la misma radiografía? se habla entonces de concordancia o consistencia externa o interobservador. http://www.hrc.es/bioest/Intro_errores.html (1 of 2) [28/12/2002 20:22:46]
Intro_errores
Esquemáticamente
Precisión o
concordancia intraobservador
reproducibilidad o concordancia interobservador concordancia exactitud Validez conformidad
Referencias Feinstein A.R. (1987) Clinimetrics. Yale University Press. New Haven.
http://www.hrc.es/bioest/Intro_errores.html (2 of 2) [28/12/2002 20:22:46]
Indices de concordancia
Índices de concordancia Caso más sencillo: 2 observadores y variable dicotómica. Ejemplo: dos radiólogos independientes informan como neumonía sí/no 100 radiografías. Los resultados son
Radiólogo A Rad. B
Pulmonía
No pulmonía
Total
Pulm.
4
6
10
No
10
80
90
Total
14
86
100
En general
Observador A Obs. B
Positivo
Negativo
Total
Positivo
a
b
r
Negativo
c
d
s
Total
t
u
N
siendo N el número total de individuos observados, a el número de ellos al que ambos observadores clasifican como positivo, etc. Existen varios índices de concordancia propuestos, el más obvio es la proporción de acuerdos observados, es decir (a + d)/N. Este índice es muy intuitivo y fácilmente interpretable: tomará valores entre 0 (total desacuerdo) y 1 (máximo acuerdo). Sin embargo como indicador de reproducibilidad tiene el inconveniente de que aun en el caso de que los dos observadores clasifiquen con criterios independientes se produciría un cierto grado de acuerdo por azar. Por ejemplo, si se tiran dos dados y se registra si sale un cierto número, p.e. el dos (resultado positivo) u otro cualquiera (resultado negativo), en un cierto número de veces (con una probabilidad de 26/36, para ser más preciso, siguiendo el razonamiento que se hace más abajo) ambos dados producirán el mismo resultado por azar. Es deseable que un índice de concordancia tenga en cuenta este hecho y que, de algún modo, indique el grado de acuerdo que existe por encima del esperado por azar. En este sentido, el índice más usado es el propuesto por Cohen y denominado índice kappa (κ) que se define como
http://www.hrc.es/bioest/errores_2.html (1 of 3) [28/12/2002 20:23:26]
Indices de concordancia
siendo Po la proporción de acuerdos observados y Pe la proporción de acuerdos esperados en la hipótesis de independencia entre los observadores, es decir de acuerdos por azar. A partir de la tabla
para calcular Pe hay recordar que dos sucesos A1, A2 son independientes si p(A1∩ A2)=p(A1)p(A2). En este caso, si llamamos A1 al suceso "el observador A clasifica un individuo como positivo" y A2 al suceso "el observador B clasifica un individuo como positivo" el suceso A1∩ A2 será "ambos observadores clasifican un individuo como positivo"; como el observador A ha clasificado t individuos como positivos y el B ha clasificado r, la mejor estimación de p(A1) es t/N y la de p(A2) es r/N, por lo tanto la mejor estimación de la probabilidad de que ambos clasifiquen como positivo a un individuo, en la hipótesis de que ambos son independientes es su producto, es decir rt/N2; por la misma razón, la probabilidad de que ambos clasifiquen como negativo a un individuo por azar es su/N2, en consecuencia
Cuando hay acuerdo total b=c=0, por lo tanto el valor de Po es 1 y en consecuencia el índice κ también vale 1 para el máximo acuerdo; si el acuerdo observado es igual al esperado por azar, κ vale 0. Obsérvese que si el acuerdo observado es menor que el esperado por azar, el índice κ toma valores negativos. Un modo intuitivo de interpretar este índice puede hacerse despejando Po de la definición
si se piensa que la proporción de acuerdos observados (Po) es un valor intermedio entre el máximo acuerdo posible (1) y la proporción de acuerdos esperados por azar (Pe), κ se puede interpretar como el peso que el máximo acuerdo posible tiene en los acuerdos observados. En el ejemplo la proporción de acuerdos observados es
es decir, ambos radiólogos coinciden en un 84% de las radiografías. Ahora bien, el acuerdo esperado por azar es
por lo tanto
http://www.hrc.es/bioest/errores_2.html (2 of 3) [28/12/2002 20:23:26]
Indices de concordancia
es decir, el grado de acuerdo una vez corregido el debido al azar es mucho más modesto que lo que indicaba el 84% de acuerdo "crudo". Según la interpretación anterior, el acuerdo observado está compuesto por un 24,5% del acuerdo máximo y un 75,5% del esperado por azar. Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la siguiente escala de valoración del κ
kappa
grado de acuerdo
< 0,00
sin acuerdo
0,00 - 0,20
insignificante
0,21 - 0,40
discreto
0,41 - 0,60
moderado
0,61 - 0,80
sustancial
0,81 - 1,00
casi perfecto
Referencias Cohen J. (1960) A coefficient of agreement for nominal scales. Educ Psychol Meas 20:37-46. Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data. Biometrics 33:159-174. Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en cardiología clínica (IV). Las mediciones clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 50:117-128.
http://www.hrc.es/bioest/errores_2.html (3 of 3) [28/12/2002 20:23:26]
Problemas del índice kappa
Problemas del índice kappa (κ) No obstante su alto grado de aceptación en la literatura clínico-epidemiológica, debe tenerse en cuenta que la escala anterior de valoración del índice κ, como los propios autores resaltan, es arbitraria y que, además, el valor del índice κ no sólo depende de los acuerdos observados, sino también de los esperados y, en consecuencia, pueden darse diversos efectos poco intuitivos. En primer lugar, el valor de κ depende de la prevalencia del carácter observado. En el ejemplo, la prevalencia de pulmonía es baja: el radiólogo A diagnostica un 14% de pulmonías y el B un 10%. Si los resultados hubieran sido
Rad. A Rad. B
30
6
10
54
36
40
donde las prevalencias respectivas son 40% para A y 36% para B, con la misma proporción de acuerdos observados (84%) el índice κ hubiera sido 0,661. En general, cuanto más cercana a 0,5 sea la prevalencia (cuanto más balanceados estén los totales marginales en la tabla) mayor es el κ para igual proporción de acuerdos observados, dicho de otro modo, prevalencias muy bajas, o muy altas, penalizan el índice κ , debido a que en ese caso la proporción de acuerdos esperados por azar es mayor que cuando la prevalencia es cercana a 0,5. Por otro lado, éste también se ve afectado por la simetría de los totales marginales. Considerese, por ejemplo, las tablas
Rad. B
Tabla 1
Tabla 2
Rad. A
Rad. A
45
15
25
15
60
70
25
35
5
35
60
30
en ambas la proporción de acuerdos observados es la misma (0,60) y también es la misma la prevalencia observada por el radiólogo B (0,60), sin embargo la del radiólogo A es 0,70 en la tabla 1 y 0,30 en la 2, por lo tanto hay mayor desacuerdo entre las prevalencias observadas en la tabla 2, aunque en ambos casos están igualmente alejadas de 0,5, es decir, tienen la misma falta de balanceo en los marginales, aunque en la tabla 1 de modo simétrico con respecto a ambos observadores (en ambos son mayores de 0,5) y asimétricamente en la 2 (para A es menor de 0,5 y para B mayor). El índice κ vale 0,13 en la tabla 1 y 0,26 en la 2. En general, la simetría en la falta de balanceo en los totales marginales también penaliza el índice κ y tanto más, cuanto más "perfecta" (la misma diferencia con respecto a 0,5) sea la misma. Dicho de otro modo, en igualdad de acuerdos observados, cuanto mayor sea la diferencia entre las prevalencias observadas por cada observador mayor es el índice κ .
http://www.hrc.es/bioest/errores_3.html (1 of 2) [28/12/2002 20:24:48]
Problemas del índice kappa
En consecuencia, para interpretar el índice κ es necesario contar, también con el valor de las frecuencias marginales de la tabla (prevalencias observadas por cada observador). El pequeño valor de κ para los datos del ejemplo (mediano en la escala de Landis y Koch) es "explicado" a la luz de los efectos anteriores por el hecho de que estamos en la peor de las situaciones posibles: baja prevalencia, y similar, en ambos observadores o, en la terminología anterior totales marginales "desbalanceados" con casi perfecta simetría. Referencias Feinstein A.R., Cicchetti D.V. (1990) High agreement but low kappa: I. The problem of two paradoxes, J Clin Epidemiol 43: 543-549.
http://www.hrc.es/bioest/errores_3.html (2 of 2) [28/12/2002 20:24:48]
Clasificaciones multinomiales
Clasificaciones multinomiales Si bien las clasificaciones binomiales son muy frecuentes, a menudo en clínica resultan insuficientes. P.e. un psiquiatra clasifica los trastornos de los pacientes en psicóticos, neuróticos u orgánicos, o un reumatólogo clasifica las artritis en leves, moderadas o graves. Ambas clasificaciones son multinomiales (tres categorías), no obstante existe una diferencia entre ellas, las categorías en el caso de la artritis pueden ordenarse de un modo relevante para el problema: una artritis grave es más que una moderada, y ésta más que una leve, mientras que para la clasificación psiquiátrica este orden no existe. A las variables multinomiales que tienen implícito un orden se les denomina ordinales y a las que no, nominales. Para estudiar la precisión de una clasificación multinomial, hay ciertas diferencias según que ésta sea ordinal o nominal. Como en las clasificaciones binarias, los resultados de un estudio de concordancia se pueden resumir en una tabla de doble entrada, aunque ahora con K filas y K columnas, siendo K el número de categorías de la clasificación. La notación usada en esta tabla es: para identificar una celda se usan dos subíndices: el primero para la fila y el segundo para la columna, por lo tanto Xij es el número de individuos que el observador B ha clasificado en la categoría i y el observador A en la j.
Observador A Obs. B
Cat. 1
Cat. 2
...
Cat. K
Total
Cat. 1
X11
X12
...
X1K
X1.
Cat. 2
X21
X22
...
X2K
X2.
.
.
.
...
.
.
Cat. K
XK1
XK2
...
XKK
XK.
Total
X.1
X.2
...
X.K
N
Para indicar los totales marginales se usa un punto en el lugar del subíndice con respecto al que se ha sumado: Xi. es la suma de la fila i y X.j es la suma de la columna j. En notación algebraica
Para una clasificación multinomial se puede definir un índice kappa idéntico al anterior, generalizando el cálculo de Po y Pe como
Ejemplo: Dos reumatólogos clasifican en tres categorías (leve, moderada, grave) 80 enfermos con artritis. Los resultados son
Reumatólogo A Reum. B
Leve
Mode.
Grave
Leve
9
8
3
20
Moderada
9
29
5
43
http://www.hrc.es/bioest/errores_4.html (1 of 2) [28/12/2002 20:28:16]
Total
Clasificaciones multinomiales
Grave
0
3
14
17
Total
18
40
22
80
Otra alternativa para estudiar concordancia entre clasificaciones multinomiales consiste en definir un índice kappa para cada una de las categorías, colapsando la tabla KxK original en K tablas 2x2 en las que se compara cada categoría con todas las demás. De este modo se puede estudiar la contribución de cada una de ellas a la concordancia de la clasificación. Para los datos del ejemplo, se colapsaría la tabla en 3 tablas: una comparando la categoría leve con las demás, otra la moderada con las demás y la tercera la grave con las otras.
Obs B
1
2
3
Obs A
Obs A
Obs A
L
O
L
9
11
O
9
51
M
O
M
29
14
O
11
26
G
O
G
14
3
O
8
55
L: leve, M: moderada, G:grave, O:otra. calculando en cada una de estas tablas Po, Pe y κ resulta:
Po
Pe
κ
1
0,75
0,638
0,309
2
0,688
0,5
0,376
3
0,863
0,629
0,631
tabla
donde se observa que la clasificación de la categoría grave es la que mayor κ produce (¿Cómo se interpreta?).
http://www.hrc.es/bioest/errores_4.html (2 of 2) [28/12/2002 20:28:16]
Índice kappa con "pesos"
Índice kappa con "pesos" Una solución que puede verse como intermedia entre las anteriores (un único kappa global o K kappas individuales para cada categoría), pero que, en general, sólo tiene sentido para variables ordinales, es el denominado kappa ponderado, también propuesto por Cohen, en el cual se asignan unos pesos para cuantificar la importancia relativa entre los desacuerdos. Pensando en el ejemplo anterior, no tiene la misma importancia un desacuerdo en la clasificación entre las categorías leve y moderada que entre leve y grave, obviamente la última representa un mayor desacuerdo que la primera. La idea de este índice ponderado es asignar a cada celda de la tabla un peso wij comprendido entre 0 y 1 que represente la importancia del desacuerdo. Dando el máximo peso al acuerdo perfecto, y pesos proporcionalmente menores según la importancia del desacuerdo
además, obviamente wij = wji. Las proporciones ponderadas de acuerdos observados y esperados se definen
y a partir de aquí, el kappa ponderado
Nótese que, en el caso extremo, si se definen los pesos como
el kappa ponderado coincide con el kappa global. La principal ventaja del kappa ponderado reside en la posibilidad de cuantificar diferentes grados de desacuerdo. Los valores de los pesos dependerán, en cada caso, de la importancia que se conceda a cada desacuerdo, hay que tener presente, sin embargo, que ello añade cierta dificultad a su interpretación: si en dos estudios diferentes, se calcula el kappa ponderado con dos sistemas de pesos distintos, es difícil realizar comparaciones entre ellos. Los más usados en este sentido son, por su sencillez, los denominados pesos lineales, propuestos inicialmente por Cohen
y los denominados pesos bicuadrados, propuestos posteriormente por Fleiss y Cohen
http://www.hrc.es/bioest/errores_5.html (1 of 2) [28/12/2002 20:29:38]
Índice kappa con "pesos"
Pesos lineales y bicuadrados para 3 categorías
Peso
lineal (wl)
bicuadrado (wb)
Obs.
A
A
B
Cat
1
2
3
1
2
3
1
1
1/2
0
1
3/4
0
2
1/2
1
1/2
3/4
1
3/4
3
0
1/2
1
0
3/4
1
Para los datos del ejemplo de los reumatólogos los kappas usando estos sistemas de pesos son respectivamente
y
, más altos que sin pesos.
Múltiples observadores Este índice se puede extender a múltiples observadores, con lo que las fórmulas se complican pero sin apenas cambios conceptuales. Referencias Cohen J. (1968) Weighted kappa: Nominal scale agreement with provision for scaled disagreement or parcial credit Psychol Bull 70: 213-220.
http://www.hrc.es/bioest/errores_5.html (2 of 2) [28/12/2002 20:29:38]
Distribución muestral del kappa
Distribución muestral del índice κ El índice κ se calcula a partir de muestras, por tanto se obtiene sólo una estimación del verdadero valor del κ en la población. Es necesario estudiar su distribución muestral para poder construir intervalos de confianza y realizar contrastes de hipótesis. En el caso de dos observadores clasificando en K categorías, en la hipótesis de independencia, se puede demostrar que la varianza del kappa estimado es
y si se cumplen las condiciones de aproximación de la binomial a la normal, el estadístico se distribuye como una normal tipificada y puede usarse para contrastar la H0: κ = 0 con una región crítica para un contraste lateral z > zα Ejemplo: Realizar el contraste de hipótesis H0: κ = 0 para los datos del ejemplo de los reumatólogos. Según la tabla P.1=18/80=0.225 P.2=40/80=0.5 P.3=22/80=0.275 P1.=20/80=0.25 P2.=43/80=0.5375 P3.=17/80=0.2125 Pe=0.383
por lo tanto
y no se puede rechazar la hipótesis nula de κ = 0. En general, sin embargo, estos contrastes no tienen mucho interés. El objetivo de un estudio de concordancia no es tanto contrastar si hay más acuerdo que el esperado en la hipótesis de independencia sino cuantificar el mismo. Si un estudio produce un κ = 0,1 aunque sea significativamente distinto de 0, revela un acuerdo insignificante. Lo que tiene interés es, por tanto, la estimación por intervalos. Aquí debe señalarse que la varianza anterior se ha obtenido en la hipótesis de independencia entre observadores en cuyo caso κ=0, y consecuentemente no sirve para construir intervalos de confianza en la hipótesis de no independencia. En esta hipótesis se puede demostrar que
http://www.hrc.es/bioest/errores_6.html (1 of 2) [28/12/2002 20:30:16]
Distribución muestral del kappa
siendo
y a partir de esta varianza, un intervalo de confianza aproximado, usando la normalidad asintótica de la distribución de
, con un nivel de confianza de 100(1 - α)% es
También hay fórmulas, que os ahorro, para la varianza del kappa ponderado. Para el caso de múltiples observadores, aunque hay algunas aproximaciones parciales, no existe todavía una fórmula de uso general para la estimación de su varianza, y se suele usar una técnica muy general para construir intervalos de confianza para estadísticos de distribución muestral desconocida que es la denominada "técnica jackknife", introducida por Quenouille y que se puede aplicar al índice kappa. Referencias Abraira V., Pérez de Vargas A. (1999). Generalization of the kappa coefficient for ordinal categorical data, multiple observers and incomplete designs. Qüestiió 23: 561-571
http://www.hrc.es/bioest/errores_6.html (2 of 2) [28/12/2002 20:30:16]
Cálculo del kappa con el PRESTA
Cálculo del kappa con el Presta El Presta calcula el índice kappa en dos procesamientos: Tablas de contingencia (G) y Análisis de concordancia (3). En la primera: sólo para dos observadores, no admite pesos, calcula el error estándar con las fórmulas dadas aquí y se pueden codificar libremente las categorías, en la segunda: acepta varios observadores, se pueden usar los pesos que se deseen (ofrece por defecto los bicuadrados), calcula el error estándar por la técnica jackknife y obliga a codificar las categorías con números enteros consecutivos (1,2,...).
http://www.hrc.es/bioest/errores_7.html [01/01/2003 23:20:29]
Concordancia para variables continuas
Concordancia para variables continuas Aunque en la literatura clínica hay una gran tradición de usar el coeficiente de correlación lineal (r) para evaluar la concordancia entre variables continuas, ello es incorrecto: dicho coeficiente mide la correlación y no la concordancia: si, p.e. un aparato para medir una magnitud produce sistemáticamente el triple de otro aparato que supuestamente mide la misma magnitud, ambas mediciones están perfectamente correlacionadas (r=1) pero no son concordantes en absoluto. Ejemplo: en 1979, en un artículo de gran impacto entre neumólogos (Thorax,34:807-809), se comparaba las medidas de flujo respiratorio máximo obtenidas por el aparato estándar (Wright) con las obtenidas por otro portátil (miniWright). Los autores hacen hincapié en que ambas medidas se correlacionaban muy bien (r=0,992) y proponen el uso alternativo del portátil. Como veremos enseguida las cosas no eran tan claras. El índice más establecido para variables continuas es el denominado coeficiente de correlación intraclase que se calcula a partir de los estadísticos que produce un análisis de la varianza y que, por tanto, no estamos en condiciones de abordar en este curso. Un procedimiento, gráfico, alternativo propuesto por Altman e ilustrado con datos del estudio anterior es el siguiente: Paciente Wright MiniWright Diferencia Media (l/min) (l/min) 1
494
512
-18
503.0
2
395
430
-35
412.5
3
516
520
-4
518.0
4
434
428
6
431.0
5
476
500
-24
488.0
6
557
600
-43
578.5
7
413
364
49
388.5
8
442
380
62
411.0
9
650
658
-8
654.0
10
433
445
-12
439.0
11
417
432
-15
424.5
12
656
626
30
641.0
13
267
260
7
263.5
14
478
477
1
477.5
15
178
259
-81
218.5
16
423
350
73
386.5
17
427
451
-24
439.0
Si calculamos el coeficiente de correlación lineal P R E S T A PC V2.2
23-MAR-1995
REGRESION LINEAL X = wright MWRIGH Y = wright WRIGHT NO. DE PUNTOS
17
COEF. CORRELACION
.943
COEF. DETERMINACION
.890
ERROR ESTANDAR DE LA ESTIMA
39.882
http://www.hrc.es/bioest/errores_8.html (1 of 3) [01/01/2003 23:22:57]
Concordancia para variables continuas
Ecuación de la recta
Y = .970 X + 11.482
La propuesta de Altman es presentar las diferencias contra la media.
donde se observa que las mediciones no son tan concordantes como parecía en la gráfica anterior. La media de las diferencias es de -2.1 l/min, es decir hay un error sistemático "hacia abajo" por parte del miniWright. Los límites de concordancia son los límites de confianza de esta diferencia, para calcularlos se calcula la desviación típica de la diferencia, en este caso 38,8 y como t17 =2,11, los límites de concordancia son 79,3 y 83,5, es decir con un 95% de probabilidad la medición del miniWright puede ser 83,5 por debajo o 79,3 por arriba de la media de ambas ¿es esto aceptable clínicamente? Notar que en la gráfica, las diferencias se mantienen homogéneas a lo largo del eje X. Si no fuera así, este método no se puede usar. Puesto que estamos trabajando con una muestra, se deben también calcular los límites de confianza para dichos
límites de concordancia. El error estándar para estos límites es aproximadamente En nuestro caso para el límite inferior serían -114,3 y -45,1 y para el superior 40,9 y 110,1. Referencias Bland J.M., Altman D.G. (1986) Statistical methods for assessing agreement between two methods of clinical measurement. Lancet i: 307-310.
http://www.hrc.es/bioest/errores_8.html (2 of 3) [01/01/2003 23:22:57]
Concordancia para variables continuas
Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en cardiología clínica (IV). Las mediciones clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 50:117-128.
http://www.hrc.es/bioest/errores_8.html (3 of 3) [01/01/2003 23:22:57]
Índices de validez
Índices de validez Se trata, en esta clase, de procedimientos para evaluar la validez, es decir cuánto se aproxima una medida al valor real que pretende medir. Son procedimientos muy generales, pero aquí se van a tratar al hilo del problema de las pruebas diagnósticas (problema muy importante en la práctica y la investigación clínica): pruebas para determinar si un individuo tiene, o no, una cierta enfermedad (u otra característica). Hay que resaltar (y no siempre se hace) que si bien la validez de una prueba depende exclusivamente de la prueba, las estimaciones numéricas que se obtengan de la misma pueden depender de la prevalencia y de las características clínicas de los pacientes que se hayan estudiado. Empezemos por el caso más sencillo: una prueba cuyos resultados posibles son "positivo" o "negativo". Para evaluar su validez habrá que aplicarla a una muestra de individuos que sepamos que tienen la enfermedad y a otra que sepamos que no la tiene. Los resultados se pueden expresar en una tabla como la siguiente:
Estado Prueba
No Enfer.
Enfermo
Total
Negativo
a
b
r
Positivo
c
d
s
Total
t
u
N
siendo N el número total de individuos observados, t el número de no enfermos, u el de enfermos, a el número de no enfermos en que la prueba ha dado negativa, etc. Si la prueba fuera perfectamente válida b=c=0. Como índices de validez se definen: Sensibilidad o proporción de verdaderos positivos como la probabilidad de que la prueba dé positivo condicionada a que el individuo esté enfermo y Especificidad o proporción de verdaderos negativos como la probabilidad de que la prueba dé negativo condicionada a que el individuo no esté enfermo. También se usan como índices de error sus complementarios, es decir proporción de falsos positivos y de falsos negativos. A partir de la tabla, estos índices (que tomarán valores entre 0 y 1) se estiman como: Sen = d/u Esp = a/t PFP = c/t = 1 - Esp PFN = b/u = 1 - Sen Como son proporciones, sus I.C. se construyen como tal, es decir, p.e. para la sensibilidad y asumiendo muestras grandes (0,05 < Sen < 0,95):
Ejemplo: Evaluación de la gammagrafía de perfusión en el diagnóstico de embolismo pulmonar
http://www.hrc.es/bioest/validez_1.html (1 of 3) [01/01/2003 23:23:36]
Índices de validez
(datos tomados de McNeil). Uno de los problemas de estos estudios es la definición del "gold standard". En éste, se usó la arteriografía pulmonar
Estado Prueba
No Enfermo
Enfermo
Total
Negativo
2
0
2
Positivo
78
54
132
Total
80
54
134
Sen = 54/54 =1 Esp = 2/80 =0,02 Es una prueba extraordinariamente sensible (en todos los enfermos da positivo) pero muy inespecífica (también da positivo en muchos individuos no enfermos). Es una situación extrema de un hecho habitual. ¿Es razonable usar esta prueba? Depende del contexto clínico. Hay otros índices que ayudan en esta decisión: los llamados valores predictivos: VP+=p(enfermo|prueba+)=d/s VP-=p(no enfermo|prueba-)=a/r Para el ejemplo VP+=54/132= 0,41 y VP-=2/2=1 que ponen de manifiesto que podría ser una muy buena prueba para descartar un diagnóstico de EP, pero mala para confirmarlo. Hay que tener en cuenta que estas probabilidades postprueba corresponden a la probabilidad preprueba del estudio 54/134=0,40 y no serían aplicables a otras situaciones. Sin embargo, el teorema de Bayes permite calcular los valores predictivos a partir de la sensibilidad y especificidad (que sólo dependen de la prueba) para distintas probabilidades preprueba.
siendo p(E) la probabilidad preprueba y similarmente
Ejemplo: Calcular los VP+ y VP- de la gammagrafía de perfusión para un paciente cuya probabilidad preprueba es de 0,7
http://www.hrc.es/bioest/validez_1.html (2 of 3) [01/01/2003 23:23:36]
Índices de validez
es decir, no obtenemos ninguna información si la prueba da positivo.
sin embargo, si da negativa estamos seguros de que no tiene la enfermedad (porque la prueba tiene Sen=1). Observar que el VP- es igual que el calculado antes para una probabilidad preprueba de 0,4 sin embargo el VP+ es distinto. Referencias Cabello J.B., Pozo F. (1997) Métodos de investigación en cardiología clínica (X). Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 50:507-519. McNeil B.J. (1980) Ventilation-perfusion studies and the diagnosis of pulmonary embolism: concise communication. J Nucl Med. 21: 319-23.
http://www.hrc.es/bioest/validez_1.html (3 of 3) [01/01/2003 23:23:36]
Cocientes de probabilidades
Cocientes de probabilidades: Se trata de buscar índices que engloben la sensibilidad y la especificidad. Se definen los cocientes de probabilidades (likelihood ratio) positivo y negativo como:
¿Qué información dan? Según el teorema de Bayes
dividiendo [1] por [2]
es decir, si la prueba da positivo, el odds postprueba es igual al odds preprueba multiplicado por el cociente de probabilidades positivo:
Similarmente:
si la prueba da negativo, el odds postprueba es también igual al odds preprueba multiplicado por el cociente de probabilidades negativo:
si el cociente de probabilidades para un resultado (+ ó -) es 1, dicho resultado no añade ninguna información y cuanto más alejado esté de 1, más información añade. Para la gammagrafía de perfusión:
es decir: un resultado positivo apenas añade información, mientras que uno negativo da toda la información (si el resultado es negativo, la odds postprueba es 0, la probabilidad postprueba es 0) ¿Cuál sería la probabilidad postprueba de un paciente con una probabilidad prepueba de http://www.hrc.es/bioest/validez_2.html (1 of 2) [01/01/2003 23:25:48]
Cocientes de probabilidades
0,1 si la prueba es positiva?
No hemos ganado prácticamente nada, como informa el valor de CP+ tan próximo a 1. Ventajas de usar los CP: - No cambian con la probabilidad preprueba. - Permiten calcular la probabilidad postprueba. - Son fácilmente generalizables. Ultimamente se ha descrito otro índice denominado efectividad de la prueba, cuya distribución es aproximadamente normal, que se define como
y que puede interpretarse como la diferencia entre las medias de los resultados entre una población de enfermos y otra de sanos en una escala normalizada. Si δ=1 la prueba no es efectiva y si δ=3 es altamente efectiva. Referencias Hasselband V., Hedges L. (1995). Meta-analysis of diagnostics test. Psychol Bull 117: 167-178
http://www.hrc.es/bioest/validez_2.html (2 of 2) [01/01/2003 23:25:48]
Intervalos de confianza para los CP
Intervalos de confianza para los CP ¿Cuán fiables son los CP calculados sobre muestras? Necesitamos calcular su intervalo de confianza que no es fácil para cocientes de probabilidades. Hay varios métodos aproximados para muestras grandes. a) Si el CP es próximo a 1 (método de Miettinen)
siendo χ2 el estadístico de asociación de la tabla 2x2 Ejemplo: para el CP+ de los datos de la gammagrafía. Calculamos el χ2 de la tabla: χ2=0,2 por tanto el intervalo de confianza al 95% es
b) en caso contrario (aproximación de primer orden del desarrollo de Taylor)
siendo a, b, c y d los valores de las celdas de la tabla anterior. Obsérvese que para CP=0 el intervalo de confianza es siempre 0.
http://www.hrc.es/bioest/validez_3.html [01/01/2003 23:28:14]
Tablas Kx2
Tablas Kx2 Los índices calculados sobre tablas 2x2 tienen la ventaja de su sencillez, sin embargo, raramente una prueba diagnóstica se puede resumir en sólo dos resultados. Por ejemplo, los datos originales del ejemplo de la gammagrafía son:
Enfermo Prueba
No
Sí
Total
Negativo
2
0
2
Indeter.
22
13
35
pulmonar
2
1
3
lobular
2
2
4
segmentario
4
1
5
subsegmentario
6
0
6
pulmonar
2
3
5
lobular
5
22
27
segmetario
16
22
38
subsegmentario
41
3
44
102
67
169
Defecto único
Defectos múltiples (el mayor)
Total
En la tabla presentada antes se habían eliminado los indeterminados (35 casos) y se habían agrupado todos los defectos de perfusión en la categoría "positivo", lo que parece una simplificación excesiva. Se pueden extender, sin dificultad, los índices anteriores a pruebas con varios niveles. Sea, p.e, una tabla 4x2
Enfermo Prueba
No
Sí
Nivel 1
a
b
http://www.hrc.es/bioest/validez_4.html (1 of 4) [01/01/2003 23:28:38]
Tablas Kx2
Nivel 2
c
d
Nivel 3
e
f
Nivel 4
g
h
Total
t
u
Se puede definir una sensibilidad para cada nivel como la probabilidad de que la prueba resulte en ese nivel condicionada a que el individuo esté enfermo, y especificidad para cada nivel como la probabilidad de que la prueba no resulte en ese nivel condicionada a que el individuo no esté enfermo. A partir de la tabla, la estimaciones de la sensibilidad y especificidad, p.e. para el nivel 2 son
se define también el cociente de probabilidades para cada nivel como la sensibilidad de ese nivel dividido por uno menos la especificidad, p.e. para el nivel
estos CP se interpretan del mismo modo, es decir el odds postprueba es el odds preprueba multiplicado por el CP del nivel que resulte y los IC se calculan de la misma manera. Ejemplo: Para la gammagrafía, agrupando en 4 categorías, calcular la sensibilidad, especificidad y cociente de probabilidades para cada nivel. Calcular, también, la probabilidad postprueba para cada uno de los niveles de un paciente cuya probabilidad preprueba sea 0,6.
Enfermo Prueba
No
Sí
Total
Negativo
2
0
2
Indeterminado
22
13
35
Defecto único
14
4
18
Defectos múltiples
64
50
114
Total
102
67
169
http://www.hrc.es/bioest/validez_4.html (2 of 4) [01/01/2003 23:28:38]
Tablas Kx2
Los índices son:
Nivel
Sen
Esp
CP
0/67 = 0
100/102 = 0,980
0
Indeterminado
13/67 = 0,194
80/102 = 0,784
0,900
Defecto único
4/67 = 0,060
88/102 = 0,863
0,435
Defectos múltiples
50/67 = 0,746
38/102 = 0,373
1,189
Negativo
Para un paciente con una probabilidad preprueba de 0,6, el odds preprueba es 0,6/0,4=1,5.
Nivel
Oddspos
ppos
0
0
Indeterminado
1,347
0,574
Defecto único
0,655
0,396
Defectos múltiples
1,784
0,641
Negativo
Es decir, dentro de los resultados "positivo" de antes, el defecto único es el de mayor poder informativo. Ejemplo: Calcular los IC al 95% para los índices anteriores. Para la sensibilidad y especificidad usamos la fórmula estándar, aunque para el resultado negativo estamos fuera de las condiciones de aproximación, por ejemplo para Espneg
los resultados para todos los índices son
Nivel
Sen
Esp
Negativo
0-0
0,953 - 1,007
Indeterminado
0,099 - 0,289
0,704 - 0,864
Defecto único
0,003 - 0,117
0,796 - 0,930
http://www.hrc.es/bioest/validez_4.html (3 of 4) [01/01/2003 23:28:38]
Tablas Kx2
Defectos múltiples
0,642 - 0,850
0,279 - 0,466
Las fórmulas para los IC de los CP se generalizan, para cada nivel:
por ejemplo, para el nivel indeterminado
y los resultados para todos los niveles
Nivel Negativo
IC 0-0
Indeterminado
0,487 - 1,657
Defecto único
0,150 - 1,265
Defectos múltiples
0,969 - 1,459
Es decir, salvo el del nivel negativo, ninguno de los CP es significativamente distinto de 1.
http://www.hrc.es/bioest/validez_4.html (4 of 4) [01/01/2003 23:28:38]
Más de dos enfermedades
Más de dos enfermedades Estos índices se pueden generalizar a pruebas diagnósticas diferenciales de más de 2 enfermedades. Ejemplo: el tacto rectal en caso de dolor abdominal agudo para diferenciar entre apendicitis, pancreatitis y dolor no específico. Sea la tabla
Desenlace Tacto rectal
Apendicitis
Pancreatitis
No específico
Total
Positivo
200
8
130
338
Negativo
60
30
120
210
Dudoso
40
12
400
452
Total
300
50
650
1000
La sensibilidad del tacto rectal positivo para la apendicitis será 200/300=0,666 y su especificidad (30+120+12+400)/(50+650) = 0,803 por tanto el cociente de probabilidades del tacto rectal positivo para la apendicitis es 0,666/(1-0,803)=3,35 y del mismo modo se calculan para los demás. Se define también, y es más útil, el cociente de probabilidades relativo de una enfermedad i respecto a otra j para un resultado Rk como el cociente de sus sensibilidades.
Para calcular probabilidades postprueba en un entorno donde las probabilidades preprueba sean diferentes se usa el Teorema de Bayes
siendo Rk el resultado obtenido en la prueba, Ei las distintas enfermedades y p(Rk|Ei) las sensibilidades para ese resultado y, a partir de aquí, de un modo similar a como se hizo antes (el desarrollo completo puede verse en Birkett NJ (1988)).
Ejemplo 5 Con los CP del tacto rectal obtenidos de la tabla anterior, calcular la probabilidad postprueba de apendicitis para un individuo con tacto rectal positivo y cuyas probabilidades preprueba son: p(A)=0,30; p(P)=0,05 y p(NE)=0,65 Necesitamos estimar, a partir de la tabla, las sensibilidades de cada enfermedad para el tacto http://www.hrc.es/bioest/validez_5.html (1 of 2) [01/01/2003 23:29:05]
Más de dos enfermedades
rectal positivo
los cocientes de probabilidad relativos
y usando la fórmula anterior
por lo tanto
es decir, si el tacto rectal es positivo, hemos pasado de una probabilidad preprueba de 0,30 a una probabilidad postprueba de 0,59. El cálculo de los IC para estas probabilidades escapa del objetivo de este curso, pero se pueden ver en Monsour M.J.; Evans A.T, Kupper L.L. (1991). Referencias Birkett N.J. (1988) Evaluation of diagnostic tests with multiple diagnostic categories. J Clin Epidemiol 41:491-494 Monsour M.J., Evans A.T., Kupper L.L. (1991) Confidence intervals for post-test probability. Stat Med (1991), 10: 443-456.
http://www.hrc.es/bioest/validez_5.html (2 of 2) [01/01/2003 23:29:05]
Cálculo de sensibilidad y especificidad con el PRESTA
Cálculo de sensibilidad y especificidad con el PRESTA El PRESTA calcula la sensibilidad, la especificidad y los CP con sus IC's para tablas 2xK, en la opción de "Análisis de validez de pruebas diagnósticas (5)" Calcula también probabilidades postprueba correspondientes a distintas probabilidades preprueba. También está disponible una calculadora que hace los mismos cálculos a partir de la tabla, en lugar de los datos crudos. La salida para el ejemplo de la gammagrafía con 4 niveles es P R E S T A PC V2.2 24-MAR-2000 ANALISIS DE VALIDEZ DE PRUEBAS DIAGNOSTICAS ARCHIVO gamma7 Los números entre paréntesis son porcentajes respecto a la suma de cada columna Var:
ENFER
GAMMA
0:0
1:1
2( 2)
0( 0)
1:1
22( 22)
13( 19)
2:2
14( 14)
4( 6)
3:3
64( 63)
50( 75)
4:4
Nivel
Sensibilidad
Especif.
CP
1
.000
.980
.000
2
.194
.784
.900
3
.060
.863
.435
4
.746
.373
1.189
Intervalos de confianza al 95% Nivel
Sensibilidad
Especif.
CP
1
.000
.054
.931
.995
.000
.000
2
.117
.304
.704
.864
.488
1.660
3
.023
.144
.796
.930
.150
1.265
4
.631
.835
.279
.466
.969
1.459
PROBABILIDADES POSTPRUEBA CORRESPONDIENTES A LA Ppre: .3000 Nivel
Probabilidad
1
.0000
2
.2783
3
.1571
4
.3376
http://www.hrc.es/bioest/validez_6.html (1 of 2) [02/01/2003 01:16:19]
Cálculo de sensibilidad y especificidad con el PRESTA
Nota: Las diferencias entre las estimaciones de los IC para la Sensibilidad y Especificidad de esta "salida" y del texto anterior son debidas a que en el texto se usó la aproximación normal y el PRESTA no la usa si N<100 y los índices <0,05 ó >0,95 en cuyo caso usa la aproximación de Wilxon.
http://www.hrc.es/bioest/validez_6.html (2 of 2) [02/01/2003 01:16:19]
Curvas ROC
Curvas ROC En la clase anterior se consideró que el resultado de las pruebas diagnósticas era categórico, sin embargo muchas pruebas producen resultados continuos, p.e. nivel de glucosa en sangre para diagnosticar la diabetes. El comportamiento de dichas pruebas depende de donde se ponga el punto de corte y lo habitual es que exista un grado variable de solapamiento en la fdp de la variable resultado. En el caso de la glucosa la situación se esquematiza en la gráfica
Si se desplaza el punto de corte a la derecha (valores mayores de glucosa) disminuyen los falsos positivos (región azul) pero aumentan los falsos negativos (región roja) o, en otros términos, disminuye la sensibilidad y aumenta la especificidad e inversamente si se desplaza a la izquierda, de modo que un problema en estas pruebas es la selección del punto de corte óptimo. Para caracterizar su comportamiento se usan las llamadas curvas ROC (Receiver Operating Characteristic) desarrolladas por los operadores de radar e introducidas en la investigación clínica por los radiólogos (Hanley y McNeil): son curvas en las que se presenta la sensibilidad en función de los falsos positivos (complementario de la especificidad) para distintos puntos de corte.
Información contenida en la curva: - Si la prueba fuera perfecta, es decir, sin solapamiento, hay una región en la que cualquier punto de corte tiene sensibilidad y especifidad iguales a 1: la curva sólo tiene el punto (0,1).
http://www.hrc.es/bioest/roc_1.html (1 of 4) [02/01/2003 01:17:56]
Curvas ROC
- Si la prueba fuera inútil: ambas fdp´s coinciden y la sensibilidad (verdaderos positivos) es igual a la proporción de falsos positivos, la curva sería la diagonal de (0,0) a (1,1). - Las pruebas habituales tienen curvas intermedias.
Un parámetro para evaluar la bondad de la prueba es el área bajo la curva que tomará valores entre 1 (prueba perfecta) y 0,5 (prueba inútil). Puede demostrarse, (Hanley y McNeil) que este área puede interpretarse como la probabilidad de que ante un par de individuos, uno enfermo y el otro sano, la prueba los clasifique correctamente. En consecuencia, las curvas ROC son útiles para: Conocer el rendimiento global de una prueba. Area bajo la curva. Comparar dos pruebas o dos puntos de corte. Comparación de dos curvas o de dos puntos sobre una curva. Elegir el punto de corte apropiado para un determinado paciente. Limitaciones de su uso: sólo contemplan dos estados clínicos posibles (sano, enfermo) y no sirven para situaciones en que se trata de discernir entre más de dos enfermedades. Ejemplo: Evaluación del volúmen corpuscular medio (VCM) en el diagnóstico de anemia ferropénica. Se usa como "patrón de oro" la existencia de depósitos de hierro en la médula ósea Tabla de datos (hipotética): VCM Sin Fe (n=34): 52, 58, 62, 65, 67, 68, 69, 71, 72, 72, 73, 73, 74, 75, 76, 77, 77, 78, 79, 80, 80, 81, 81, 81, 82, 83, 84, 85, 85, 86, 88, 88, 90, 92 Con Fe (n=66): 60, 66, 68, 69, 71, 71, 73, 74, 74, 74, 76, 77, 77, 77, 77, 78, 78, 79, 79, 80, 80, 81, 81, 81, 82, 82, 83, 83, 83, 83, 83, 83, 83, 84, 84, 84, 84, 85, 85, 86, 86, 86, 87, 88, 88, 88, 89, 89, 89, 90, 90, 91, 91, 92, 93, 93, 93, 94, 94, 94, 94, 96, 97, 98, 100, 103
http://www.hrc.es/bioest/roc_1.html (2 of 4) [02/01/2003 01:17:56]
Curvas ROC
Donde se observa solapamiento. Para diversos puntos de corte (es decir, decidiendo que hay anemia cuando el VCM es menor que el punto de corte) las sensibilidad y proporciones de falsos positivos figuran en la siguiente tabla:
Punto Corte
Sensibilidad
1-Especificidad
65
3/34=0,088
1/66=0,015
70
7/34=0,206
4/66=0,061
75
13/34=0,382
10/66=0,152
80
19/34=0,559
19/66=0,288
85
27/34=0,794
37/66=0,561
90
32/34=0,941
49/66=0,742
92
33/34=0,971
53/66=0,803
que producen la siguiente curva ROC
http://www.hrc.es/bioest/roc_1.html (3 of 4) [02/01/2003 01:17:56]
Curvas ROC
cuya área es 0,717 con un EE de 0,05, es decir no es una prueba demasiado buena. Si se quisiera comparar esta prueba con otra, p.e. niveles séricos de ferritina, se contruiría para ella otra curva y se calcularía su área. Supongamos A=0,868 y EE(A)=0,04. El estadístico para compararlas es (si ambas curvas han sido estimadas independientemente, es decir con distintos sujetos, en caso contrario, véase Hanley J.A., McNeil B.J. (1983)):
que en este ejemplo vale 2,34 que como es mayor que 1,96 ambas pruebas tienen un rendimiento significativamente distinto. Referencias Hanley J.A., McNeil B.J. (1982) The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. 143: 29-36 Hanley J.A., McNeil B.J. (1983) A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology. 148: 839-43
http://www.hrc.es/bioest/roc_1.html (4 of 4) [02/01/2003 01:17:56]
Elección del punto de corte óptimo
Elección del punto de corte óptimo Esta elección se basa en la importancia relativa que para el paciente tenga hacer un diagnóstico falso positivo o falso negativo. El diagrama de la decisión es
Representamos por U la utilidad y es un valor normalizado (ver ejemplo) que dependerá de las consecuencias de la decisión y de las preferencias del paciente. La utilidad esperada de la prueba es el promedio ponderado, por las respectivas probabilidades, de las diferentes utilidades es decir
que se puede escribir como
La curva ROC describe la relación entre: y . Se trata de elegir un punto de esa curva que maximize la función de utilidad. Para ello hay que resolver la ecuación que resulta de igualar a 0 la derivada de la utilidad respecto a
. El resultado es
El primer miembro de la igualdad es la pendiente de la curva ROC. La ecuación nos da un criterio para elegir el punto de corte: de tal modo que la pendiente en él sea la de la expresión. UVN-UFP es la diferencia en beneficio entre no tratar a VN y tratar FP. Habitualmente se denomina coste neto (C) de tratar pacientes no enfermos. UVPUFN es la diferencia en beneficio entre tratar a VP y no tratar FN. Habitualmente se denomina beneficio neto (B) de tratar sujetos enfermos. Con estas consideraciones la fórmula anterior se puede escribir como
La pendiente de la curva en cada punto se puede estimar o ajustando los puntos a una curva y calculando la pendiente (máxima verosimilitud) o, cuando se analizan polígonos en lugar de curvas ROC (lo más frecuente), del siguiente modo: la pendiente del primer tramo (marcado en verde en la gráfica: recuérdese que la pendiente es la tangente del ángulo, es decir el cateto opuesto (Sen) dividido por el contiguo (1-Esp)) es el CP del primer punto de corte, para los demás tramos (marcado en rojo el segundo) el cociente entre el cambio de la sensibilidad y el cambio de la especificidad y finalmente a cada punto se le asigna http://www.hrc.es/bioest/roc_2.html (1 of 3) [02/01/2003 01:18:31]
Elección del punto de corte óptimo
como pendiente el promedio de los tramos respectivos.
Ejemplo: calcular las pendientes del polígono ROC del ejemplo del VCM. La pendiente en el primer tramo es 0,088/0,015=5,87; en el segundo tramo (0,206-0,088)/(0,061-0,015)=2,57; por tanto la pendiente para el primer punto es (5,87+2,57)/2=4,22. Repitiendo el mismo cálculo para todos los puntos resulta:
Punto Corte
Pendiente
65
4,22
70
2,25
75
1,62
80
1,08
85
0,84
90
0,65
92
0,32
Ejemplo: Usando la tabla anterior, decidir el punto de corte óptimo para un paciente con probabilidad preprueba de 0,3 y otro de 0,6. Hay que establecer también las utilidades: UVP: El paciente tiene la enfermedad y la prueba lo detecta. Asumiendo que la anemia ferropénica tenga un tratamiento eficaz y seguro le ponemos 1 (el máximo, si no hubiera tratamiento le pondríamos 0, incluso negativo si al paciente le causara angustia un diagnóstico fatal). UFN: El paciente tiene la enfermedad y la prueba no lo detecta. Las consecuencias serían otras pruebas, que implican gasto y retraso en el verdadero diagnóstico (asumo que pasado un tiempo de no mejoría se replantearía el problema) UFN=-0,3. Es decir el beneficio neto B=1-(-0,3)=1,3 UVN: El paciente no tiene la enfermedad y la prueba no la detecta. Asumiendo que la anemia no ferropénica tenga tratamiento menos eficaz y menos seguro le ponemos 0,7. UFP: El paciente no tiene la enfermedad pero la prueba la detecta. Las consecuencias serían tratamiento inadecuado (anemia ferropénica) pero sin efectos adversos, que implica gasto y retraso en el verdadero diagnóstico (asumo que pasado un tiempo de no mejoría se replantearía el problema) UFN=-0,5. Si el tratamiento tuviera efectos adversos podría ser -0,8 o menos.
http://www.hrc.es/bioest/roc_2.html (2 of 3) [02/01/2003 01:18:31]
Elección del punto de corte óptimo
El coste neto C=0,7-(-0,5)=1,2 para ppre=0,3 la pendiente óptima sería pend = (1,2/1,3) x (0,7/0,3) = 2,15 que según la tabla anterior correspondería a un punto de corte un poco por encima de 70. para ppre=0,6 la pendiente óptima sería pend = (1,2/1,3) x (0,4/0,6) = 0,62 que según la tabla anterior correspondería a un punto de corte un poco por encima de 90. Ejemplo: El estudio PIOPED (Prospective Investigation Of Pulmonar Embolism Diagnosis), evaluó la gammagrafía V/Q para el diagnóstico del EP usando la arteriografía como "gold standar". Los resultados para distintos puntos de corte fueron:
Arterio gam.
+
-
Sen
1-Esp
Pendiente
alta
102
14
0,41
0,03
7,29
inter
207
231
0,82
0,48
0,65
baja
246
430
0,98
0,90
0,38
norm
251
480
con un área bajo la curva de 0,76 y un EE de 0,019. Con estos datos los puntos de corte para distintas situaciones clínicas son:
P(E)
1/odds
C/B
Pendiente
Nivel
0,34
1,92
0,5
0,96
inter
0,34
1,92
2
3,84
*
0,15
5,67
0,5
2,84
*
0,15
5,67
2
11,34
>alta
* niveles intermedios entre alta e intermedia que habría que investigar. Referencias Metz C.E. (1978) Basic principles of ROC analysis. Semin Nucl Med. 8: 283-298. The PIOPED Investigators (1990) Value of the ventilation/perfusion scan in acute pulmonary embolism. Results of the prospective investigation of pulmonary embolism diagnosis (PIOPED). JAMA. 263: 2753-2759.
http://www.hrc.es/bioest/roc_2.html (3 of 3) [02/01/2003 01:18:31]
Sesgos en la evaluación de pruebas diagnósticas
Sesgos en la evaluación de pruebas diagnósticas Los más frecuentes en este tipo de estudio son: Sesgo de confirmación diagnóstica al limitar el estudio a los pacientes a quienes se les hizo en su día el "gold standard" que suelen ser los que más probablemente tengan la enfermedad, por tanto las pruebas positivas están sobre-representadas (sobreestimación de la sensibilidad) y las negativas infra-representadas (infraestimación de la especificidad). Frecuentemente es imposible evitarlo por razones éticas. Hay técnicas matemáticas complejas para controlarlo. Sesgo de interpretación de las pruebas si no se hacen independientemente. Sesgo debido a resultados no interpretables de la prueba problema si dicho problema no tiene la misma frecuencia en ambos grupos. Ausencia de gold standard definitivo. Condiciones de generalización Espectro de la enfermedad ("Case mix") Una prueba puede tener distintos grados de exactitud para diferentes grados de severidad de la enfermedad. Deben siempre comunicarse las características clínicas de los pacientes incluidos en el estudio. Variabilidad interobservador: Todas las pruebas (unas más que otras) requieren cierto grado de pericia en su realización e interpretación. Dos observadores pueden ser igualmente exactos pero ser uno más sensible o específico que otro, en otras palabras operar con la misma curva ROC pero en puntos distintos o pueden tener distinta exactitud (operar en la misma prueba con distinta curva ROC).
http://www.hrc.es/bioest/roc_3.html [02/01/2003 01:19:27]
Modelos de regresión logística
MODELOS DE REGRESION LOGISTICA V. Abraira Bibliografía: V. Abraira, A.Pérez de Vargas Métodos Multivariantes en Bioestadística. Ed. Centro de Estudios Ramón Areces. 1996. L.C. Silva Ayçaguer Excursión a la regresión logística en Ciencias de la Salud Díaz de Santos. 1995 D.W. Hosmer, S. Lemeshow Applied Logistic Regression. John Wiley & Sons. 1989. Asociación entre variables binomiales Se dice que un proceso es binomial cuando sólo tiene dos posibles resultados: "éxito" y "fracaso", siendo la probabilidad de cada uno de ellos constante en una serie de repeticiones. A la variable número de éxitos en n repeticiones se le denomina variable binomial. A la variable resultado de un sólo ensayo y, por tanto, con sólo dos valores: 0 para fracaso y 1 para éxito, se le denomina binomial puntual. Un proceso binomial está caracterizado por la probabilidad de éxito, representada por p (es el único parámetro de su función de probabilidad), la probabilidad de fracaso se representa por q y, evidentemente, ambas probabilidades están relacionadas por p+q=1. En ocasiones, se usa el cociente p/q, denominado "odds", y que indica cuánto más probable es el éxito que el fracaso, como parámetro característico de la distribución binomial aunque, evidentemente, ambas representaciones son totalmente equivalentes. Los modelos de regresión logística son modelos de regresión que permiten estudiar si una variable binomial depende, o no, de otra u otras variables (no necesariamente binomiales): Si una variable binomial de parámetro p es independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo de regresión es una función de p en X que a través del coeficiente de X permite investigar la relación anterior. Ejemplo 1: Se quiere comparar la eficacia de dos tratamientos alternativos para una misma enfermedad. Asumiendo que el proceso "curar" sólo tiene dos resultados: sí o no y que la probabilidad de curación es la misma para todos los enfermos, se trata de un proceso binomial. Se trata de ver si este proceso está asociado, o no, con el tratamiento, es decir, si la probabilidad de curación dado http://www.hrc.es/bioest/Reglog_1.html (1 of 4) [02/01/2003 01:25:57]
Modelos de regresión logística
el tratamiento A es igual, o distinta, a la probabilidad de curación dado el tratamiento B. Supóngase que sobre una muestra aleatoria de 40 enfermos, dividida aleatoriamente en dos grupos de 20, a cada uno de los cuales se le suministra un tratamiento, se obtienen los siguientes resultados: tratamiento. A (X=1)
tratamiento. B (X=0)
curación
18
13
no
2
7
Total
20
20
Si se define la variable tratamiento como X=1 para el tratamiento A y X=0 para el B, a partir de la tabla podemos estimar la probabilidad de curación para el tratamiento B: p|(X=0)=13/20 y para el tratamiento A: p|(X=1)=18/20 Como ambas probabilidades son distintas, "parece" que la probabilidad de curación depende del tratamiento. Las preguntas son: ¿esta dependencia es generalizable ("estadísticamente significativa")? ¿cuánto depende ("clínicamente relevante")? La primera pregunta la podemos resolver mediante la prueba χ2, la segunda mediante las denominadas "medidas de asociación", o "de fuerza de la asociación", o "de efecto": diferencia de riesgo (DR), riesgo relativo (RR) y "odds ratio" (OR). En el ejemplo: DR: 18/20 - 13/20 = 5/20 =0,25 RR: (18/20)/(13/20) = 18/13 = 1,38 OR: ((18/20)/(2/20))/(13/20)/(7/20) =(18x7)/(13x2) = 4,85 DR es 0 en caso de no diferencia, mientras que RR y OR son ambos 1. Recordemos que el OR, aunque es la medida menos intuitiva1,2, es la más extendida por diversas razones y que es conveniente que a estas estimaciones puntuales las acompañemos de su intervalo de confianza que nos indica la precisión de la estimación. Ejemplo 2: Para refrescar los conceptos de odds ratio y riesgo relativo. Sean dos juegos, en uno (X=0) se apuesta sobre la salida de una cierta cara en una tirada de un dado, y en otro (X=1) sobre la salida de una cara en la tirada de una moneda. Evidentemente, la probabilidad de ganar es para el dado p|(X=0)=1/6 y para la moneda p|(X=1)=1/2 El riesgo relativo es:
http://www.hrc.es/bioest/Reglog_1.html (2 of 4) [02/01/2003 01:25:57]
Modelos de regresión logística
que, como es distinto de 1, quiere decir que la probabilidad de ganar está asociada al tipo de juego, y que es 3 veces más probable ganar con la moneda que con el dado. El odds ratio para este ejemplo es:
el odds para la moneda es 5 veces el odds del dado, es decir, a la larga la razón de partidas ganadas/perdidas es 5 veces mayor para la moneda que para el dado. Para decidir a que juego interesa jugar hay que comparar este odds ratio con la razón de los cocientes entre lo que se puede ganar y perder en cada jugada en ambos juegos. El OR está siempre más alejado de 1 que el RR, aunque cuando las probabilidades son muy pequeñas la diferencia (entre el OR y el RR) es pequeña. Se trata, ahora, de comparar el juego de la lotería nacional (X=1) en el que el premio es para un número extraído de entre 100.000, con el de la lotería primitiva (X=0) en que se premia una combinación de 6 números de entre las que se pueden formar con 49 números. Resulta p|(X=1)=1/100.000. El número de combinaciones de 6 números que se pueden formar con 49 es C49;6=13.983.816 por lo tanto p|(X=0)=1/13.983.816 y:
es aproximadamente 140 veces más probable ganar en el juego de la lotería que en el de la lotería primitiva. El odds ratio para este ejemplo es:
que, como era de esperar, debido a los pequeños valores de p|X=1 y p|X=0 es prácticamente igual que el riesgo relativo (recordar cuando la prevalencia es baja, el OR estima el RR). Otras lecturas recomendadas 1 Odds ratios should be avoided when events are common. Altman DG et al. BMJ. 317:1318. 1998
http://www.hrc.es/bioest/Reglog_1.html (3 of 4) [02/01/2003 01:25:57]
Modelos de regresión logística
2 When can odds ratios mislead? Davies HTO et al. BMJ. 316:989-991. 1998 3 Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo. Abraira V. SEMERGEN 26: 535536. 2000. 4 Medidas del efecto de un tratamiento (II): odds ratio y número necesario para tratar. Abraira V. SEMERGEN 27: 418-420. 2001.
http://www.hrc.es/bioest/Reglog_1.html (4 of 4) [02/01/2003 01:25:57]
Modelo de Regresión logística simple
Modelo de regresión logística simple Para una única variable independiente X, el modelo de regresión logística toma la forma:
o, para simplificar la notación, simplemente:
donde ln significa logaritmo neperiano, α0 y α1 son constantes y X una variable que puede ser aleatoria o no, continua o discreta. Este modelo se puede fácilmente generalizar para k variables independientes:
Por simplicidad, vamos a empezar por el modelo simple, extendiéndonos después al modelo múltiple. Hay varias razones para plantear el modelo con el logaritmo del odds, en lugar de plantearlo simplemente con la probabilidad de éxito o con el odds. En primer lugar, el campo de variación de ln(p/q) es todo el campo real (de -∞ a ∞), mientras que, para p el campo es sólo de 0 a 1 y para p/q de 0 a ∞. Por lo tanto, con el modelo logístico no hay que poner restricciones a los coeficientes que complicarían su estimación. Por otro lado, y más importante, en el modelo logístico los coeficientes son, como veremos enseguida, fácilmente interpretables en términos de independencia o asociación entre las variables. Hay otras formas equivalentes de poner el modelo, de modo que en diferentes textos se puede ver de otra forma, que para ciertas aplicaciones son más cómodas de usar:
Estas dos últimas expresiones, si son conocidos los coeficientes, permiten calcular directamente la probabilidad del proceso binomial para los distintos valores de la variable X. A la función:
http://www.hrc.es/bioest/Reglog_2.html (1 of 5) [02/01/2003 01:26:56]
Modelo de Regresión logística simple
que aparece en otros muchos campos de la matemática aplicada, y cuya gráfica se muestra en la figura, se le denomina función logística. El modelo de regresión logística, por tanto, modeliza la probabilidad de un proceso binomial como la función logística de una combinación lineal de la(s) variable(s) dependiente(s).
Veamos, ahora, qué significan los coeficientes en el modelo. Supóngase por el momento que la variable X sólo puede tomar los valores 0 y 1. Para el valor X=0 el modelo queda:
por tanto α0 es el logaritmo del odds cuando la variable independiente es cero. Para el valor X=1:
por lo tanto:
es decir α1 es el logaritmo del cociente de los odds para los dos valores de la variable X, u "odds ratio" (OR), Si la variable binomial es independiente de la variable X, ambos odds son iguales, por lo tanto el odds ratio es 1 y su logaritmo será cero. Por lo tanto, para estudiar con un modelo logístico la independencia de las variables, basta con estudiar si el coeficiente α1 es cero. En el caso que se está considerando de una variable independiente con sólo dos valores, el riesgo relativo se puede poner, usando las otras formas del modelo:
http://www.hrc.es/bioest/Reglog_2.html (2 of 5) [02/01/2003 01:26:56]
Modelo de Regresión logística simple
Otro modo de expresar estos resultados es decir que y
es el odds cuando X=0
el odds ratio entre X=1 y X=0. Si la variable X puede tomar más valores,
sigue siendo el odds cuando X=0 y el odds ratio para el evidentemente aumento de una unidad en la variable X. Nótese que, por lo tanto, el modelo implica que este odds ratio es constante. Del mismo modo que en regresión lineal, cuando no tiene sentido físico X=0 (por ejemplo edad, presión arterial), se interpreta como el odds basal, es decir, el odds que no depende de la variable independiente. Ejemplo 3: Se trata de estudiar el efecto dosis-respuesta para un tratamiento. A una muestra aleatoria de enfermos se la divide también aleatoriamente en 4 grupos, al primero no se le administra tratamiento, al segundo se le administra una cierta dosis, digamos 50 mg, al tercero 100 mg y al cuarto 150 mg y, como en el ejemplo anterior, se mide la respuesta como curación o no curación. Ahora la variable X tiene 4 valores que pueden ser, bien los mg de cada dosis (0, 50, 100, 150) o bien un código arbitrario para cada dosis (p.e. 0, 1, 2, 3). Si se plantea un modelo logístico, α0 será el logaritmo del odds de la dosis 0 (el logaritmo del odds de la curación para los enfermos no tratados) y α1 el logaritmo del odds ratio por aumento de unidad de dosis. Conviene tener presente dos aspectos: 1º la dependencia de α1 de la codificación de la variable X, si se usan los mg la unidad es 1 mg y si se usan los códigos, la unidad es el cambio de dosis y 2º el modelo asume que el cambio en el logaritmo del odds es constante, es decir el logaritmo del odds cambia α1 por pasar de la dosis 0 a la 1, o por pasar de la dosis 2 a la 3. ¿Cuánto cambia por pasar de la dosis 0 a la 2?. Según el modelo:
es decir, el cambio en el logaritmo del odds o, lo que es lo mismo, el logaritmo del odds ratio de la dosis 2 con respecto al no tratamiento es 2 veces el logaritmo del odds ratio de la dosis 1, por consiguiente el odds ratio de la dosis 2 es el cuadrado del odds ratio de la dosis 1, o dicho de otro modo, el modelo asume efectos multiplicativos. (ésta es la única asunción del modelo). En general, para un aumento de la variable X desde x0 a x1, siendo δ = x0 - x1
http://www.hrc.es/bioest/Reglog_2.html (3 of 5) [02/01/2003 01:26:56]
Modelo de Regresión logística simple
Ejemplo 4: Para estudiar la posible asociación entre la tuberculosis pulmonar y el contacto con el ganado vacuno se eligen aleatoriamente 100 enfermos y, también aleatoriamente, 100 personas no enfermas y se investiga en ambos grupos dicho contacto. Obsérvese que el diseño del estudio es diferente al de los ejemplos anteriores (ahora es un estudio caso-control), ahora se extraen dos muestras de dos poblaciones diferentes (enfermos y no enfermos). El resultado del estudio puede presentarse también en forma de tabla de doble entrada similar a la del ejemplo 1: sin contacto (X=0)
con contacto (X=1)
enfermos
A
B
no enfermos
C
D
A partir de esta tabla no se pueden estimar p|X=0 ni p|X=1 ya que los datos para X=0 y X=1 no provienen de una única muestra. Dado que se ha muestreado independientemente en enfermos y no enfermos, las probabilidades que sí se pueden estimar a partir de la tabla son p(X=0|E), p(X=0|nE), p(X=1|E) y p(X=1|nE) cuyos estimadores son respectivamente A/(A+B), C/(C+D), B/(A+B) y D/(C+D). Para calcular a partir de ellos p(E|X=0), p(nE|X=0), p(E|X=1) y p(nE|X=1), aplicando el teorema de Bayes, sería necesario conocer p(E) y p(nE), para las que la tabla no ofrece ningún estimador, por consiguiente no se puede estimar el odds para X=0 ni para X=1. Sí se puede, sin embargo, (aplicando el teorema de Bayes) estimar el odds ratio y se obtiene:
Obsérvese que, como en el ejemplo anterior, es también el cociente de los productos cruzados de los elementos de la tabla. Es decir, con el esquema de muestreo de este ejemplo se puede estimar el odds ratio, pero no el odds para X=0, o dicho en términos del modelo logístico, se puede estimar α1, pero no α0. Sin embargo, el estimador de α1 es el mismo que en los ejemplos anteriores que corresponden a un único proceso de muestreo o al muestreo de los estudios de cohorte. Dicho de otro modo, cuando se aplica el modelo logístico a estudios caso-control, el coeficiente α0 no tiene ningún significado, sin embargo el coeficiente α1 significa lo mismo (y se estima del http://www.hrc.es/bioest/Reglog_2.html (4 of 5) [02/01/2003 01:26:56]
Modelo de Regresión logística simple
mismo modo) que en estudios de cohortes.
http://www.hrc.es/bioest/Reglog_2.html (5 of 5) [02/01/2003 01:26:56]
Estimación de los coeficientes
Estimación de los coeficientes Aunque existen otros métodos, el más extendido es el de máxima verosimilitud, que consiste en maximizar la función de verosimilitud de la muestra. Este procedimiento es matemáticamente complejo, pero lo que importa para el usuario es: 1º El proceso es iterativo, es decir se dan a los coeficientes unos valores arbitrarios (habitualmente, aunque no necesariamente, el valor 0). Algunos paquetes estadísticos (p.e. el PRESTA) preguntan por estos valores, otros (p.e. el SPSS o el SAS) no y asumen 0. La solución final no depende de estos valores pero sí el tiempo de cálculo y a veces puede ser necesario "jugar" con ellos (lo veremos más adelante). 2º A partir de estos valores iniciales se construye una matriz Γ con los valores previstos por el modelo para las observaciones de la variable dependiente. 3º A partir de esta matriz y de la matriz X de diseño (construida igual que en regresión lineal), se calculan los nuevos estimadores, que se comprueba si son ya la solución, en cuyo caso se para el proceso y en caso contrario se repite el proceso. En la práctica, y para evitar convergencias asintóticas, también se para el proceso si los nuevos estimadores difieren de los anteriores en menos de una cierta cantidad, llamada límite de convergencia. En este último paso hay que invertir una matriz y eso puede dar problemas (colinealidad) que veremos más adelante. Distribución muestral de los estimadores Hay un teorema (teorema del límite central en la estimación por máxima verosimilitud) que dice estos estimadores son asintóticamente normales y su matriz de varianzas-covarianzas es Σ = -J -1 = -(X'ΓX) -1 y su estimación se calcula, particularizando Σ para los coeficientes estimados. Recordar que las varianzas de los coeficientes están en la diagonal principal de esta matriz.
http://www.hrc.es/bioest/Reglog_3.html [02/01/2003 01:27:17]
Intervalos y contrastes
Estimación por intervalos y contrastes de hipótesis sobre los coeficientes Teniendo en cuenta lo anterior , un intervalo de confianza al (1- α)% para el coeficiente αi es:
Hay que tener en cuenta que los estimadores habituales de la asociación no son los coeficientes αi sino los odds ratio, por lo tanto los intervalos de confianza que interesan calcular son los de los odds ratio. Evidentemente dichos intervalos están dados por:
El estadístico para el contraste: H0: αi = a H1: α i ≠ a siendo a una constante, es:
y la región crítica: |z| > zα/2 o equivalentemente:
que se distribuye como una ji-cuadrado con 1 grado de libertad y, por tanto, la región crítica para el contraste es contrastes de Wald.
. A estos contrastes se les denominan
Un contraste que interesa realizar es α1=0; si no se puede rechazar esta hipótesis indica, salvo problemas de potencia del contraste, que la variable Y no depende de X. Ejemplo 5: Estimar por máxima verosimilitud los parámetros del modelo logístico para los datos del ejemplo 1. Para realizarlo con un paquete estadístico hay que partir de un archivo en que los datos estén individualizados, es decir un archivo con 40 casos (los enfermos) con dos variables una para el tratamiento con los valores 0 y 1 y otra para el resultado, también con dos valores 0: no curación y 1: curación. Sería, por tanto: http://www.hrc.es/bioest/Reglog_4.html (1 of 4) [02/01/2003 01:27:48]
Intervalos y contrastes
Curación
Tratamiento
1
0
.
.
1
0
0
0
.
.
0
0
1
1
.
.
1
1
0
1
0
1
13 casos
7 casos
18 casos
2 casos
y el resultado del procesamiento:
Nótese que la estimación del OR coincide con las obtenidas en el ejemplo 1. El programa ofrece además de las estimaciones de los coeficientes, sus exponenciales, es decir, el odds para X=0 (1,857) y el odds ratio (4,846), así como la ji-cuadrado (prueba de Wald) y su valor p asociado para los contrastes H0: αi=0. Calcula también el intervalo de confianza con un nivel de confianza del 95% para el odds ratio; el hecho de que el intervalo de confianza incluya el 1 es un modo de ver que, con ese nivel de confianza, no hay diferencia significativa entre ambos tratamientos, totalmente equivalente al contraste sobre α1 (p=0,073). Ejemplo 6: En un estudio para ver la dependencia de la dosis en el efecto de un http://www.hrc.es/bioest/Reglog_4.html (2 of 4) [02/01/2003 01:27:48]
Intervalos y contrastes
veneno, se seleccionan aleatoriamente 4 grupos de 4 animales cada uno a los que se suministran distintas dosis (0, 1, 2, 3) del mismo y se observan las muertes provocadas. Los resultados se muestran en la siguiente tabla: Dosis
0
1
2
3
Muertes
0
1
3
3
El resultado de la estimación para la regresión logística es:
El estimador del odds para la dosis 0 (es decir del cociente de la probabilidad de que un animal muera y la probabilidad de que no muera, en el tiempo del experimento, si no se le suministra veneno) es 0,068 (es más probable que sobreviva) aunque no es significativamente distinto de 1 (p=0,052). El estimador del odds ratio para el aumento de una dosis es 4,539 (es decir el odds se multiplica por esa cantidad por cada aumento de dosis) y es significativamente distinto de 1 (p=0,036). ¿Cuál sería el odds para la dosis 2? Se calcula:
también, evidentemente, se puede calcular como:
(la diferencia en la tercera cifra decimal es debida a problemas de precisión) Para realizar el contraste de si es significativamente distinto de 1 hay que estimar su varianza:
http://www.hrc.es/bioest/Reglog_4.html (3 of 4) [02/01/2003 01:27:48]
Intervalos y contrastes
y, por tanto el estadístico para el contraste:
http://www.hrc.es/bioest/Reglog_4.html (4 of 4) [02/01/2003 01:27:48]
Modelo múltiple
Modelo múltiple Es una generalización del modelo simple:
y la interpretación de los coeficientes es también una generalización, es decir, es el odds cuando todas las Xi=0 y es el odds ratio por el aumento de una unidad en la variable Xi manteniendo constantes las otras (controlando por ellas). Nótese que ahora la asunción de "multiplicatividad" del modelo se refiere tanto al aumento dentro de cada variable, como a las distintas variables y como antes, cuando no tiene sentido físico Xi=0, se interpreta como el odds basal, es decir, el odds que no depende de las variables independientes. Los coeficientes se estiman y los contrastes de hipótesis se realizan del mismo modo que en el modelo simple, aunque con el modelo múltiple (igual que en regresión lineal) se pueden hacer contrastes no sólo sobre cada coeficiente, sino también sobre el modelo completo o para comparar modelos (equivalentes a los que en regresión lineal se hacen con la F y la Fpar), que en regresión logística se hacen con el llamado logaritmo del cociente de verosimilitudes (log. likelihood ratio) Ejemplo 7: Estudiar, mediante un modelo de regresión logística, la posible asociación entre el cáncer de vejiga, el consumo de café y el ambiente de residencia. Se eligen 50 pacientes con cáncer y 50 individuos sin la enfermedad y se definen tres variables: CANCER con los valores 0 (no cáncer) y 1 (cáncer), CAFE con los valores 0 (sin consumo de café) y 1 (consumo de café) y MEDIO con los valores 0 (medio rural) y 1 (medio urbano). Los resultados se resumen en la tabla siguiente: café
no café
urbano
rural
urbano
rural
Cáncer
32
1
15
2
no cáncer
15
10
15
10
La salida del programa de ordenador (SPSS) (¿cómo sería el archivo?):
http://www.hrc.es/bioest/Reglog_5.html (1 of 4) [02/01/2003 01:28:19]
Modelo múltiple
La "Ji-cuadrado del modelo" (19,504 è p=0,000) corresponde al contraste para el modelo completo. Aunque también se puede hacer la prueba para comparar un modelo con Café y Medio con otro que sólo contenga Café:
En este caso de un bloque con una sola variable, la prueba sería equivalente a la de Wald para Medio. El que no coincidan exactamente (12,040 la de Wald y 16,864 la del logaritmo del cociente de verosimilitudes) es debido a que ambas son aproximadas. Si la discrepancia fuera muy grande indicaría que el tamaño muestral es pequeño para aplicar estas pruebas. Prueba de Hosmer-Lemeshow Es otra prueba para evaluar la bondad del ajuste de un modelo de regresión logística, aunque su uso está más discutido que la anterior. La idea es si el ajuste es bueno, un valor alto de la p predicha se asociará (con un frecuencia parecida a la p) con el resultado 1 de la variable binomial. Se trata de calcular para cada observación del conjunto de datos las probabilidades de la variable dependiente que predice el modelo, agruparlas y calcular, a partir de ellas, las frecuencias esperadas y compararlas con las observadas mediante la prueba χ2.
Ejemplo 8: La prueba de Hosmer-Lemeshow para el modelo del ejemplo http://www.hrc.es/bioest/Reglog_5.html (2 of 4) [02/01/2003 01:28:19]
Modelo múltiple
anterior da como resultado:
Área bajo la curva ROC La prueba de Hosmer-Lemeshow evalúa un aspecto de la validez del modelo: la calibración (grado en que la probabilidad predicha coincide con la observada). El otro aspecto es la discriminación (grado en que el modelo distingue entre individuos en los que ocurre el evento y los que no). Como medida de la discriminación se usa el área bajo la curva ROC construida para la probabilidad predicha por el modelo, que representa, para todos los pares posibles de individuos formados por un individuo en el que ocurrió el evento y otro en el que no, la proporción de los que el modelo predice una mayor probabilidad para el que tuvo el evento. Para el modelo del ejemplo anterior
http://www.hrc.es/bioest/Reglog_5.html (3 of 4) [02/01/2003 01:28:19]
Modelo múltiple
http://www.hrc.es/bioest/Reglog_5.html (4 of 4) [02/01/2003 01:28:19]
Variables "dummy"
Variables indicadoras ("dummy") En los modelos de regresión logística la "multiplicatividad" se asume. Esto, p.e. para la variable DOSIS del ejemplo 6, quiere decir que el OR para la muerte (variable dependiente) de la DOSIS 2 con respecto a la DOSIS 0 es el cuadrado del OR de la DOSIS 1. ¿Es razonable esta asunción? La solución es la misma que en regresión lineal; crear tantas variables como categorías menos 1 denominadas variables indicadoras con el siguiente esquema X1
X2
X3
Dosis 0
0
0
0
Dosis 1
1
0
0
Dosis 2
0
1
0
Dosis 3
0
0
1
El modelo quedaría
Por lo tanto, para la dosis 0, como las tres variables son 0
es decir
es el odds para la dosis 0
Para la dosis 1 el modelo queda
restando ambas expresiones
por lo tanto
es el OR de la dosis 1 con respecto a la dosis 0, del mismo modo
es el OR de la dosis 2 con respecto a la dosis 0, etc. El segundo esquema de codificación visto en regresión lineal no tienen una clara interpretación en regresión logística, mientras que el tercero tiene una interpretación similar a la http://www.hrc.es/bioest/Reglog_6.html (1 of 2) [02/01/2003 01:29:26]
Variables "dummy"
que tenía allí. Conviene destacar que estas variables indicadoras no tienen ningún sentido por sí solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusión siempre en bloque. Ejercicio propuesto: Para los datos del Ejemplo 6, crear variables "dummy" para la dosis e interpretrar los coeficientes y comentar las diferencias.
http://www.hrc.es/bioest/Reglog_6.html (2 of 2) [02/01/2003 01:29:26]
Interacción y confusión en regresión logística
Interacción y confusión en la regresión logística Los modelos de regresión, como en el caso lineal, pueden usarse con dos objetivos: 1) predictivo en el que el interés del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y 2) estimativo en el que el interés se centra en estimar la relación de una o más variables independientes con la variable dependiente. El segundo objetivo es el más frecuente en estudios etiológicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso. La interacción y la confusión son dos conceptos importantes cuando se usan los modelos de regresión con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras. Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable, a esta última variable se le denomina variable de confusión para la asociación. Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Veamos también aquí estos conceptos sobre los modelos. El modelo más sencillo para estudiar la asociación entre una variable binomial y otra variable X1 es ln(p/q) = α0 + α1X1 donde α1 cuantifica la asociación: es el odds ratio por unidad de cambio en X1. Se dice que X2 es una variable de confusión para esta asociación, si el modelo ln(p/q) = α0 + α1X1 + α2X2 produce una estimación para α1 diferente del modelo anterior. Evidentemente esta definición se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusión si la estimación de α1 obtenida por el modelo ln(p/q) = α0 + α1 X1 + α2 X2 + ... + αk Xk es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimación de α1 obtenida en los modelos múltiples está controlada o ajustada por X2 o por X2 ,..., Xk Contrastar la existencia de confusión requiere, por lo tanto, comparar los http://www.hrc.es/bioest/Reglog_7.html (1 of 6) [02/01/2003 01:29:57]
Interacción y confusión en regresión logística
coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Lo habitual es considerar que existe confusión cuando la exponencial del coeficiente (el OR) cambia en más del 10%. El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es ln(p/q) = α0 + α1 X1 + α2 X2 + α3 X1 X2 En este modelo, el logaritmo del odds para unos valores determinados x1, x2 de X1, X2 es ln(p/q) = α0 + α1 x1 + α2 x2 + α3 x1 x2 y para los valores x1 + 1 y x2 ln(p/q) = α0 + α1(x1 + 1) + α2 x2 + α3 (x1 + 1) x2 = α0 + α1 x1 + α1 + α2 x2 + α3 x1 x2 + α3 x2 restando ambas se encuentra el cambio en ln(p/q) por una unidad de cambio en X1 manteniendo fijo X2 α1 + α3 x2 o dicho de otra manera, el odds ratio por una unidad de cambio en X1 manteniendo fijo X2 es
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en ln(p/q) por una unidad de cambio en X2 manteniendo fijo X1 es α2 + α3 x1, o en términos del OR, el odds ratio por una unidad de cambio en X2 manteniendo fijo X1 es
Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si http://www.hrc.es/bioest/Reglog_7.html (2 of 6) [02/01/2003 01:29:57]
Interacción y confusión en regresión logística
el coeficiente α3 es cero (no hay interacción), o distinto de cero (existe interacción). Nótese que para poder interpretar así este contraste es necesario que en el modelo figuren las variables X1, X2 y X1X2. En caso de que exista interacción los coeficientes los exponenciales de α1 y α2 por sí solos no significan nada y la asociación de las variables X1 y X2 con la binomial estará cuantificada por las expresiones anteriores. Es obvio que primero debe contrastarse la interacción y después, en caso de que no exista, la confusión. Ejemplo 9: Estudiar para los datos del ejemplo 7 la posible interacción y/o confusión. Para estudiar interacción hay que crear la variable producto CAFXME. El modelo completo es:
como ya se dijo antes, para este esquema de muestreo el coeficiente α0 no significa nada, α1 es el aumento del logaritmo del odds por consumir café en un ambiente rural, α2 es el aumento del logaritmo del odds por vivir en un ambiente urbano, con respecto al rural, sin consumir café y α3 modeliza la posible interacción o dicho en otros términos el "sobreaumento" por ambas cosas (consumir café en un medio urbano). El primer contraste a realizar es sobre la interacción, es decir, H0: α3=0. La salida del SPSS para este modelo es:
Con la prueba del logaritmo del cociente de verosimilitudes, el modelo completo http://www.hrc.es/bioest/Reglog_7.html (3 of 6) [02/01/2003 01:29:57]
Interacción y confusión en regresión logística
es significativo (p=0,000). Con la prueba de Wald para el término de interacción, no se puede rechazar (p=0,296) la hipótesis nula de no existencia de interacción y, por tanto, habría que volver a ajustar a un modelo que tuviera solamente las variable CAFE y MEDIO (el del ejemplo 7). Sin embargo, y a efectos didácticos, se va a estudiar el efecto de un error de tipo II en dicho contraste. Supóngase, por lo tanto, que el coeficiente α3 es realmente distinto de 0. En este caso no puede hablarse de un odds ratio para el café, sino que habría un odds ratio para el café en el medio rural y otro distinto en el medio urbano. Según el modelo, el odds ratio estimado para el café en el medio rural es:
y su intervalo de confianza al 95%:
Nótese que éste es el intervalo de confianza que presenta el programa cuya salida se está analizando. No presenta, sin embargo, el que se va a calcular ahora. En general, los paquetes estadísticos calculan los intervalos de confianza asumiendo que no hay términos de interacción y, por tanto, son sólo parcialmente válidos cuando existe interacción. Ahora, el odds ratio estimado para el café en el medio urbano es:
para calcular su intervalo de confianza se necesita estimar la varianza de
y, por tanto, su intervalo de confianza al 95%:
Obsérvese que en el caso de que exista interacción, los resultados son http://www.hrc.es/bioest/Reglog_7.html (4 of 6) [02/01/2003 01:29:57]
Interacción y confusión en regresión logística
radicalmente distintos para el medio urbano (el odds ratio para el café es 2,134) que para el medio rural (el odds ratio para el café es 0,5). Si se comparan estos resultados con los del modelo sin el término de interacción:
se observa, como era de esperar, un estimador para el odds ratio del café, intermedio entre los calculados en el supuesto anterior. Conviene, por consiguiente, calcular la potencia del contraste con el que se rechazó la existencia de interacción. El contraste fue: H0: α3 = 0 H1: α3 ≠ 0 y la potencia es: 1 – β = Prob(rechazar H0|H1 verdadera). Con el nivel de significación α=0,05, se rechaza H0 si
es decir si
Concretando H1, por ejemplo α3=1, se trata de calcular la probabilidad de encontrar
si α3 fuera 1. Teniendo en cuenta la normalidad de
:
es decir, la potencia del contraste es efectivamente muy baja y habría que ser muy prudente a la hora de comunicar los resultados de este estudio. http://www.hrc.es/bioest/Reglog_7.html (5 of 6) [02/01/2003 01:29:57]
Interacción y confusión en regresión logística
http://www.hrc.es/bioest/Reglog_7.html (6 of 6) [02/01/2003 01:29:57]
Estrategias de modelización
Estrategias de modelización Debido a los dos objetivos distintos que un análisis de regresión puede tener es difícil establecer una estrategia general para encontrar el mejor modelo de regresión, es más, el mejor modelo significa cosas distintas con cada objetivo. En un análisis predictivo el mejor modelo es el que produce predicciones más fiables para una nueva observación, mientras que en un análisis estimativo el mejor modelo es el que produce estimaciones más precisas para el coeficiente de la variable de interés. En ambos casos se prefiere el modelo más sencillo posible (a este modo de seleccionar modelos se le denomina parsimonia), de modo que en un análisis estimativo, se puede excluir del modelo una variable que tenga un coeficiente significativamente distinto de cero y que su contribución a la predicción de la variable dependiente sea importante, porque no sea variable de confusión para la variable de interés (el coeficiente de dicha variable no cambia), en un análisis predictivo esa variable no se excluiría. Sin embargo, hay una serie de pasos que deben realizarse siempre: i) Especificación del modelo máximo. ii) Especificación de un criterio de comparación de modelos y definición de una estrategia para realizarla. iii) Evaluación de la fiabilidad del modelo. i) Especificación del modelo máximo Se trata de establecer todas las variables que van a ser consideradas. Recuérdese que el modelo saturado (el máximo que se puede considerar) tiene n - 1 variables pero que, en general, el modelo saturado no tiene interés y el modelo máximo deberá tener menos variables independientes que el modelo saturado (un criterio habitual es incluir como máximo una variable cada 10 eventos). El criterio para decidir qué variables forman el modelo máximo lo establece el investigador en función de sus objetivos y del conocimiento teórico que tenga sobre el problema, evidentemente cuanto menor sea el conocimiento previo mayor tenderá a ser el modelo máximo. Un modelo máximo grande minimiza la probabilidad de error tipo II o infraajuste, que en un análisis de regresión consiste en no considerar una variable que realmente tiene un coeficiente de regresión distinto de cero. Un modelo máximo pequeño minimiza la probabilidad de error tipo I o sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de regresión realmente sea cero). Debe tenerse en cuenta también que un sobreajuste, en general, no introduce http://www.hrc.es/bioest/Reglog_71.html (1 of 7) [02/01/2003 01:30:34]
Estrategias de modelización
sesgos en la estimación de los coeficientes (los coeficientes de las otras variables no cambian), mientras que un infraajuste puede producirlos, pero que un modelo máximo grande aumenta la probabilidad de problemas de colinealidad. En el modelo máximo deben considerarse también los términos de interacción que se van a introducir (en un modelo estimativo sólo interesan interacciones entre la variable de interés y las otras) ii) Comparación de modelos Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios estadísticos sugeridos para comparar modelos, el más frecuentemente usado es el logaritmo del cociente de verosimilitudes, recordando que cuando los dos modelos sólo difieren en una variable, el contraste con el logaritmo del cociente de verosimilitudes es equivalente al contraste de Wald, pero a veces interesa contrastar varias variables conjuntamente mejor que una a una (por ejemplo todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo para variables indicadoras). Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir variables distintas a las de interés, es sobre todo los cambios en los coeficientes y no los cambios en la significación del modelo. Los distintos modelos a comparar se pueden construir de dos formas: por eliminación o hacia atrás ("backward") y por inclusión o hacia adelante ("forward"). Con la primera estrategia, se ajusta el modelo máximo y se calcula el logaritmo del cociente de verosimilitudes para cada variable como si fuera la última introducida (que es equivalente al contraste de Wald para esa variable), se elige el menor de ellos y se contrasta con el nivel de significación elegido. Si es mayor o igual que el valor crítico se adopta este modelo como resultado del análisis y si es menor se elimina esa variable y se vuelve a repetir todo el proceso hasta que no se pueda eliminar ninguna variable. Con la estrategia hacia adelante, se empieza con un modelo de una variable, aquella que presente el mejor logaritmo del cociente de verosimilitudes. Se calcula el logaritmo del cociente de verosimilitudes para la inclusión de todas las demás, se elige el menor de ellos y se contrasta con el nivel de significación elegido. Si es menor que el valor crítico, se para el proceso y se elige el modelo simple como mejor modelo, y si es mayor o igual que dicho valor crítico, esa variable se incluye en el modelo y se vuelve a calcular el logaritmo del cociente de verosimilitudes para la inclusión de cada una de todas las restantes, y así sucesivamente hasta que no se pueda incluir ninguna más. Una modificación de esta última estrategia es la denominada "stepwise" que http://www.hrc.es/bioest/Reglog_71.html (2 of 7) [02/01/2003 01:30:34]
Estrategias de modelización
consiste en que, cada vez que con el criterio anterior se incluye una variable, se calculan los logaritmos del cociente de verosimilitudes de todas las incluidas hasta ese momento como si fueran las últimas y la variable con menor logaritmo del cociente de verosimilitudes no significativo, si la hubiera, se elimina. Se vuelven a calcular los logaritmos del cociente de verosimilitudes y se continua añadiendo y eliminando variables hasta que el modelo sea estable. Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se puede contrastar varias variables en lugar de una sola y que, en aplicación del principio jerárquico, cuando se contrasta un término de interacción, el modelo debe incluir todos los términos de orden inferior y, si como resultado del contraste, dicho término permanece en el modelo, también ellos deben permanecer en el mismo, aunque no se pueda rechazar que los coeficientes correspondientes no son distintos de cero. En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias automáticamente (con un paquete estadístico, por ejemplo) por lo que se ha comentado más arriba sobre los distintos criterios dependiendo del objetivo del estudio, los términos de interacción y las variables indicadoras. Ejemplo 10 Estimar el efecto de los receptores de progesterona en la mortalidad de pacientes operadas de cáncer de mama. Datos: serie de 152 mujeres operadas entre Oct 89 y Ene 92; 51 de ellas muertas por el tumor. Tenemos: las fechas de nacimiento y cirugía, grado histológico (1, 2 y 3), tamaño del tumor (en cm), número de ganglios afectados, y receptores de estrógenos y progesterona. El modelo máximo estaría formado por las variables: receptores de progesterona (por ser la variable de interés), estrógenos, edad, tamaño, grado y número de ganglios (por si son variables de confusión); podemos considerar también el término de interacción entre los receptores de progesterona y el tamaño; como grado histológico está codificado en 3 niveles podría ser conveniente analizarlo a través de 2 variables indicadoras Para decidir si grado histológico se introduce en el modelo como está o con variables indicadoras, se compara el modelo que la contenga como está con otro que tenga las indicadoras.
a) modelo con grado histológico en una sola variable
http://www.hrc.es/bioest/Reglog_71.html (3 of 7) [02/01/2003 01:30:34]
Estrategias de modelización
b) modelo con grado histológico con dos variables indicadoras
De acuerdo a la prueba del logaritmo del cociente de verosimilitudes, el modelo ajusta ligeramente peor con las variables indicadoras, se observa también que la variable no cumple la asunción de “multiplicatividad” (el coeficiente de la indicadora GRADO(2) (1,882) no es el doble del de GRADO(1) (1,398) o, equivalentemente, el OR correspondiente a GRADO(2) (6,569) no es el cuadrado del correspondiente a GRADO(1) (4,045), si bien la estimación de ambos ORs es muy imprecisa (ICs tan amplios que incluyen la desviación de la multiplicatividad) debido a que sólo hay 10 individuos en la categoría que se está usando como referencia. En consecuencia, usaremos la variable original. Hay que resaltar que solo hay 51 eventos, que son insuficientes para estudiar un modelo máximo de 7 variables Se ajusta el modelo máximo
http://www.hrc.es/bioest/Reglog_71.html (4 of 7) [02/01/2003 01:30:34]
Estrategias de modelización
La variable menos significativa es EDAD, la eliminamos para evaluar si es variable de confusión.
Ni el OR de RP, ni el de RP por TAMAÑO han cambiado, por lo tanto EDAD no es una variable de confusión y puede ser eliminada; la menos significativa ahora es RP, que no puede ser eliminada en este punto (por el principio jerárquico y por ser nuestra variable de interés), la siguiente es RE, que la eliminamos
http://www.hrc.es/bioest/Reglog_71.html (5 of 7) [02/01/2003 01:30:34]
Estrategias de modelización
Tampoco ahora han cambiado ni el OR de RP, ni el de RP por TAMAÑO, por lo tanto RE no es una variable de confusión y puede ser eliminada; la menos significativa ahora es RP, que por las mismas razones que antes no puede ser eliminada y la siguiente RP por TAMAÑO, que es la que eliminamos (no existe interacción entre RP y TAMAÑO).
La menos significativa es GRADO
El OR de RP no ha cambiado, por tanto se puede eliminar GRADO; la menos significativa ahora es TAMAÑO
http://www.hrc.es/bioest/Reglog_71.html (6 of 7) [02/01/2003 01:30:34]
Estrategias de modelización
que tampoco es variable de confusión y por lo tanto puede ser eliminada. La variable GANGLIO es significativa, pero en aplicación del principio de parsimonia podría eliminarse del modelo si no fuera variable de confusión
Efectivamente no es variable de confusión y este último será el modelo final. iii) Evaluación de la fiabilidad del modelo Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir, evaluar si se comporta igual en otras muestras extraídas de la misma población (reproducibilidad) y/o de otras similares (transportabilidad). Lo veremos con detalle más adelante
Otras lecturas Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las aplicaciones biomédicas de la regresión múltiple. Medicina Clínica. 2001;116:741-745.
http://www.hrc.es/bioest/Reglog_71.html (7 of 7) [02/01/2003 01:30:34]
Reglog
La colinealidad en regresión logística Observando la fórmula para la estimación de los coeficientes y la de la matriz de varianzas de los mismos, se comprueba que la matriz J=X’ΓX juega, en la regresión logística, el mismo papel que la X'X en la regresión lineal, es decir, hay que invertirla tanto para estimar los coeficientes como sus varianzas. Por consiguiente, si la matriz J es singular el modelo es irresoluble y si es casisingular existen problemas de precisión numérica y estadística, siendo, además, inestable la estimación. Aunque, estrictamente, no es un problema de colinealidad (aparece la matriz Γ y por lo tanto no es la colinealidad entre variables lo que hace que dicha matriz sea singular) se sigue hablando, por analogía, de colinealidad y, lo que es más importante, el diagnóstico de la misma se hace de la misma manera, es decir, calculando los índices de condición para la matriz J, también escalada para que su diagonal principal esté formada por unos, y calculando a partir de los autovectores de la misma, la matriz de descomposición de la varianza de los estimadores. Evidentemente, por no ser un problema de colinealidad, el factor de inflación de la varianza no es útil ahora. Una dificultad añadida en la regresión logística es que la matriz J no depende sólo de los datos, sino también de los coeficientes del modelo (a través de Γ) y pudiera darse el caso de que, en el proceso iterativo de estimación y para unos ciertos valores iniciales de los coeficientes, J fuera singular en algún paso del proceso alejado de la solución final y que, sin embargo, si se partiera de otros valores iniciales se pudiera acabar la estimación sin problemas. También puede ocurrir que, debido a la falta de precisión ligada a la casi-colinealidad de algún paso intermedio, el método de Newton-Raphson no convergiera para unos valores iniciales y, sin embargo, sí convergiera para otros. En caso de que aparezcan estos problemas, un modo de minimizarlos es, ayudándose del diagnóstico de colinealidad, intentar la estimación con distintos valores iniciales, incluyendo estimaciones aproximadas de los coeficientes. Ejemplo 10 Realizar el diagnóstico de colinealidad para el modelo del ejemplo 9. El SPSS (ver 10.0) no realiza el diagnóstico de colinealidad, de modo que la salida que se presenta aquí es la del PRESTA. Para los coeficientes estimados, los índices de condición y la matriz de descomposición de varianzas son: REGRESION LOGISTICA CON LOS COEFICIENTES Const.: -1.6094 1.4508
CAFE: -.6932
FACTOR
AUTOVALOR
http://www.hrc.es/bioest/Reglog_8.html (1 of 2) [02/01/2003 01:32:13]
MEDIO: 1.6094
INDICE CONDICION
CAFXME:
Reglog
1
3.41484
1.00000
2
.47826
2.67211
3
.08687
6.26991
4
.02004
13.05337
PROPORCION DE VARIANZA EN LOS FACTORES FACTOR
Const.
CAFE
MEDIO
CAFXME
1
.0059
.0039
.0057
.0037
2
.0472
.0273
.0370
.0264
3
.3060
.1064
.3113
.0878
4
.6409
.8624
.6460
.8821
El mayor índice de condición es 13,05; por lo tanto para este modelo no aparecen problemas de colinealidad.
http://www.hrc.es/bioest/Reglog_8.html (2 of 2) [02/01/2003 01:32:13]
Regresión logística condicional
Regresión logística condicional La función de verosimilitud a partir de la que se estiman los coeficientes del modelo logístico, asume que los datos son una muestra aleatoria de una variable binomial puntual. Es, junto con el modelo, la única asunción para la estimación y los contrastes de hipótesis realizados. Sin embargo, y como se ha visto en algunos ejemplos, cuando se estudian variables binomiales con baja probabilidad (por ejemplo, enfermedades raras) se suelen usar otros esquemas de muestreo. Sería muy poco eficiente elegir una muestra aleatoria de la población para estudiar, por ejemplo, algún tipo de cáncer, ya que se necesitaría un gran tamaño muestral para que hubiera suficientes enfermos en la muestra. Es por ello por lo que se usa el esquema casocontrol o el llamado esquema apareado en el que el muestreo en las dos poblaciones se hace introduciendo restricciones para que las muestras de ambas queden en estratos homogéneos con respecto a alguna variable ajena a las variables de interés. Por ejemplo, y para evitar la posible confusión debida a la edad, en el problema del ejemplo 7, se muestrearía de tal modo que los enfermos y los no enfermos quedaran en estratos homogéneos según grupos de edad, es decir, se definirían, por ejemplo, 5 grupos de edad y se muestrearía independientemente para cada uno de ellos 10 enfermos y 10 no enfermos. Evidentemente, el esquema caso-control es un caso particular del esquema apareado (un sólo estrato) y la función de verosimilitud para ambos tipos de estudios no es la considerada hasta ahora que se conoce como función de verosimilitud no condicional y la estimación basada en ella como estimación no condicional. Existe también la llamada función de verosimilitud condicional aplicable a los estudios apareados. Conviene destacar que, no obstante, se puede demostrar que en los diseños casocontrol, si las probabilidades de elegir a los individuos en ambos grupos son independientes de las variables independientes del modelo, las estimaciones, tanto de los coeficientes como de su matriz de varianzas, a partir de las funciones de verosimilitud condicional y no condicional producen los mismos resultados, aunque, como ya se ha dicho en este caso el coeficiente α0 no tiene ningún significado. Hay que destacar también el riesgo de sesgo en la estimación si no se cumple la condición anterior (y no siempre es fácil de cumplir), sobre todo cuando el tamaño muestral es pequeño. En la práctica, debido al enorme tiempo de cálculo necesario, la función condicional sólo se usa para estudios apareados y para estudios caso-control de pequeño tamaño muestral. Para estudios caso-control de tamaño muestral grande se usa la estimación no condicional. El límite entre qué se entiende aquí por grande y pequeño lo establece el tiempo de cálculo. Ejemplo 11 Un diseño típico de un estudio apareado es el siguiente: para estudiar, p.e., la asociación entre la hepatitis B y el consumo de alcohol se seleccionan al azar 10 enfermos de hepatitis y para cada uno de ellos se selecciona también al azar 2 personas no enfermas con su mismo sexo y edad (es una manera de evitar que influyan en el resultado los distintos hábitos alcohólicos de los distintos grupos de edad y sexo) y para todos ellos se registra el consumo diario de alcohol en gramos y el consumo de otras drogas como 0: no y 1: sí. Se han creado, por tanto, 10 estratos y http://www.hrc.es/bioest/Reglog_9.html (1 of 5) [02/01/2003 01:33:36]
Regresión logística condicional
en cada uno de ellos el muestreo es independiente, por tanto la función de verosimilitud a usar es la condicional. Unos resultados hipotéticos, codificando 0: hepatitis y 1: no hepatitis, pueden ser: hepatitis
alcohol
drogas
estrato
0
15
1
1
1
10
0
1
1
0
0
1
0
70
1
2
1
20
0
2
1
30
0
2
0
40
1
3
1
40
0
3
1
0
0
3
0
10
0
4
1
20
1
4
1
50
0
4
0
30
1
5
1
10
0
5
1
20
0
5
0
80
0
6
1
20
0
6
1
30
0
6
0
50
1
7
1
35
0
7
1
10
0
7
0
60
1
8
1
5
0
8
1
10
0
8
http://www.hrc.es/bioest/Reglog_9.html (2 of 5) [02/01/2003 01:33:36]
Regresión logística condicional
0
90
0
9
1
65
0
9
1
5
0
9
0
30
1
10
1
10
0
10
1
40
0
10
Para realizar el análisis de estos datos usando regresión logística condicional (con el PRESTA) y con una estrategia hacia adelante se empezaría con el modelo simple: NOMBRE DE LOS DATOS: hepati VARIABLE DEPENDIENTE: HEPA NUMERO DE VARIABLES INDEPENDIENTES: 1 A SABER ALCO NUMERO DE ESTRATOS: 10 DEFINIDOS POR ESTRA NUMERO MAXIMO DE ITERACIONES: 20 CONVERGENCIA OBTENIDA EN 6 ITERACIONES VARIABLE ALCO
ALFA
EXP(ALFA)
EE. ALFA
Ji2
p
.06021
1.06206
.02824
4.54553
.03116
LOG. MAX. VEROSIMILITUD= -6.78267 Ji-Cuadrado= 8.40690 G.L.= 1 p= .00387 INTERVALOS DE CONFIANZA AL 95% DE LOS "ODDS RATIO" ALCO 1.00487 1.12251
Se encuentra una asociación significativa tanto con la prueba de Wald como con la del logaritmo del cociente de verosimilitudes. Nótese que el odds ratio de 1,06 es por aumento de 1 gramo en el consumo diario de alcohol. Se ajusta ahora a un modelo que contenga también el consumo de otras drogas y, en aplicación del principio jerárquico, el término de interacción (una variable que sea el producto de las variables drogas y alcohol) entre ambas. NOMBRE DE LOS DATOS: hepati VARIABLE DEPENDIENTE: HEPA NUMERO DE VARIABLES INDEPENDIENTES: 3 A SABER ALCO DROGA ALXDRO CONVERGENCIA OBTENIDA EN 8 ITERACIONES http://www.hrc.es/bioest/Reglog_9.html (3 of 5) [02/01/2003 01:33:36]
Regresión logística condicional
VARIABLE ALCO DROGA ALXDRO
ALFA
EXP(ALFA)
EE. ALFA
Ji2
p
.04189
1.04278
.03264
1.64746
.19615
-1.27025
.28076
4.20961
.09105
.76070
.14089
1.15129
.19227
.53691
.52955
LOG. MAX. VEROSIMILITUD= -3.73498 Ji-Cuadrado= 14.50229 Ji-Cuadrado modelo anterior= 6.09539
G.L.= 3 G.L.= 2
p= .00247 p= .04620
Comparando ambos modelos con la prueba del logaritmo del cociente de verosimilitudes, este último modelo es significativamente mejor que el anterior (p=0,0462) aunque ninguna de las dos nuevas variables por separado lo sea. Como la variable de interacción no es significativa se quitaría, y se ajustaría este otro modelo: NOMBRE DE LOS DATOS: hepati VARIABLE DEPENDIENTE: HEPA NUMERO DE VARIABLES INDEPENDIENTES: 2 A SABER ALCO DROGA CONVERGENCIA OBTENIDA EN 6 ITERACIONES VARIABLE ALCO DROGA
ALFA
EXP(ALFA)
EE. ALFA
Ji2
p
.04874
1.04994
.03298
2.18412
.13515
2.16908
8.75026
1.12496
3.71771
.05089
LOG. MAX. VEROSIMILITUD= -4.19040 Ji-Cuadrado= 13.59144 G.L.= 2 Ji-Cuadrado modelo anterior= .91086 G.L.= 1
p= .00128 p= .65808
INTERVALOS DE CONFIANZA AL 95% DE LOS "ODDS RATIO" ALCO .98423 1.12005 DROGA .96479 79.36140
La significación global del modelo ha mejorado aunque ambos modelos no son significativamente diferentes (p=0,65808); si se compara este último con el primero con la prueba del logaritmo del cociente de verosimilitudes W=2(-4,1904-(6,78267))=5,18454 ⇒ p=0,02161; por lo tanto este modelo es mejor que el primero que sólo contenía el alcohol, y aunque la prueba de Wald para DROGA está en el borde (p=0,05089), se aceptaría éste como mejor modelo. El objetivo del estudio es, sin embargo, encontrar la asociación con el alcohol, por consiguiente la variable DROGA sólo interesa como factor de confusión, con independencia de su significación estadística, en este sentido se aprecia una ligera disminución de la asociación (OR=1,04994 en el último modelo frente a OR=1,06206 del primero) junto a la desaparición de su significación estadística (con tan pocos datos puede tratarse de un http://www.hrc.es/bioest/Reglog_9.html (4 of 5) [02/01/2003 01:33:36]
Regresión logística condicional
problema de potencia). El investigador deberá decidir si este cambio constituye un efecto de confusión y en caso contrario volver al primer modelo.
http://www.hrc.es/bioest/Reglog_9.html (5 of 5) [02/01/2003 01:33:36]
Evaluación de los modelos de regresión logística
Evaluación de los modelos de regresión logística (no condicional) Como en regresión lineal, una vez encontrado el mejor modelo, hay que validarlo, es decir ver si “trabaja” igual con otros individuos distintos de aquellos con los que se ha generado (1). Qué significa “trabajar” es diferente según el objetivo del modelo. En un modelo estimativo se trata de ver si se obtiene el mismo odds ratio para la variable de interés. Aquí nos vamos a enfocar en los modelos predictivos en los que validar significa ver si el modelo predice bien la variable dependiente en un nuevo individuo. Ello implica dos conceptos relacionados (2), validez (“accuracy”) y generalizabilidad (“generalizability”). La validez es el grado en que las predicciones coinciden con las observaciones y tiene dos componentes: calibración y discriminación. La calibración compara el número predicho de eventos con el número observado en grupos de individuos, mientras que la discriminación evalúa el grado en que el modelo distingue entre individuos en los que ocurre el evento y los que no. Por ejemplo, se ha ajustado un modelo logístico para predecir muerte en la UCI (3), si la mortalidad observada en la muestra es 27%, el modelo estará perfectamente calibrado si predice una mortalidad de 27%, sin embargo podría no distinguir entre los pacientes que mueren y los que sobreviven. A la inversa, si el modelo asignara una probabilidad de muerte de 2% a todos los pacientes que sobreviven y una probabilidad de 4% a todos los que mueren, el modelo tendría una perfecta discriminación, pero estaría pobremente calibrado. La generalizabilidad es la capacidad del modelo de realizar predicciones válidas en individuos diferentes de aquellos en los que se ha generado y tiene también dos componentes: reproducibilidad (capacidad del modelo de realizar predicciones válidas en individuos no incluidos en la muestra con la que se ha generado, pero procedentes de la misma población) y transportabilidad (capacidad de realizar predicciones válidas en pacientes procedentes de una población distinta pero relacionada). La reproducibilidad, por tanto, se evaluará en otras muestras obtenidas de la misma población, o usando técnicas de “re-muestreo” (2) en la misma muestra, o dividiendo aleatoriamente la muestra en dos grupos: en uno de ellos (grupo de trabajo) se ajusta el modelo y en el otro (grupo de validación) se valida. La transportabilidad exigirá una muestra de la otra población. La prueba estadística que evalúa la calibración es la de Hosmer-Lemeshow, aplicada sobre la misma muestra de trabajo (validez interna) o sobre la muestra, o el grupo, de validación (generalizabilidad). Si el modelo no estuviera bien calibrado puede adaptarse mediante una regresión logística cuya única variable independiente es el logit, es decir la expresión ln(p/q), del modelo original (3). Una vez adaptado es preciso evaluar de nuevo su calibración. Como medida de discriminación se utiliza el área bajo la curva ROC que representa para todos los pares posibles de individuos formados por un http://www.hrc.es/bioest/Reglog_10.html (1 of 2) [02/01/2003 01:34:06]
Evaluación de los modelos de regresión logística
individuo en el que ocurrió el evento y otro en el que no, la proporción de los que el modelo predice una mayor probabilidad para el que tuvo el evento. A partir de un área de 0,7 la discriminación del modelo se considera aceptable. Otras lecturas recomendadas 1. What do we mean by validating a prognostic model? Altman DG, Royston P. Statist Med. 19: 453-473. 2000. 2. Assessing the generalizability of prognostic information. Justice AC. et al. Ann Intern Med. 130: 515-524. 1999. 3. Utilización de los modelos probabilísticos de mortalidad (MPM II) para evaluar la efectividad de la atención a pacientes en estado crítico. Rué Monné M. et al. Med Clin (Barc). 106: 565-570. 1996.
http://www.hrc.es/bioest/Reglog_10.html (2 of 2) [02/01/2003 01:34:06]
REGRESIÓN DE POISSON
REGRESIÓN DE POISSON V. Abraira Bibliografía: V. Abraira, A.Pérez de Vargas Métodos Multivariantes en Bioestadística. Ed. Centro de Estudios Ramón Areces. 1996.
Variables de Poisson Una variable es de Poisson cuando es el número de eventos que ocurren en un intervalo temporal o espacial de tamaño dado (s), cumpliendo las siguientes condiciones: Ø el número de eventos que ocurren en el intervalo es independiente del
número de los que ocurren fuera del mismo. Ø existe un intervalo lo suficientemente pequeño, de tamaño h, para el que la probabilidad de que en el mismo ocurra un sólo evento es proporcional al tamaño del intervalo, es decir es λh, siendo por tanto λ (constante) la probabilidad de que ocurra un evento en un intervalo de tamaño unidad. Ø la probabilidad de que en cualquier intervalo de tamaño h ocurran dos o más eventos, es prácticamente 0.
Ejemplos de este tipo de variables, con intervalos temporales, son: número de llamadas que recibe una central telefónica en una hora, número de accidentes, durante un año, en un cruce de carreteras, número de mutaciones que perduran en una especie, durante un milenio. Ejemplos con intervalos espaciales: número de células en el campo del microscopio; número de bacterias patógenas en un estanque, etc. A veces se usan variables de Poisson con "intervalos" que no son espaciales ni temporales sino de otro tipo. Por ejemplo, para medir la frecuencia de una enfermedad se puede contar, en un tiempo dado, el número de enfermos en una cierta población, dividida en "intervalos" de, por ejemplo, 10.000 habitantes. Al número de personas enfermas en una población de tamaño prefijado, en un instante de tiempo, se le denomina prevalencia de la enfermedad en ese instante y es, por tanto, una variable de Poisson. Otra medida para la frecuencia de una enfermedad, es la incidencia, que es el número de personas que enferman en una población susceptible de enfermar, en un periodo de tiempo determinado. En este caso el intervalo es de personas-tiempo, habitualmente personas-año, y es también una variable de Poisson. Habitualmente ambas medidas se expresan para intervalos de tamaño unidad, o dicho de otro modo, http://www.hrc.es/bioest/Poisson_1.html (1 of 2) [02/01/2003 01:34:49]
REGRESIÓN DE POISSON
en lugar de la variable número de enfermos, se usa el parámetro λ (el riesgo, en el caso de la prevalencia, y la densidad de incidencia, en el de incidencia). La función densidad de probabilidad para una variable de Poisson es:
siendo s el tamaño del intervalo. La media y la varianza de esta variable son ambas iguales a λs. La variable está caracterizada por el parámetro λ (probabilidad de una ocurrencia en la unidad de medida) y por el tamaño del intervalo s. Un modelo de regresión para una variable de Poisson es un modelo que permite estudiar si dicha variable depende, o no, de otra u otras variables. Si una variable de Poisson de parámetro λ es independiente de otra variable X, se , por consiguiente, un modelo de regresión es una función de λ cumple en X que a través del coeficiente de X permite investigar la relación anterior, y como en los modelos lineal y logístico, fácilmente generalizable a más variables independientes.
http://www.hrc.es/bioest/Poisson_1.html (2 of 2) [02/01/2003 01:34:49]
Modelo de regresión de Poisson
Modelo de regresión de Poisson Para una única variable independiente X, es un modelo de la forma:
o, para simplificar la notación, simplemente:
donde ln significa logaritmo neperiano, α0 y α1 son constantes y X una variable que puede ser aleatoria o no, continua o discreta. Este modelo se puede fácilmente generalizar para k variables independientes:
Por lo tanto α0 es el logaritmo de λ (probabilidad de que ocurra un evento en un intervalo de tamaño unidad) cuando todas las variables independientes son cero, y αi es el cambio en el logaritmo de λ (o logaritmo del cociente de λ) cuando la variable Xi aumenta una unidad, manteniéndose constantes las demás o, dicho de otro modo,
es la probabilidad de que ocurra un evento en
el un intervalo unidad cuando todas las variables independientes son cero y cociente de dicha probabilidad para un aumento de una unidad en la variable Xi (riesgo relativo). Obsérvese que, al igual que en la regresión logística, el modelo supone efectos multiplicativos, es decir, si la variable Xi aumenta n unidades, la probabilidad para la variable de Poisson se multiplica por
es decir,
la potencia n-ésima de Teniendo en cuenta, que para una variable de Poisson: µ = λs el modelo también se puede poner en función de µ como:
Ejemplo Se quiere comparar la incidencia de cáncer de piel en 2 ciudades, para ello se registran los cánceres de piel aparecidos en el último año, 18 para la ciudad A y 30 para la B, cuyas poblaciones respectivas son 350.000 y 410.000. Se trata de variables de Poisson con intervalo de personas-tiempo. Asumiendo que ambas poblaciones se han mantenido constantes a lo largo de ese año y que todos los individuos eran susceptibles de enfermar, los tamaños de los http://www.hrc.es/bioest/Poisson_2.html (1 of 2) [02/01/2003 01:35:51]
Modelo de regresión de Poisson
intervalos son respectivamente 350.000 y 410.000 personas-año y la mejor estimación de las densidades de incidencia:
Definiendo la variable X = 0 para la ciudad A y X = 1 para la B, estos resultados se pueden expresar con un modelo de regresión, siendo:
el logaritmo de la densidad de incidencia en la ciudad A y razón de densidades de incidencia, es decir:
el logaritmo de la
Por lo tanto, la densidad de incidencia en B es 1,423 la de A (42,3% más alta). Evidentemente, para comparar ambas incidencias, simplemente hay que comparar
con cero o
con 1.
Se puede plantear que esta diferencia en las incidencias pueda ser debida, simplemente, a que ambas ciudades tengan una distinta pirámide de población (es sabido que la incidencia del cáncer es distinta para distintos grupos de edad) o quizás, y sería una hipótesis más interesante a investigar, a algún otro factor. Si se conoce la distribución de las poblaciones para los distintos grupos de edad, así como el grupo al que pertenece cada enfermo, se puede plantear un modelo:
siendo X1 la ciudad y X2 el grupo de edad. En este modelo α1 es la razón de densidades de incidencia para ambas ciudades controlando por la edad. Si α1 es distinto de 0, se puede concluir que existe algún factor, distinto de la edad, en ambas ciudades que incide en el cáncer de piel.
http://www.hrc.es/bioest/Poisson_2.html (2 of 2) [02/01/2003 01:35:51]
Estimación de los coeficientes de un modelo de regresión de Poisson
Estimación de los coeficientes Para estimar los coeficientes de un modelo de Poisson se utiliza el método de máxima verosimilitud.Este procedimiento es matemáticamente complejo, pero lo que importa para el usuario es: 1º El proceso es iterativo, es decir se dan a los coeficientes unos valores arbitrarios (habitualmente, aunque no necesariamente, el valor 0). La solución final no depende de estos valores 2º A partir de estos valores iniciales se construye una matriz p con los valores previstos por el modelo para las observaciones de la variable dependiente. 3º A partir de esta matriz y de la matriz X de diseño (construida igual que en regresión lineal), se calculan los nuevos estimadores, que se comprueba si son ya la solución, en cuyo caso se para el proceso y en caso contrario se repite el proceso. En la práctica, y para evitar convergencias asintóticas, también se para el proceso si los nuevos estimadores difieren de los anteriores en menos de una cierta cantidad, llamada límite de convergencia. En este último paso hay que invertir una matriz y eso puede dar problemas de colinearidad Distribución muestral de los estimadores Hay un teorema (teorema del límite central en la estimación por máxima verosimilitud) que dice estos estimadores son asintóticamente normales y su matriz de varianzas-covarianzas es Σ = -J -1 = -(X'pX) -1 y su estimación se calcula, particularizando Σ para los coeficientes estimados.
http://www.hrc.es/bioest/Poisson_3.html [02/01/2003 01:40:34]
Contrastes de hipótesis y estrategias de modelización en modelos de regresión de Poisson
Contrastes de hipótesis y estrategias de modelización Teniendo en cuenta lo anterior los contrastes de hipótesis sobre cada coeficiente se hacen con la prueba de Wald y los contrastes de hipótesis sobre el modelo completo, o sobre un conjunto de coeficientes, con el logaritmo del cociente de verosimilitudes. Por otro lado las estrategias de modelización son exactamente las mismas que las vistas en los capítulos previos. Ejemplo Supóngase que en las ciudades del ejemplo anterior, la población y los cánceres de piel aparecidos se distribuyen como sigue para distintos grupos de edad: Ciudad A
Edad 0 – 30 31 – 60 > 60
Población Cáncer 120.000 3 200.000 7 30.000 8
Ciudad B
Población Cáncer 130.000 4 220.000 10 60.000 16
Estímese, mediante un modelo de Poisson, la razón de densidades de incidencia para ambas ciudades, controlando por la edad. Para resolverlo con un paquete estadístico (PRESTA), se crea el siguiente archivo con cuatro variables: EDAD 1 2 3 1 2 3
CIUDAD POBLACION CANCER 0 120.000 3 0 200.000 7 0 30.000 8 1 130.000 4 1 220.000 10 1 60.000 16
para independizar el resultado de como cambien las densidades de incidencia entre los distintos grupos de edad, se crean a partir de la variable EDAD dos variables indicadoras, EDAD1 y EDAD2, con el primer esquema discutido en regresión lineal y para estudiar la posible interacción entre CIUDAD y EDAD, se crean las variables CIXED1 y CIXED2 con los productos de CIUDAD×EDAD1 y CIUDAD×EDAD2 respectivamente. El modelo completo tiene, por lo tanto, cinco variables: CIUDAD, EDAD1, EDAD2, CIXED1 y CIXED2. El ajuste para este modelo es: NOMBRE DE LOS DATOS: eje2pois VARIABLE DEPENDIENTE: CANCER
http://www.hrc.es/bioest/Poisson_4.html (1 of 4) [02/01/2003 01:42:18]
Contrastes de hipótesis y estrategias de modelización en modelos de regresión de Poisson
VARIABLE TAMAÑO: POBLA NUMERO DE VARIABLES INDEPENDIENTES: 5 A SABER CIUDAD EDAD1 EDAD2 CIXED1 CIXED2 NUMERO DE CASOS: 6 NUMERO MAXIMO DE ITERACIONES: 20 CONVERGENCIA OBTENIDA EN 15 ITERACIONES CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0 VARIABLE ALFA EXP(ALFA) EE. ALFA Ji2 p Const. -10.59663 .00003 .57735 336.86620 .00000 CIUDAD .20764 1.23077 .76376 .07391 .78227 EDAD1 .33647 1.40000 .69007 .23775 .63158 EDAD2 2.36712 10.66666 .67700 12.22533 .00060 CIXED1 .05373 1.05520 .90895 .00349 .95139 CIXED2 -.20764 .81250 .87797 .05593 .80834
LOG. MAX. VEROSIMILITUD CON CONSTANTE SOLA= -32.88131 LOG. MAX. VEROSIMILITUD MODELO COMPLETO= -11.39070 Ji-Cuadrado modelo= 42.98121 GL= 5 p= .00000
El ajuste del modelo, con la prueba del logaritmo del cociente de verosimilitudes es significativo. El primer contraste a realizar es sobre la interacción. Como las variables CIXED1 y CIXED2 son indicadoras y no tienen sentido por sí solas, hay que realizarlo globalmente para las dos con el logaritmo del cociente de verosimilitudes. Se ajusta, por lo tanto, a un modelo sin ellas. El resultado es: NOMBRE DE LOS DATOS: eje2pois VARIABLE DEPENDIENTE: CANCER VARIABLE TAMAÑO: POBLA NUMERO DE VARIABLES INDEPENDIENTES: CIUDAD EDAD1 EDAD2
3 A SABER
NUMERO DE CASOS: 6 NUMERO MAXIMO DE ITERACIONES: 20 CONVERGENCIA OBTENIDA EN 15 ITERACIONES CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0 VARIABLE Const. CIUDAD EDAD1
ALFA
EXP(ALFA)
-10.55314 .00003 .13023 1.13909 .36802 1.44486
EE. Ji2 p ALFA .41299 652.96970 .00000 .30131 .18681 .66947 .44909 .67153 .58226
http://www.hrc.es/bioest/Poisson_4.html (2 of 4) [02/01/2003 01:42:18]
Contrastes de hipótesis y estrategias de modelización en modelos de regresión de Poisson
EDAD2
2.23495 9.34601
.43171
26.80163 .00000
LOG. MAX. VEROSIMILITUD CON CONSTANTE SOLA= -32.88131 LOG. MAX. VEROSIMILITUD MODELO COMPLETO= -11.47604 Ji-Cuadrado modelo= 42.81053 GL= 3 p= .00000 Ji-Cuadrado modelo anterior= .17068 GL= 2 p= .91773
No se puede rechazar la hipótesis nula de no existencia de interacción (p=0,91773), por lo tanto se eliminan dichas variables del modelo. Para este último modelo la matriz estimada de covarianzas de los estimadores es: MATRIZ DE COVARIANZAS
Const. CIUDAD EDAD1 EDAD2
Const. CIUDAD EDAD1 EDAD2 .171 -.050 .091 -.143 -.000 .202 -.136 -.013 .143 .186
El próximo contraste a realizar es para las variables EDAD1 y EDAD2, que también tiene que ser global. Se ajusta a un modelo sin ellas y el resultado es: NOMBRE DE LOS DATOS: eje2pois VARIABLE DEPENDIENTE: CANCER VARIABLE TAMAÑO: POBLA NUMERO DE VARIABLES INDEPENDIENTES: 1 A SABER CIUDAD NUMERO DE CASOS: 6 NUMERO MAXIMO DE ITERACIONES: 20 CONVERGENCIA OBTENIDA EN 15 ITERACIONES CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0
VARIABLE ALFA EXP(ALFA)EE. ALFA Ji2 p Const. -9.8753 .00005 .23570 1755.39400 .00000 CIUDAD .3526 1.42276 .29814 1.39869 .23503
LOG. MAX. VEROSIMILITUD CON CONSTANTE SOLA= -32.88131 LOG. MAX. VEROSIMILITUD MODELO COMPLETO= -32.16458 Ji-Cuadrado modelo= 1.43345 GL= 1 p= .22908 Ji-Cuadrado modelo anterior= 41.37708 GL= 2 p= .00000
Obsérvese que esta última estimación coincide con la calculada anteriormente. Con la http://www.hrc.es/bioest/Poisson_4.html (3 of 4) [02/01/2003 01:42:18]
Contrastes de hipótesis y estrategias de modelización en modelos de regresión de Poisson
prueba del logaritmo del cociente de verosimilitudes no se puede rechazar (p=0,00000) que no haya efecto de la edad. En el modelo que contiene la edad, la razón de densidades de incidencia entre las dos ciudades es 1,13909 y no es significativamente distinta de 1 (p=0,66947 con la prueba de Wald). Nótese que la edad es una variable de confusión (con el modelo que sólo contiene la ciudad, la estimación es 1,42276) y por tanto el modelo adecuado para hacer las estimaciones es el que contiene la edad. El intervalo de confianza al 95%, también calculado por el programa, aunque en la salida anterior no se presenta, es (0,631, 2,056). Para estimar, por ejemplo, con ese modelo la densidad de incidencia para el grupo de mayores de 60 años en la ciudad B, recuérdese que para la ciudad B, CIUDAD=1 y para ese grupo de edad, EDAD1=0 y EDAD2=1, por lo tanto según el modelo:
obsérvese que, como el ajuste del modelo es muy bueno, coincide con la estimación que se puede obtener directamente de los datos:
pero el modelo permite, además, calcular un intervalo de confianza para dicha estimación. Para ello hay que calcular:
su error estándar es
y por lo tanto el intervalo de confianza al 95% es
y del mismo modo para los otros grupos de edad y/o la otra ciudad. Otras lecturas Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las aplicaciones biomédicas de la regresión múltiple. Medicina Clínica. 2001;116:741-745.
http://www.hrc.es/bioest/Poisson_4.html (4 of 4) [02/01/2003 01:42:18]
La colinealidad en la regresión de Poisson
La colinealidad en la regresión de Poisson Del mismo modo que en la regresión logística, para estimar los coeficientes hay que invertir la matriz J = X’pX siendo además la inversa de J la matriz de varianzas-covarianzas de los mismos. Por consiguiente, si dicha matriz es singular el modelo es irresoluble y si es casi-singular existen problemas de precisión numérica y estadística, siendo, además, inestable la estimación. Como entonces, aunque no es un problema de colinealidad en sentido estricto se sigue hablando, por analogía, de colinealidad y, también, el diagnóstico de la misma se hace de análoga manera, es decir, calculando los índices de condición para la matriz J también escalada para que su diagonal principal esté formada por unos, y calculando a partir de los autovectores de la misma, la matriz de descomposición de la varianza de los estimadores. Evidentemente, por no ser un problema de colinealidad, el factor de inflación de la varianza tampoco es útil ahora. También en el caso de la regresión de Poisson, y a diferencia de la regresión lineal, la matriz J no depende sólo de los datos, sino también de los coeficientes del modelo (a través de p) y pudiera darse el caso de que, en el proceso iterativo de estimación y para unos ciertos valores iniciales de los coeficientes, J fuera singular en algún paso del proceso alejado de la solución final y que, sin embargo, si se partiera de otros valores iniciales se pudiera acabar la estimación sin problemas. También puede ocurrir que, debido a la falta de precisión ligada a la casi-colinealidad de algún paso intermedio, el método de Newton- Raphson no convergiera para unos valores iniciales y, sin embargo, si convergiera para otros. En caso de que aparezcan estos problemas, un modo de minimizarlos es, ayudándose del diagnóstico de colinealidad, intentar la estimación con distintos valores iniciales, incluyendo estimaciones aproximadas de los coeficientes (obtenidas, por ejemplo, a partir del método usado en el ejemplo). Hay que tener en cuenta, también, que debido a los grandes valores que suele tener la variable s, tamaño del intervalo, en algunos modelos (en el ejemplo desarrollado en este texto son cientos de miles, pero en problemas de estimación de tasas de mortalidad por países puede ser de decenas o centenas de millones) pueden aparecer problemas de precisión o, incluso, desbordes (se denomina así al hecho de que un número sea mayor que la capacidad de la porción de memoria reservada en el ordenador para almacenarlo) en los algoritmos de estimación. En estos casos se puede dividir dicha variable por una constante adecuada, es decir, se expresa la población en miles de personas o en centenas de miles, entonces el parámetro λ queda multiplicado por ese mismo factor, pero en el modelo ese cambio sólo afecta a α0 (se le sumará el logaritmo de dicha constante) y no al resto de los coeficientes. Si en el ejemplo anterior se divide la población por 1.000, los modelos encontrados serán exactamente los mismos excepto el coeficiente α0 al que se le sumará ln1.000=6,908.
Ejemplo http://www.hrc.es/bioest/Poisson_5.html (1 of 2) [02/01/2003 01:46:25]
La colinealidad en la regresión de Poisson
Los “salida” del PRESTA del diagnóstico de colinealidad para el modelo del ejemplo anterior en el que se ha dividido la población por 1.000 es: REGRESION POISSON CON LOS COEFICIENTES: Const.: -3.6454 CIUDAD: .1302 EDAD1: .3680
EDAD2 : 2.2350
FACTOR AUTOVALOR 1 2 3 4 PROPORCION DE VARIANZA FACTOR 1 2 3 4
INDICE CONDICION 2.64356 1.00000 1.00497 1.62188 .27931 3.07646 .07216 6.05269 EN LOS FACTORES Const. CIUDAD .0163 .0423 .0003 .0014 .0375 .8924 .9459 .0639
EDAD1 .0140 .1838 .0586 .7436
EDAD2 .0182 .0802 .1435 .7581
Donde, con los criterios discutidos regresión lineal, no se aprecian problemas de colinealidad.
http://www.hrc.es/bioest/Poisson_5.html (2 of 2) [02/01/2003 01:46:25]
Relación entre los modelos de Poisson y logístico
Relación entre los modelos de Poisson y logístico
El intervalo s en el que está definida una variable de Poisson se puede dividir en un conjunto de n subintervalos de tamaño h, cada uno de los cuales es tan pequeño que en ellos sólo puede ocurrir, a lo sumo, un evento, y la probabilidad de que ocurra es la constante λ. Por lo tanto, en cada uno de estos intervalos, el número de eventos que ocurren es 0 ó 1, con probabilidades 1 - λ y λ respectivamente, es decir, es una variable binomial puntual. Una variable de Poisson es, en consecuencia, la suma de n variables binomiales puntuales, es decir, es una variable binomial de parámetros n y λ. Como no hay una manera única de elegir los subintervalos, el parámetro n no está bien definido, sin embargo, el tamaño h tiene que ser suficientemente pequeño, por lo tanto n será grande. En consecuencia, todos los problemas que se pueden plantear con un modelo de Poisson, también se pueden plantear con un modelo logístico, si se dispone de los datos individualizados y, como era de esperar, se obtiene el mismo resultado. Hay que tener en cuenta, no obstante, que el modelo logístico modeliza el odds, mientras que el de Poisson modeliza la probabilidad, por lo tanto los coeficientes sólo coincidirán cuando la probabilidad sea pequeña. Nótese que la inversa no siempre es cierta, hay problemas que se pueden plantear con un modelo logístico y no con un modelo de Poisson, como por ejemplo, un estudio caso-control, en el que la probabilidad no se puede estimar (por tanto, tampoco modelizar) y, sin embargo, sí se puede el odds ratio.
Ejemplo
En un estudio para establecer la eficacia de una vacuna contra la gripe en dos grupos de edad, se mide, durante una semana de invierno, la prevalencia de la misma en dos muestras aleatorias de individuos vacunados y no vacunados en los dos grupos de edad. Se obtienen los siguientes resultados: Vacunados Edad 20 - 60 > 60
Total 80 50
Gripe 3 5
No vacunados Total Gripe 91 5 43 10
El número de individuos con gripe en cada una de las situaciones es una variable de Poisson, para la que se puede plantear un modelo de regresión. Para cada individuo, el tener, o no, gripe, es una variable binomial puntual para la que se puede plantear un modelo logístico. http://www.hrc.es/bioest/Poisson_6.html (1 of 4) [02/01/2003 01:48:12]
Relación entre los modelos de Poisson y logístico
Para ajustar a un modelo Poisson hay que partir de un archivo como el siguiente: EDAD VACUNA TOTAL GRIPE 0 1 80 3 1 1 50 5 0 0 91 5 1 0 43 10 Para ajustar a un modelo logístico hay que crear un archivo en que cada individuo sea una observación. Sería: EDAD VACUNA GRIPE 0 1 1 3 observaciones: individuos vacunados, edad 20 - 60, con gripe 0 1 0 77 observaciones: individuos vacunados, edad 20 - 60, sin gripe 1 1 1 5 observaciones: individuos vacunados, edad >60, con gripe 1 1 0 45 observaciones 0 0 1 5 observaciones 0 0 0 86 observaciones 1 0 1 10 observaciones 1 0 0 33 observaciones y los ajustes correspondientes: REGRESION DE POISSON NOMBRE DE LOS DATOS: eje5pois VARIABLE DEPENDIENTE: GRIPE VARIABLE TAMAÑO: TOTAL NUMERO DE VARIABLES INDEPENDIENTES: 2 A SABER EDAD VACUNA NUMERO DE CASOS: 4 NUMERO MAXIMO DE ITERACIONES: 20 CONVERGENCIA OBTENIDA EN 8 ITERACIONES CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0
VARIABLE ALFA EXP(ALFA) EE. ALFA Ji2 p Const. -2.79827 .06092 .37835 54.70174 .00000
http://www.hrc.es/bioest/Poisson_6.html (2 of 4) [02/01/2003 01:48:12]
Relación entre los modelos de Poisson y logístico
EDAD VACUNA
1.28379 3.61029 -.68495 .50412
.43865 .43865
8.56527 .00357 2.43822 .11406
LOG. MAX. VEROSIMILITUD CON CONSTANTE SOLA= -12.72912 LOG. MAX. VEROSIMILITUD MODELO COMPLETO= -7.18156 Ji-Cuadrado modelo= 11.09511 GL= 2 p= .00410 INTERVALOS DE CONFIANZA AL 95% DE LOS EXP(ALFA) EDAD 1.52810 8.52966 VACUNA .21337 1.19102
El riesgo relativo para la vacuna, controlado por la edad, es 0,50412 (la probabilidad de que un individuo vacunado contraiga la gripe es aproximadamente la mitad que la de un individuo sin vacunar) con un intervalo de confianza de (0,21337, 1,19102), por lo tanto, no es significativamente distinto de 1. REGRESION LOGISTICA INCONDICIONAL NOMBRE DE LOS DATOS: eje52poi VARIABLE DEPENDIENTE: GRIPE NUMERO DE VARIABLES INDEPENDIENTES: 2 A SABER EDAD VACUNA NUMERO DE CASOS: 264 NUMERO MAXIMO DE ITERACIONES: 20 CONVERGENCIA OBTENIDA EN 7 ITERACIONES CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0
VARIABLE ALFA EXP(ALFA)EE. ALFA Ji2 p Const. -2.71567 .06616 .38959 48.58808 .00000 EDAD 1.43544 4.20149 .46417 9.56352 .00217 VACUNA -.78082 .45803 .46780 2.78598 .09094 LOG. MAX. VEROSIMILITUD CON CONSTANTE SOLA= -78.09814 LOG. MAX. VEROSIMILITUD MODELO COMPLETO= -71.93247 Ji-Cuadrado modelo= 12.33133 GL= 2 p= .00230 INTERVALOS DE CONFIANZA AL 95% DE LOS "ODDS RATIO" EDAD 1.69159 10.43545
http://www.hrc.es/bioest/Poisson_6.html (3 of 4) [02/01/2003 01:48:12]
Relación entre los modelos de Poisson y logístico
VACUNA .18310
1.14577
El odds ratio para la vacuna es 0,45803 y tampoco es significativamente distinto de 1. En este caso, y como la probabilidad de contraer la gripe no es pequeña, ambos estimadores no coinciden. Sin embargo, si se calcula por ejemplo, la probabilidad de que una persona mayor de 60 años y no vacunada contraiga la gripe con el modelo de Poisson:
y con el modelo logístico:
que como se observa, sí coinciden.
http://www.hrc.es/bioest/Poisson_6.html (4 of 4) [02/01/2003 01:48:12]
http://www.hrc.es/bioest/Supervivencia_1.html
ANÁLISIS DE SUPERVIVENCIA V. Abraira Bibliografía: V. Abraira, A. Pérez de Vargas Métodos Multivariantes en Bioestadística. Ed. Centro de Estudios Ramón Areces. 1996. E.T.Lee Statistical Methods for Survival Data Analysis Lifetime Learning Publications. 1980. J.D.Kalbfleisch, R.L.Prentice The Statistical Analysis of Failure Time Data John Wiley & Sons. 1980. Introducción Se denomina análisis de supervivencia al conjunto de técnicas que permiten estudiar la variable “tiempo hasta que ocurre un evento” y su dependencia de otras posibles variables explicatorias. Por ejemplo, en el estudio de enfermedades crónicas o tratamientos muy agresivos, el tiempo hasta que ocurre la muerte del enfermo (tiempo de supervivencia) y su dependencia de la aplicación de distintos tratamientos, pero en otras enfermedades, el tiempo hasta la curación, o el tiempo hasta la aparición de la enfermedad. En procesos de control de calidad se estudia el tiempo hasta que un cierto producto falla (tiempo de fallo), o el tiempo de espera hasta recibir un servicio (tiempo de espera), etc. Debido a que la variable tiempo es una variable continua podría ser, en principio, estudiada mediante las técnicas de análisis de la varianza o los modelos de regresión. Hay, sin embargo, dos dificultades importantes para este planteamiento. En primer lugar, en la mayor parte de los estudios citados la variable tiempo no tiene una distribución normal, más bien suele tener una distribución asimétrica y aunque podrían intentarse transformaciones que la normalizaran, existe una segunda dificultad que justifica un planteamiento específico para estas variables, y es que para observarlas se tiene que prolongar el estudio durante un período de tiempo suficientemente largo, en el cual suelen ocurrir pérdidas, que imposibilitan la observación del evento. Existen tres motivos por los que pueden aparecer estas pérdidas, en primer lugar por fin del estudio. Supóngase, por ejemplo, que para evaluar una intervención quirúrgica arriesgada se sigue en el tiempo, durante un año, a dos grupos de pacientes. A los de un grupo se les practicó la intervención y a los de otro no, y se registró la duración del intervalo de tiempo entre la intervención (o la entrada en el estudio, para el grupo no intervenido) y la muerte. Al final del estudio puede haber individuos que no hayan muerto. Otra causa es la pérdida propiamente dicha, por ejemplo se quiere evaluar la eficacia de un tratamiento http://www.hrc.es/bioest/Supervivencia_1.html (1 of 3) [02/01/2003 01:50:23]
http://www.hrc.es/bioest/Supervivencia_1.html
preventivo para el SIDA, y se sigue durante cinco años a individuos VIH+. Algunos de los individuos, y puede ser un número importante, desaparecerán del estudio en algún momento del mismo por diversos motivos: cambio de domicilio, falta de interés, etc. Una última causa de pérdida es la ocurrencia de un evento competitivo, en los ejemplos anteriores puede ser muerte por alguna otra causa ajena al estudio. Aunque los ejemplos anteriores son del ámbito de Ciencias de la Salud, estos mismos problemas aparecen en cualquier estudio que necesite un largo tiempo de observación. Hay que tener en cuenta también que la variable es el tiempo hasta que ocurre un evento, y está definida por la duración del intervalo temporal entre los instantes en que empieza la observación y ocurre el evento. En los ejemplos citados, la observación no comienza en el mismo instante para todos los individuos. En algunos textos se denomina pérdida por la izquierda a esta no coincidencia de los tiempos en que comienza la observación, ya que, si el estudio está diseñado para acabar en un tiempo determinado, el efecto de esta no coincidencia es reducir, para los que empiezan más tarde, el tiempo de observación. En el esquema de la figura se detallan todas las posibles pérdidas. Evidentemente, se pueden evitar las pérdidas por la izquierda diseñando el estudio para que acabe, no en un tiempo establecido con carácter general, sino, para cada individuo, en un tiempo determinado después del inicio de la observación.
Esquema temporal de un estudio para observar tiempos de espera para un evento, por ejemplo supervivencia en una intervención quirúrgica. Con el círculo se representan las pérdidas y con el cuadrado las muertes (ocurrencia del evento). El individuo A desaparece del estudio 3 meses después de la intervención (sería una pérdida en sentido estricto). El B fallece a los 2,5 meses. El C sigue vivo al acabar el estudio (sería una pérdida a los 12 meses por fin del estudio). El D, al que se le interviene en el mes 1, fallece en el 9, el tiempo de supervivencia sería 8 meses (hay 1 mes de pérdida por la izquierda). El E, al que se le interviene en el mes 2, se pierde en el 7 (sería una pérdida a los 5 meses, ya que hay pérdida en sentido estricto y pérdida por la izquierda). El F, al que se le interviene en el mes http://www.hrc.es/bioest/Supervivencia_1.html (2 of 3) [02/01/2003 01:50:23]
http://www.hrc.es/bioest/Supervivencia_1.html
6, sigue vivo al acabar el estudio, sería una pérdida a los 6 meses (existe pérdida por fin del estudio y pérdida por la izquierda). Si se quisiera aplicar un modelo de regresión lineal a un estudio de este tipo, habría que eliminar del mismo las observaciones perdidas, ya que para ellas no se conoce el valor de la variable; sin embargo sí se tiene alguna información útil sobre la misma: se sabe que es mayor que el tiempo en el que se produjo la pérdida.
http://www.hrc.es/bioest/Supervivencia_1.html (3 of 3) [02/01/2003 01:50:23]
Distribución de la variable tiempo de espera
Distribución de la variable tiempo de espera La variable tiempo de espera es una variable aleatoria continua y no negativa, cuya función de probabilidad puede especificarse de varias maneras. La primera es la habitual función densidad de probabilidad f(t), y relacionadas con ella, la función de supervivencia S(t) y la función de riesgo h(t). La función densidad de probabilidad f(t) para una variable continua se define como una función que permite calcular la probabilidad de que la variable tome valores en un intervalo a través de la fórmula:
La función de supervivencia S(t) se define como:
Por lo tanto, la función de supervivencia da la probabilidad complementaria de la habitual función de distribución acumulativa F(t) = P(T ≤ t), es decir S(t) = 1 F(t). Otro modo de expresar la probabilidad para la variable tiempo de espera es por medio de la función de riesgo h(t) que es la función de densidad de probabilidad de T, condicionada a que T ≥ t. Por ejemplo, para la supervivencia a una intervención quirúrgica, la función de riesgo a los 2 años es la de densidad de probabilidad de morir a los 2 años de la intervención, condicionada a que ya se ha sobrevivido hasta entonces. Esta probabilidad sería, realmente, la que en cada momento le importa al enfermo intervenido. Se puede demostrar que
A veces se usa también la función de riesgo acumulada H(t), más difícil de interpretar, que se define como
http://www.hrc.es/bioest/Supervivencia_2.html (1 of 3) [02/01/2003 02:01:04]
Distribución de la variable tiempo de espera
y que verifica
Es decir, las cuatro funciones están relacionadas; si se conoce una cualquiera de ellas, se pueden obtener las demás. A pesar de que el tiempo es una variable continua, un observador sólo tiene acceso a valores discretos de la misma. Los datos observados para cualquiera de las experiencias descritas en la introducción son una serie de valores discretos. Conviene, por lo tanto, definir las funciones anteriores en el caso (práctico) de considerar a la variable tiempo como discreta, es decir, como un conjunto discreto de valores t1 < t2 < … El suponerlos ordenados de menor a mayor no representa ninguna pérdida de generalidad, de hecho es así como se observa el tiempo. Para una variable discreta, la función densidad de probabilidad f (t) se define como:
y la función de supervivencia:
La función de supervivencia da, por lo tanto, para cada valor ti de T, la probabilidad de que la variable T sea mayor o igual que ti (en este caso no es la complementaria de la función de distribución puesto que la probabilidad de que T sea igual a ti, que en las variables discretas en general no es cero, está incluida en ambas funciones), aunque otros textos, justamente para que siga siendo la complementaria de la función de distribución la definen sin incluir el igual. Las funciones de riesgo y riesgo acumulado para una variable discreta también son:
http://www.hrc.es/bioest/Supervivencia_2.html (2 of 3) [02/01/2003 02:01:04]
Distribución de la variable tiempo de espera
http://www.hrc.es/bioest/Supervivencia_2.html (3 of 3) [02/01/2003 02:01:04]
Estimación de la función de supervivencia (método de Kaplan-Meier)
Estimación de la función de supervivencia (método de Kaplan-Meier). Es un método no paramétrico (no asume ninguna función de probabilidad) y por máxima verosimilitud, es decir se basa en maximizar la función de verosimilitud de la muestra. Una muestra aleatoria de tamaño n, extraída de una población, estará formada por k (k ≤ n) tiempos t1 < t2 < …< tk en los que se observan eventos. En cada tiempo ti existen ni "individuos en riesgo" (elementos de la muestra para los que el evento puede ocurrir, o que T ≥ ti) y se observan di eventos. Además en el intervalo [ti, ti+1) se producen mi pérdidas. Se puede demostrar que la función de verosimilitud para toda la muestra es:
Para construir esta función se ha asumido que la información contenida en las pérdidas es que, para cada una de ellas, el evento ocurre en un tiempo mayor que el tiempo en que se observa la pérdida. Maximizando esta función se encuentra que el estimador de la función de riesgo es
y para la función de supervivencia, el denominado estimador producto límite o de Kaplan-Meier:
Ejemplo 1 Se sigue en el tiempo a 12 individuos con una prótesis cardíaca y se encuentran los siguientes tiempos de supervivencia en años: 6*, 6, 6, 6, 10, 12*, 12, 15, 15*, 17, 22, 22, donde el asterisco indica pérdida; es decir se perdieron 3 individuos en los tiempos 6, 12 y 15. La manera más cómoda de calcular los estimadores anteriores es disponer los datos en una tabla como la que sigue:
tiempo ind. en riesgo eventos 6
12
3
F. riesgo F. supervivencia 3/12=0,25
http://www.hrc.es/bioest/Supervivencia_3.html (1 of 3) [02/01/2003 02:01:32]
1
Estimación de la función de supervivencia (método de Kaplan-Meier)
10
8
1
1/8=0,125
0,750
12
7
1
1/7=0,143
0,656
15
5
1
1/5=0,2
0,562
17
3
1
1/3=0,333
0,450
22
2
2
2/2=1
0,300
Para analizar estos datos con un paquete estadístico, por ejemplo el SPSS, hay que introducir dos variables: el tiempo y el “status” con un código que indique si en ese tiempo se ha producido el evento o es una perdida. La “salida” es Survival Analysis for TIEMPO Time Cumulative Events
Status Number
Cumulative
Standard
Survival
Error
Remaining 6
1
1 11
6
1 2
6 3
1
10 ,7500
,1250
1
,6563
,1402
1
,5625
,1482
,4500
,1555
,3000
,1605
,0000
,0000
9 6
3
0 8
10 4
7 12
5
6 12
5
0 5
15 6
1 4
15 6
0 3
17 7
1 2
22 8
1 1
22 9
1 0
Number of Cases:
12
Censored:
http://www.hrc.es/bioest/Supervivencia_3.html (2 of 3) [02/01/2003 02:01:32]
3
( 25,00%)
Estimación de la función de supervivencia (método de Kaplan-Meier)
Events: 9
En la tercera columna (“Cumulative Survival”) aparece la función de supervivencia (S(t)) en todos los tiempos en los que ocurren eventos. Esta función se suele representar en una gráfica como
El SPSS también calcula y representa la gráfica de la función de riesgo acumulada (que en su versión en español denomina “Impacto”).
http://www.hrc.es/bioest/Supervivencia_3.html (3 of 3) [02/01/2003 02:01:32]
Varianza de los estimadores de las funciones de riesgo y supervivencia
Varianza de los estimadores Usando resultados asintóticos (para grandes muestras) de la teoría de estimación por máxima verosimilitud se obtiene que la varianza de los estimadores de la función de riesgo es
y a partir de aquí, una expresión aproximada para la varianza de la función de supervivencia es (fórmula de Greenwood)
Teniendo en cuenta la normalidad asintótica de los estimadores de máxima verosimilitud, se pueden calcular intervalos de confianza al (1 – α )% para estas estimaciones:
Por ejemplo, para los datos del ejemplo 1, las varianzas de las estimaciones de la función de supervivencia y los intervalos de confianza al 95% construidos con ellas son: Tiempo 6 10 12 15 17 22
F. superv. 0,7500 0,6563 0,5625 0,4500 0,3000 0,0000
Varianza 0,0156 0,0197 0,0220 0,0242 0,0257 -
Intervalo de confianza 0,9950 0,5050 0,9310 0,3815 0,8530 0,2720 0,7548 0,1452 0,6145 - 0,0145 -
En la “salida” del SPSS figura, en lugar de la varianza, su raíz cuadrada (el error estándar), que es posible guardar en una nueva variable del archivo para, a partir de ella y la función de supervivencia construir los intervalos de confianza.
http://www.hrc.es/bioest/Supervivencia_4.html (1 of 4) [02/01/2003 02:02:16]
Varianza de los estimadores de las funciones de riesgo y supervivencia
y se obtiene
Una representación gráfica de la función de supervivencia y su intervalo de confianza (obtenida con el programa AlcEst) es
http://www.hrc.es/bioest/Supervivencia_4.html (2 of 4) [02/01/2003 02:02:16]
Varianza de los estimadores de las funciones de riesgo y supervivencia
Obsérvese que cuando para un tiempo ocurre el evento para todos los individuos en riesgo, como en este caso para 22, la varianza está indeterminada (aunque el SPSS pone 0) puesto que el denominador es 0. Por otro lado, en los tiempos extremos el intervalo de confianza puede sobrepasar el intervalo [0,1], en este caso en el tiempo 17. Ello es debido a que la fórmula de la varianza es sólo aproximada y a que la normalidad es asintótica. Este problema se puede evitar de normalidad también asintótica usando una transformación logarítmica de pero cuyo campo de variación es todo el campo real.
A partir de la función
cuyo varianza es
se construyen los intervalos de confianza para S(ti)
para los datos del ejemplo 1 por este procedimiento se obtienen los intervalos de confianza al 95% dados en la siguiente tabla:
http://www.hrc.es/bioest/Supervivencia_4.html (3 of 4) [02/01/2003 02:02:16]
Varianza de los estimadores de las funciones de riesgo y supervivencia
Tiempo
F. superv.
Varianza
6 10 12 15 17 22
0,7500 0,6563 0,5625 0,4500 0,3000 0,0000
0,0156 0,0197 0,0220 0,0242 0,0257 -
http://www.hrc.es/bioest/Supervivencia_4.html (4 of 4) [02/01/2003 02:02:16]
Intervalo de confianza 0,9117 0,4084 0,8557 0,3204 0,7910 0,2437 0,7104 0,1549 0,6041 0,0564 -
Método actuarial
Método actuarial Hay ocasiones en que no se dispone de observaciones individuales de los eventos, sino de observaciones agrupadas por intervalos temporales o, incluso, aunque se disponga de las mismas se agrupan para compactar su presentación. Por ejemplo, los datos de mortalidad para un país durante una década se suelen agrupar en intervalos anuales, en las denominadas tablas de vida o actuariales, de modo que no se dispone del tiempo de fallecimiento de cada individuo, sino del número de fallecidos en cada intervalo, en este caso anual. Supóngase que hay k intervalos, al principio de cada intervalo Ii, existen ni individuos en riesgo, y durante el mismo se producen mi pérdidas y di eventos. Por lo tanto, en el conjunto del intervalo el número de individuos en riesgo es variable, asumiendo que las pérdidas se producen homogéneamente a lo largo del mismo, su número promedio es ni – mi /2 y, en consecuencia, el estimador del riesgo para el intervalo será:
sustituyendo este valor en las fórmulas previas, es decir cambiando en las mismas ni por ni - mi/2 se obtienen los estimadores para la función de supervivencia y su varianza. A este método se le conoce como método actuarial. Con los datos del ejemplo 1, definiendo intervalos de 5 años, las tablas de vida, obtenidas con el SPSS, son This subfile contains: Life Table Survival Variable
12 observations
Number Entrng
Intrvl ProbaStart this bility Hazard Time Intrvl Densty Rate ------ -------- -----,0 12,0 ,0000 ,0000 5,0 12,0 ,0522 ,0600 10,0 8,0 ,0394 ,0615 15,0 5,0
TIEMPO
Number Wdrawn
Number Exposd
Number of
Propn
Propn
Cumul Propn
During
to
Termnl
Termi-
Sur-
Surv
Intrvl
Risk
Events
nating
viving
at End
------
------
------
------
------
------
,0
12,0
,0
,0000
1,0000
1,0000
1,0
11,5
3,0
,2609
,7391
,7391
1,0
7,5
2,0
,2667
,7333
,5420
1,0
4,5
2,0
,4444
,5556
,3011
http://www.hrc.es/bioest/Supervivencia_5.html (1 of 2) [02/01/2003 02:03:28]
---
Método actuarial
,0482 20,0 ,0602
,1143 2,0 ,4000
,0
2,0
2,0
1,0000
The median survival time for these data is
Intrvl Start Time ------,0 5,0 10,0 15,0 20,0
SE of Cumul Surviving -----,0000 ,1295 ,1525 ,1526 ,0000
SE of Probability Densty -----,0000 ,0259 ,0248 ,0288 ,0305
,0000
,0000
15,87
SE of Hazard Rate -----,0000 ,0342 ,0430 ,0774 ,0000
Donde la primera columna (“Intrvl Start Time”) contiene el tiempo inicial del intervalo; la segunda (“Number Entrng this Intrvl”) el número de individuos en riesgo al inicio del intervalo (ni); la siguiente (“Number Wdrawn this Intrvl”) el número de pérdidas (mi); la siguiente (“Number Exposd to Risk”) el número de individuos en riesgo en el intervalo (ni – mi /2); la siguiente (“Number of Termnl Events”) el número de eventos (di); la siguiente (“Propn Terminating”) la función de riesgo (hi) en el intervalo, la siguiente (“Propn Surviving”) su complementario (1- hi) que estima la probabilidad de que no ocurra el evento en el intervalo condicionada a que no ocurrió antes; la siguiente (“Cumul Propn Surv at End”) la función de supervivencia (Si), la siguiente (“Probability Densty”) la función densidad de probabilidad (fi) por unidad de tiempo. Se estima usando las relaciones entre las funciones vistas anteriormente y dividiendo por la anchura del intervalo, es decir, si la anchura del intervalo i fuera bi (en el ejemplo bi =5 en todos los intervalos)
La última columna (“Hazard Rate”) es la función de riesgo por unidad de tiempo, estimada en el punto medio del intervalo por la fórmula
http://www.hrc.es/bioest/Supervivencia_5.html (2 of 2) [02/01/2003 02:03:28]
Comparación de funciones de supervivencia
Comparación de funciones de supervivencia Como los estimadores de Kaplan-Meier son estimadores de máxima verosimilitud y la teoría establece que estos estimadores son asintóticamente normales, una primera aproximación es usar dicha teoría, es decir, si de una población con función de supervivencia S(t) se extraen dos muestras independientes, y a partir de las mismas se calculan los estimadores
y
debido a su normalidad asintótica, las variables:
son, también asintóticamente, normales de media 0 y varianza 1. Estas variables se pueden usar para comparar para cada tiempo predeterminado, las dos estimaciones. Sin embargo, generalmente, no interesa comparar para un tiempo predeterminado (a veces sí, por ejemplo para tiempos de corte muy establecidos como supervivencia a los 5 años para el cáncer), sino comparar globalmente ambas curvas de supervivencia. Evidentemente, se podrían comparar, por este procedimiento, punto a punto, pero este modo de proceder es poco eficiente ya que no se usan todos los datos en cada comparación y aparecen los problemas asociados a las comparaciones múltiples y, en consecuencia, se han desarrollado pruebas para realizar una única comparación global. La más popular es la conocida como prueba del logrank y puede verse como una aplicación de la prueba de Mantel y Haenszel para tablas de contingencia estratificadas y que se puede generalizar a la comparación de r funciones de supervivencia, con un estadístico que se distribuye como una χ2 con r - 1 grados de libertad.
Ejemplo 2
Compárense las funciones de supervivencia para los datos siguientes; donde, como en el ejemplo anterior, las pérdidas están indicadas con asteriscos; extraídos de dos muestras hipotéticas correspondientes a dos tratamientos distintos. trat. A: 10, 13, 15*, 17, 19*, 20* trat. B: 8, 10, 11, 11*, 12, 15*
http://www.hrc.es/bioest/Supervivencia_6.html (1 of 9) [02/01/2003 02:04:53]
Comparación de funciones de supervivencia
Para hacerlo con el SPSS, se necesita crear un archivo con tres variables: tiempo, estado (codificado, por ejemplo, 0: pérdida, 1: muerte) y tratamiento (codificado, por ejemplo, 0: tratamiento A, 1: tratamiento B).
y el resultado Survival Analysis for TIEMPO Factor TRATA = A Time Cumulative
Status Number
Events
Standard
Survival
Error
Remaining 10
muerte 1
13 2 15 2 17 3 19 3 20 3
Cumulative
,8333
,1521
,6667
,1925
,4444
,2222
5 muerte 4 pérdida 3 muerte 2 pérdida 1 pérdida 0
Number of Cases: Events: 3
6
Censored:
http://www.hrc.es/bioest/Supervivencia_6.html (2 of 9) [02/01/2003 02:04:53]
3
( 50,00%)
Comparación de funciones de supervivencia
Survival Time
Standard Error
95% Confidence
Interval Mean:
17
2
(
13;
20
4
(
9;
25
) (Limited to Median:
20 ) 17
)
Survival Analysis for TIEMPO Factor TRATA = B Time Cumulative
Status Number
Events
Cumulative
Standard
Survival
Error
Remaining 8
muerte 5 muerte 4 muerte 3 pérdida 2 muerte 1 pérdida 0
1 10 2 11 3 11 3 12 4 15 4
Number of Cases: Events: 4
,8333
,1521
,6667
,1925
,5000
,2041
,2500
,2041
6
Survival Time
Censored:
2
Standard Error
( 33,33%)
95% Confidence
Interval Mean:
12
1
(
10;
14
1
(
9;
13
) (Limited to Median:
15 ) 11
)
Survival Analysis for TIEMPO Total Number
Number
Percent Events
Censored
Censored
http://www.hrc.es/bioest/Supervivencia_6.html (3 of 9) [02/01/2003 02:04:53]
Comparación de funciones de supervivencia
TRATA
A
3
6
3
6
4
12
7
50,00 TRATA
B 2
Overall 5
33,33
41,67
Test Statistics for Equality of Survival Distributions for TRATA Statistic Log Rank
2,23
df
Significance
1
,1352
O con AlcEst para ver los intervalos de confianza
http://www.hrc.es/bioest/Supervivencia_6.html (4 of 9) [02/01/2003 02:04:53]
Comparación de funciones de supervivencia
Ejemplo 3
Se quiere comparar la supervivencia a una cierta intervención quirúrgica en 3 hospitales distintos. Para ello se sigue en cada hospital a una muestra aleatoria de pacientes intervenidos (habitualmente, y para aumentar el tamaño muestral, se sigue a todos los intervenidos, considerándolos entonces una muestra de todos los potenciales enfermos) y se obtienen los siguientes tiempos, en meses: Hosp A: 1, 3, 7, 8*, 12, 12, 15* Hosp B: 2, 2, 3, 8, 10, 10, 12*, 15 Hosp C: 1, 1, 3, 7, 10*, 12, 12, 14, 15* El resultado es: Survival Analysis for TIEMPO Factor HOSPITAL = A Time Status Cumulative Cumulative Number Survival http://www.hrc.es/bioest/Supervivencia_6.html (5 of 9) [02/01/2003 02:04:53]
Standard Error
Comparación de funciones de supervivencia
Events
Remaining 1
muerte 6 muerte 5 muerte 4 pérdida 3 muerte 2 muerte 1 pérdida 0
1 3 2 7 3 8 3 12 4 12 5 15 5
Number of Cases: Events: 5
,8571
,1323
,7143
,1707
,5714
,1870
,1905
,1676
7
Survival Time
Censored:
2
Standard Error
( 28,57%)
95% Confidence
Interval Mean:
9
2
(
5;
13
2
(
8;
16
) (Limited to Median:
15 ) 12
)
Survival Analysis for TIEMPO Factor HOSPITAL = B Time Cumulative Events
Status Number
Cumulative
Standard
Survival
Error
Remaining 2
1 2 2 3 3 8 4 10 5 10 6 12
muerte 7 muerte 6 muerte 5 muerte 4 muerte 3 muerte 2 pérdida
,7500
,1531
,6250
,1712
,5000
,1768
,2500
,1531
http://www.hrc.es/bioest/Supervivencia_6.html (6 of 9) [02/01/2003 02:04:53]
Comparación de funciones de supervivencia
6
1 muerte 0
15 7
Number of Cases: Events: 7
,0000
8
Survival Time
,0000
Censored:
1
Standard Error
( 12,50%)
95% Confidence
Interval Mean:
8
2
(
4;
12
8
3
(
2;
14
) Median: )
Survival Analysis for TIEMPO Factor HOSPITAL = C Time Cumulative
Status Number
Events
Cumulative
Standard
Survival
Error
Remaining 1
muerte 1
1 2 3 3 7 4 10 4 12 5 12
8
muerte 7 muerte 6 muerte 5 pérdida 4 muerte 3 muerte
,7778
,1386
,6667
,1571
,5556
,1656
,2778
,1617
muerte 1 pérdida 0
,1389
,1272
6
2 14 7 15 7
Number of Cases: Events: 7
9
Survival Time
Censored:
2
Standard Error
( 22,22%)
95% Confidence
Interval Mean:
9
)
http://www.hrc.es/bioest/Supervivencia_6.html (7 of 9) [02/01/2003 02:04:53]
2
(
5;
12
Comparación de funciones de supervivencia
(Limited to Median:
15 ) 12
3
(
6;
)
Survival Analysis for TIEMPO Total Number
Number
Percent Events
Censored
Censored
HOSPITAL 2
A
7
5
8
7
9
7
24
19
28,57 HOSPITAL
1
B 12,50
HOSPITAL 2
C 22,22
Overall 5
20,83
Test Statistics for Equality of Survival Distributions for HOSPITAL Statistic Log Rank
,41
df
Significance
2
,8164
http://www.hrc.es/bioest/Supervivencia_6.html (8 of 9) [02/01/2003 02:04:53]
18
Comparación de funciones de supervivencia
http://www.hrc.es/bioest/Supervivencia_6.html (9 of 9) [02/01/2003 02:04:53]
Métodos paramétricos de análisis de supervivencia
Alternativa paramétrica Una alternativa al método de Kaplan-Meier para estimar funciones de supervivencia y realizar contrastes de hipótesis sobre las mismas, consiste en asumir ciertas funciones de probabilidad para la variable tiempo de espera. Si esta asunción es razonable, y para averiguarlo habrá que realizar pruebas de bondad del ajuste, estos métodos paramétricos son más poderosos que el de Kaplan-Meier. El método consiste en estimar, por máxima verosimilitud, los parámetros característicos de la función, y usar su normalidad asintótica para realizar la estimación por intervalos y los contrastes de hipótesis. Las pruebas de bondad de ajuste se realizan con la habitual prueba basada en la ji-cuadrado, con la del logaritmo del cociente de verosimilitudes (como en regresión logística) o con métodos gráficos. La prueba basada en la ji-cuadrado se realiza distribuyendo el periodo de observación en k intervalos y calculando el estadístico:
siendo Oi los eventos observados en el intervalo i y Ei los esperados en la hipótesis de que los datos provengan realmente de la distribución considerada. Este estadístico, como es sabido, se distribuye aproximadamente como una jicuadrado con k - r - 1 grados de libertad, siendo r el número de parámetros de la distribución estimados a partir de la muestra. Un número razonable para k es . Esta prueba sólo contempla los eventos, por lo tanto no tiene en cuenta la información contenida en las pérdidas. Otro modo de contrastar la bondad del ajuste es usando el logaritmo del cociente de verosimilitudes. Hay que tener en cuenta que en este contraste la hipótesis nula es que el modelo no es adecuado, mientras que en el anterior es que sí lo es. Un método gráfico complementario de observación de la bondad del ajuste, es dibujar la función de supervivencia estimada y, en la misma gráfica, las estimaciones puntuales no paramétricas obtenidas por el método de KaplanMeier, o bien dibujar transformaciones de las funciones de supervivencia o riesgo cuyas formas sean conocidas. Las funciones que con más frecuencia se usan se exponen en los apartados siguientes.
http://www.hrc.es/bioest/Supervivencia_7.html (1 of 2) [02/01/2003 02:05:27]
Función exponencial
Función exponencial La función exponencial está definida por:
Usando las relaciones entre las tres funciones las funciones de supervivencia y riesgo para esta variable son
es decir, el riesgo es constante a lo largo del tiempo. A esta propiedad característica de la función exponencial se le suele llamar pérdida de memoria, y es la propiedad que permite evaluar gráficamente si la función exponencial es un modelo adecuado para unos datos. Si un proceso es de Poisson (suceso raro y aleatorio en el tiempo), la variable “tiempo hasta que ocurra el primer suceso” es exponencial, por esta razón esta función es muy usada en control de calidad donde se puede asumir procesos Poisson (p.e. la vida de los componentes electrónicos en un aparato, el tiempo de espera en una consulta sin cita previa, o la vida de los vasos de vidrio en un bar, siguen esta distribución) y poco en Ciencias de la Salud, aunque se ha usado, por ejemplo, para estudiar supervivencia a la arteritis(1). Es útil que señalar que, dentro de esta relación entre las funciones exponencial y de Poisson, el parámetro es la media de la variable de Poisson “número de sucesos en la unidad de tiempo”. El estimador del parámetro de la función y su varianza son
siendo d el número de eventos observados
Ejemplo 4 Calcúlese para los datos del ejemplo 1 la función de supervivencia estimada, asumiendo un modelo exponencial, y realícese la prueba para la bondad del ajuste.
http://www.hrc.es/bioest/Supervivencia_71.html (1 of 6) [02/01/2003 02:07:54]
Función exponencial
La salida de un paquete estadístico (PRESTA), eligiendo 4 intervalos para la prueba de la bondad de ajuste es: P R E S T A
PC
V2.2
19-OCT-2001
ANALISIS DE SUPERVIVENCIA MODELO EXPONENCIAL : S(t)=exp(-At) NOMBRE DE LOS DATOS: VARIABLE TIEMPO: VARIABLE PERDIDAS:
eje1sup TIEMPO PERDID
NUMERO DE CASOS: 12 CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO
A
PARAMETRO .06040
0
ERROR ESTANDAR .02013
LOGARITMO DE MAXIMA VEROSIMILITUD SIN MODELO LOGARITMO DE MAXIMA VEROSIMILITUD DEL MODELO JI-CUADRADO:
34.43188
G.L.:
4
-17.044550 -34.260490
p= .000001
TABLA DE VALORES OBSERVADOS Y ESPERADOS (SOLO CUENTAN LOS EVENTOS) INTERVALO < 4.76 4.76 - 11.48 11.48 - 22.95 > 22.95
OBSERVADOS .00 4.00 5.00 .00
PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO: 7.66667 G.L.:
ESPERADOS 3.00 3.00 3.00 3.00
2
CONT. JI2 3.0000 .3333 1.3333 3.0000
p= .021258
Obsérvese la discrepancia entre ambas pruebas de bondad de ajuste, debido al pequeño tamaño muestral del ejemplo y al hecho de que hay 3 pérdidas cuya información no se usa en la última prueba.
http://www.hrc.es/bioest/Supervivencia_71.html (2 of 6) [02/01/2003 02:07:54]
Función exponencial
En la gráfica se muestran las funciones de riesgo y supervivencia asumiendo el modelo exponencial (línea continua) y las estimaciones puntuales obtenidas por el método de Kaplan-Meier (aspas). Visualmente se observa que el modelo no es satisfactorio: las estimaciones puntuales de la función de riesgo están muy alejadas de la recta horizontal que corresponde al modelo exponencial. Ejemplo 5 Compárese, usando el modelo exponencial, las funciones de supervivencia para los datos de la tabla, donde en la columna “Perdida” figura 0 para muerte y 1 para pérdida, en “Trata” 1 y 2 para indicar dos tratamientos distintos y en “Tiempo” el tiempo en meses. Además figura la edad en años al comienzo del tratamiento, que se usará más adelante.
La salida del PRESTA para este problema P R E S T A
PC
V2.2
19-OCT-2001
ANALISIS DE SUPERVIVENCIA MODELO EXPONENCIAL : S(t)=exp(-At) NOMBRE DE LOS DATOS: VARIABLE TIEMPO: VARIABLE PERDIDAS: VARIABLE DEFINE GRUPOS: GRUPO 1 Desde GRUPO 2 Desde NUMERO DE CASOS:
super5 TIEMPO PERDID TRATA 1.00 Hasta 2.00 Hasta
230
http://www.hrc.es/bioest/Supervivencia_71.html (3 of 6) [02/01/2003 02:07:54]
1.00 2.00
Función exponencial
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO
GRUPO 1
A
PARAMETRO .04826
ERROR ESTANDAR .00464
LOGARITMO DE MAXIMA VEROSIMILITUD SIN MODELO -387.955200 LOGARITMO DE MAXIMA VEROSIMILITUD DEL MODELO -435.370300 JI-CUADRADO:
94.83020
G.L.: 42
p= .000006
TABLA DE VALORES OBSERVADOS Y ESPERADOS (SOLO CUENTAN LOS EVENTOS) INTERVALO < 1.98 1.98 4.16 4.16 6.60 6.60 9.37 9.37 - 12.56 12.56 - 16.34 16.34 - 20.96 20.96 - 26.92 26.92 - 35.33 35.33 - 49.69 > 49.69
OBSERVADOS 5.00 17.00 10.00 9.00 13.00 7.00 10.00 8.00 11.00 9.00 9.00
PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO: 10.05983 G.L.:
ESPERADOS 10.64 10.64 10.64 10.64 10.64 10.64 10.64 10.64 10.64 10.64 10.64
9
CONT. JI2 2.9868 3.8073 .0381 .2517 .5253 1.2432 .0381 .6535 .0124 .2517 .2517
p= .345439
GRUPO 2
A
PARAMETRO .08935
ERROR ESTANDAR .00876
LOGARITMO DE MAXIMA VEROSIMILITUD SIN MODELO -327.473200 LOGARITMO DE MAXIMA VEROSIMILITUD DEL MODELO -355.183600 JI-CUADRADO:
55.42084
G.L.: 30
p= .003227
TABLA DE VALORES OBSERVADOS Y ESPERADOS (SOLO CUENTAN LOS EVENTOS) INTERVALO < 1.07 1.07 2.25
OBSERVADOS 6.00 13.00
ESPERADOS 10.27 10.27
http://www.hrc.es/bioest/Supervivencia_71.html (4 of 6) [02/01/2003 02:07:54]
CONT. JI2 1.7772 .7241
0
Función exponencial
2.25 3.56 5.06 6.78 8.82 11.32 14.54 19.08
>
3.56 5.06 6.78 8.82 11.32 14.54 19.08 26.84 26.84
9.00 12.00 11.00 4.00 8.00 13.00 12.00 9.00 7.00
PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO: 9.54867 G.L.:
10.27 10.27 10.27 10.27 10.27 10.27 10.27 10.27 10.27
9
.1577 .2904 .0515 3.8302 .5028 .7241 .2904 .1577 1.0426
p= .388265
Ahora, con un tamaño muestral mayor no hay discrepancia entre ambas pruebas para la bondad del ajuste, las dos indican un buen ajuste. En la figura se presentan las gráficas (líneas continuas: estimaciones de las funciones usando el modelo exponencial y aspas y cuadrados: el método de Kaplan-Meier) y se observa que el ajuste es muy satisfactorio.
Es decir, con ambos tratamientos el modelo exponencial es adecuado, o sea el para el riesgo se mantiene constante a lo largo del tiempo, siendo tratamiento 1 y para el 2, dicho de otro modo, con el tratamiento 1 se producen en promedio 0,048 fallecimientos al mes y con el 2 se producen 0,089. Para comparar las curvas se puede usar la diferencia de los parámetros estimados como estadístico para el contraste, ya que su distribución muestral es asintóticamente normal con media 0 y varianza la suma de varianzas. En este caso: http://www.hrc.es/bioest/Supervivencia_71.html (5 of 6) [02/01/2003 02:07:54]
Función exponencial
que comparándolo con el valor crítico z0,025= 1,96 permite rechazar la hipótesis nula de igualdad.
Referencias 1 M.A.González-Gay, R.Blanco, V.Abraira, C.García-Porrúa, D.Ibáñez, M.T.Rigueiro, A.Sánchez-Andrade, J.Guerrero, E.Casariego. Giant cell arteritis in Lugo, Spain, is associated with low longterm mortality. Journal of Reumathology. 24: 21712176. (1997).
http://www.hrc.es/bioest/Supervivencia_71.html (6 of 6) [02/01/2003 02:07:54]
Función de Weibull
Función de Weibull La función de Weibull está definida por:
Obsérvese que para α=1 esta función es la exponencial, es decir la función exponencial es una particularización de la función más general de Weibull. Usando las relaciones entre las tres funciones las funciones de supervivencia y riesgo para esta variable son
es decir, el riesgo es creciente a lo largo del tiempo para α > 1 (por ejemplo, supervivencia de pacientes con una enfermedad crónica sin respuesta al tratamiento, o materiales con fatiga), constante para α = 1 (materiales sin fatiga) y decreciente para α < 1 (enfermos con cirugía mayor practicada con éxito). Nótese que calculando dos veces el logaritmo de la función de supervivencia
y calculando el logaritmo de la función de riesgo
es decir las relaciones entre el logaritmo del logaritmo cambiado de signo de la supervivencia con el logaritmo del tiempo (primera fórmula) y el logaritmo del riesgo con el logaritmo del tiempo (segunda fórmula) son lineales. A veces se usan estas relaciones para evaluar la idoneidad del modelo de Weibull. Se ha usado esta función para estudiar supervivencia a las bacteriemias y al cáncer gástrico (1).
Ejemplo 6 Ajústese, con las pruebas de bondad de ajuste, la función de Weibull a los datos de la tabla, donde en la columna “Perdida” figura 0 para muerte y 1 para pérdida y en “Tiempo” el tiempo en meses.
La grafica de ln[-ln(S(t))] en función de lnt para evaluar la idoneidad del modelo http://www.hrc.es/bioest/Supervivencia_72.html (1 of 4) [02/01/2003 02:09:23]
Función de Weibull
(en un modelo Weibull debe ser una línea recta).
La salida del PRESTA para este problema (nótese que se denomina parámetro A a τ y parámetro B a α
P R E S T A
PC
V2.2
25-OCT-2001
ANALISIS DE SUPERVIVENCIA MODELO WEIBULL : S(t)=exp[-(At)**B]
NOMBRE DE LOS DATOS: VARIABLE TIEMPO: VARIABLE PERDIDAS: NUMERO DE CASOS:
super6 TIEMPO PERDID
161
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO
A B
PARAMETRO .01778 2.37622
ERROR ESTANDAR .00068 .17212
MATRIZ DE COVARIANZAS A B http://www.hrc.es/bioest/Supervivencia_72.html (2 of 4) [02/01/2003 02:09:23]
0
Función de Weibull
A B
.00000 -.00001
-.00001 .02963
LOGARITMO DE MAXIMA VEROSIMILITUD SIN MODELO -516.180700 LOGARITMO DE MAXIMA VEROSIMILITUD DEL MODELO -569.802800 JI-CUADRADO:
107.24410
G.L.: 59
p= .000130
TABLA DE VALORES OBSERVADOS Y ESPERADOS (SOLO CUENTAN LOS EVENTOS) INTERVALO < 21.82 21.82 - 29.92 29.92 - 36.45 36.45 - 42.40 42.40 - 48.21 48.21 - 54.22 54.22 - 60.82 60.82 - 68.73 68.73 - 79.91 > 79.91
OBSERVADOS 20.00 8.00 10.00 13.00 17.00 20.00 5.00 14.00 10.00 5.00
PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO: 26.81367 G.L.:
ESPERADOS 16.10 16.10 16.10 16.10 16.10 16.10 16.10 16.10 16.10 16.10
7
CONT. JI2 .9447 4.0752 2.3112 .5969 .0503 .9447 7.6528 .2739 2.3112 7.6528
p= .000408
Vuelve a aparecer, como en el ejemplo 4, discrepancias entre ambas pruebas de bondad de ajuste, debido a que en la última no se usan las pérdidas. En estos casos resulta útil recurrir a las pruebas gráficas. Tanto en la gráfica logarítmica como en la comparación de la función de supervivencia con las estimaciones puntuales que se presenta a continuación el modelo parece adecuado.
http://www.hrc.es/bioest/Supervivencia_72.html (3 of 4) [02/01/2003 02:09:23]
Función de Weibull
Un contraste que también interesa hacer es sí el modelo exponencial es adecuado, es decir si α =1 contra la hipótesis alternativa α >1. Se hace con el estadístico
que en este ejemplo es
que comparándolo con el valor crítico z0,05= 1,64 permite rechazar la hipótesis nula de modelo exponencial.
Referencias 1 Marubini E, Bonfanti G, Bozzetti F, et al. A prognostic score for patients resected for gastric cancer. Eur J Cancer 29A: 845-850. (1993).
http://www.hrc.es/bioest/Supervivencia_72.html (4 of 4) [02/01/2003 02:09:23]
Función lognormal
Función lognormal La variable T sigue una distribución lognormal si lnT tiene una distribución normal de media μ y varianza σ². En consecuencia, la variable
es un variable normal reducida, es decir de media igual a 0 y desviación típica igual a 1. Por lo tanto, la función de supervivencia se puede escribir
siendo la función de distribución acumulativa de la normal reducida. Por lo tanto un modo gráfico de verificar esta distribución es comparar la función de supervivencia dibujada en papel lognormal con una recta. La función están caracterizadas por los dos parámetros μ y σ, que no son su media y desviación típica. La estimación de estos parámetros sólo es sencilla en el caso de que no haya pérdidas y ésta es la que implementa el PRESTA. Se ha usado esta función para estudiar tanto la supervivencia en SIDA (1), como el tiempo hasta la seroconversión de HIV+ (2).
Ejemplo 7 Estímese las función de supervivencia, asumiendo el modelo lognormal y realícese la prueba de la bondad de ajuste, para los datos de la tabla.
La salida del PRESTA es (nótese que se denomina parámetro A a µ y parámetro B a σ2)
P R E S T A
PC
V2.2
ANALISIS DE SUPERVIVENCIA MODELO LOG-NORMAL : f(lnt)=N(A,B)
http://www.hrc.es/bioest/Supervivencia_73.html (1 of 5) [02/01/2003 02:09:50]
26-OCT-2001
Función lognormal
NOMBRE DE LOS DATOS:
super72
VARIABLE TIEMPO:
TIEMPO
VARIABLE PERDIDAS NO SE USA
NUMERO DE CASOS:
121
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO
PARAMETRO
ERROR ESTANDAR
A
2.32263
.04138
B
.20719
.02664
MATRIZ DE COVARIANZAS A
B
A
.00171
.00000
B
.00000
.00071
TABLA DE VALORES OBSERVADOS Y ESPERADOS (SOLO CUENTAN LOS EVENTOS)
INTERVALO
OBSERVADOS
<
10.00
5.69
ESPERADOS 12.10
http://www.hrc.es/bioest/Supervivencia_73.html (2 of 5) [02/01/2003 02:09:51]
CONT. JI2 .3645
0
Función lognormal
5.69 -
6.96
9.00
12.10
.7942
6.96 -
8.04
18.00
12.10
2.8769
8.04 -
9.09
12.00
12.10
.0008
9.09 -
10.20
17.00
12.10
1.9843
10.20 -
11.45
12.00
12.10
.0008
11.45 -
12.95
8.00
12.10
1.3893
12.95 -
14.96
9.00
12.10
.7942
14.96 -
18.28
16.00
12.10
1.2570
>
18.28
10.00
12.10
.3645
PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO:
9.82645
G.L.:
7
p= .197686
Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso que no hay pérdidas “funciona” mejor, no se rechaza la hipótesis nula de modelo lognormal y en la gráfica también se observa que el modelo es satisfactorio.
http://www.hrc.es/bioest/Supervivencia_73.html (3 of 5) [02/01/2003 02:09:51]
Función lognormal
Aceptando que el modelo es bueno, calcúlese la supervivencia a 8 años (suponiendo los tiempos en años) y la mediana de supervivencia. En la gráfica se observa que para T=8, S(t) es aproximadamente 0,7 y que S(t)=0,5 para t=10 aproximadamente. O bien, más laborioso pero más preciso, usando las fórmulas
y mirando en la tabla de la normal
es decir la probabilidad de supervivencia a los 8 años es 0,7019. La mediana es el tiempo en el que S(t)=0,5
y mirando en la tabla de la normal
Referencias 1 Veugelers PJ, Cornelisse PG, Craib KJ, et al. Models of survival in HIV infection and their use in the quantification of treatment benefits. Am J Epidemiol 148: 487-496. (1998). http://www.hrc.es/bioest/Supervivencia_73.html (4 of 5) [02/01/2003 02:09:51]
Función lognormal
2 Muñoz A, Xu J. Models for the incubation of AIDS and variations according to age and period. Stat Med. 30: 2459-2473. (1996).
http://www.hrc.es/bioest/Supervivencia_73.html (5 of 5) [02/01/2003 02:09:51]
Función gamma
Función gamma El modelo gamma está definido por la función de probabilidad
siendo Γ(α) la función gamma, definida como:
Como Γ(1) = 1, la función de probabilidad gamma cuando α = 1 es la exponencial. Otro caso particular de esta función es τ = 1/2 y α = r/2, siendo r un número natural, que recibe el nombre de ji-cuadrado con r grados de libertad. Del mismo modo que la variable “tiempo hasta que ocurra el primer evento” de un proceso es de Poisson es exponencial, la variable “tiempo hasta que ocurra el evento k-ésimo” es gamma con α = k La estimación de esta función sólo es sencilla en el caso de que no haya pérdidas y ésta es la que implementa el PRESTA.
Ejemplo 8 Estímese la función de supervivencia, asumiendo el modelo gamma, y realícese la prueba de la bondad de ajuste, para los datos de la tabla.
La salida del PRESTA es (nótese que se denomina parámetro A a α y parámetro B a τ) P R E S T A
PC
V2.2
ANALISIS DE SUPERVIVENCIA MODELO GAMMA : S(t)=1-I(A,Bt)*(Bt)**A/G(A)
NOMBRE DE LOS DATOS: super8 VARIABLE TIEMPO: TIEMPO VARIABLE PERDIDAS NO SE USA NUMERO DE CASOS:
95
http://www.hrc.es/bioest/Supervivencia_74.html (1 of 3) [02/01/2003 02:10:17]
27-OCT-2001
Función gamma
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO
A B
PARAMETRO 7.81341 .08169
ERROR ESTANDAR .85924 .00947
MATRIZ DE COVARIANZAS A B A .73829 .00772 B .00772 .00009 LOGARITMO DE MAXIMA VEROSIMILITUD SIN MODELO -388.936400 LOGARITMO DE MAXIMA VEROSIMILITUD DEL MODELO -460.552600 JI-CUADRADO:
143.23240
G.L.: 64
p= .000000
TABLA DE VALORES OBSERVADOS Y ESPERADOS (SOLO CUENTAN LOS EVENTOS) INTERVALO < 17.80 17.80 - 35.60 35.60 - 53.40 53.40 - 71.20 71.20 - 89.00 89.00 - 106.80 106.80 - 124.60 124.60 - 142.40 142.40 - 160.20 > 160.20
OBSERVADOS .00 1.00 6.00 17.00 19.00 17.00 19.00 8.00 5.00 3.00
PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO: 2.96491 G.L.:
ESPERADOS .02 1.15 7.07 15.81 20.45 18.87 13.86 8.65 4.77 4.36
7
CONT. JI2 .0182 .0205 .1621 .0901 .1023 .1846 1.9044 .0485 .0110 .4233
p= .888640
Con ambas pruebas de bondad de ajuste se acepta el modelo gamma y en la gráfica también se observa que el modelo es satisfactorio.
http://www.hrc.es/bioest/Supervivencia_74.html (2 of 3) [02/01/2003 02:10:17]
0
Función gamma
Igual que con el modelo de Weibull, un contraste que también interesa hacer es sí el modelo exponencial es adecuado, es decir si α =1 contra la hipótesis alternativa α >1. Se hace con el estadístico
que en este ejemplo es
que comparándolo con el valor crítico z0,05= 1,64 permite rechazar la hipótesis nula de modelo exponencial.
http://www.hrc.es/bioest/Supervivencia_74.html (3 of 3) [02/01/2003 02:10:17]
Modelo de riesgo proporcional (Cox)
Modelo de riesgo proporcional (Cox)
Hasta aquí se han estudiado métodos que permiten estimar las funciones de riesgo y supervivencia para una muestra aleatoria y comparar dos o más estimaciones. El objetivo ahora es plantear un modelo de regresión para el riesgo, o la supervivencia, en función de variables "explicatorias", que permita comparar dichas estimaciones, teniendo en cuenta el efecto de otras variables distintas de la que se utiliza para definir los grupos. Por ejemplo, la supervivencia a dos tratamientos alternativos puede depender no sólo del tratamiento, sino también de otras variables como la edad, el sexo, o la gravedad de la afección de cada paciente. En los métodos previos se asume que el muestreo aleatorio hace que los distintos grupos sean homogéneos con respecto a todas las demás variables, sin embargo no siempre es así (el muestreo aleatorio sólo garantiza que las muestras homogéneas sean las más probables) y, por otro lado, a veces interesa estimar la supervivencia para distintos valores de las otras variables. Los modelos de regresión permiten hacer ambas cosas. Hay varios modelos de regresión propuestos, como el llamado modelo acelerado en que se asume que la función de supervivencia es una función del tiempo y de otras k variables (representadas por el vector, de dimensión k, X) de la siguiente forma:
siendo Φ(X,α) una función de X con unos coeficientes α, que serían los coeficientes a estimar para el modelo. Otros modelos asumen algunas de las funciones de supervivencia vistas antes planteando el modelo de regresión para los parámetros de las funciones. Sin embargo, el modelo más popular, por su sencillez y facilidad para interpretar los coeficientes α, es el denominado modelo de riesgo proporcional o modelo de Cox que es un modelo de la forma
Es decir, h0(t) es el riesgo cuando todas las variables Xi son 0, o riesgo basal, que es variable con el tiempo. Otra manera equivalente de expresarlo es:
es decir, el modelo plantea el logaritmo del riesgo relativo como una función http://www.hrc.es/bioest/Supervivencia_8.html (1 of 2) [02/01/2003 02:12:34]
Modelo de riesgo proporcional (Cox)
lineal de las variables independientes. Se supone, por lo tanto, que el riesgo relativo, a diferencia del riesgo propiamente dicho, no depende del tiempo o, dicho de otra manera, que es constante a lo largo del tiempo (de ahí el nombre de modelo de riesgo proporcional). La forma anterior hace explícita la interpretación de los coeficientes: αi es el logaritmo del riesgo relativo cuando Xi aumenta una unidad, manteniéndose constantes las demás variables, y por tanto, exp(αi) es el riesgo relativo cuando Xi aumenta una unidad, manteniéndose constantes las demás. Nótese que el modelo no depende de cómo sea h0(t), podría ser de cualquiera de las formas vistas antes u otras, la única asunción es que el riesgo relativo al aumentar una unidad cada variable es constante (exp(αi)) en todo tiempo. Hay que destacar que esta asunción no siempre es razonable y conviene evaluarla en cada caso, por ejemplo, con gráficas que representen el logaritmo de los riesgos para distintos valores de las variables Xi en función del tiempo, cuando el riesgo es proporcional deben ser paralelas.
http://www.hrc.es/bioest/Supervivencia_8.html (2 of 2) [02/01/2003 02:12:34]
Estimación y contrastes en el modelo de Cox
Estimación de los coeficientes y contrastes de hipótesis Para estimar los coeficientes por el método de máxima verosimilitud es necesario construir la función de verosimilitud. Para ello hay varios métodos, pero el primero históricamente y el más general es el debido a Cox y se basa en la función de verosimilitud parcial: y parte de que dado que el modelo no hace ninguna asunción sobre h0(t), la única contribución de los datos a la verosimilitud es en los tiempos en que se observan eventos. Los cálculos necesarios para la estimación son muy largos, sobre todo cuando para algún tiempo hay más de un evento. Los paquetes estadísticos suelen usar una aproximación (aproximación de Peto) que es buena cuando, para cada tiempo, el número de eventos es pequeño comparado con los individuos en riesgo.
Teniendo en cuenta que los estimadores lo son por máxima verosimilitud, los contrastes de hipótesis sobre cada coeficiente se hacen usando su normalidad asintótica (prueba de Wald) y los contrastes de hipótesis sobre el modelo completo o sobre un conjunto de coeficientes con el logaritmo del cociente de verosimilitudes (exactamente igual que en regresión logística).
Es decir y resumiendo un poco, un intervalo de confianza al (1- α)% para el coeficiente αi es:
En regresión de Cox los estimadores de la asociación no son los coeficientes αi sino los riesgos relativos, por lo tanto los intervalos de confianza que interesan calcular son los de los riesgos relativos. Dichos intervalos están dados por:
El estadístico para el contraste: H0: αi = a H1: α i ≠ a siendo a una constante, es:
http://www.hrc.es/bioest/Supervivencia_9.html (1 of 2) [02/01/2003 02:13:56]
Estimación y contrastes en el modelo de Cox
y la región crítica: |z| > zα/2 o equivalentemente:
que se distribuye como una ji-cuadrado con 1 grado de libertad y, por tanto, la región crítica para el contraste es contrastes de Wald.
. A estos contrastes se les denominan
Un contraste que interesa realizar es α1=0; el que no se pueda rechazar esta hipótesis indica que el riesgo no depende de la variable X.
http://www.hrc.es/bioest/Supervivencia_9.html (2 of 2) [02/01/2003 02:13:56]
Estrategias de modelización con el modelo de Cox
Estrategias de modelización Las estrategias de modelización son exactamente las mismas que las utilizadas en los otros modelos de regresión, contrastándose también del mismo modo la interacción y la confusión y pudiéndose usar también las variables dummy.
Ejemplo 9 Comparar la supervivencia de los tratamientos del ejemplo 5 controlando los posibles efectos de confusión e interacción de la edad. En el ejemplo 5 se encontró que la supervivencia con ambos tratamientos ajustaba a un modelo exponencial, es decir con ambos tratamientos el riesgo es constante (por lo tanto se cumple la asunción de riesgo proporcional): 0,048 para el tratamiento 1 y 0,089 para el tratamiento 2, siendo ambos riesgos significativamente distintos. Analizado con la regresión de Cox univariante
Se encuentra un resultado prácticamente superponible: hay una diferencia estadísticamente significativa (p=0.000) y el riesgo relativo es 1,892. Sin embargo la edad media en ambos grupos es muy distinta (39,8 en los pacientes que reciben el tratamiento 1 y 64,7 en los que reciben el tratamiento 2) por lo tanto podría ser una variable de confusión. Realizando un análisis multivariante, incluyendo en el modelo máximo: tratamiento, edad y el producto “tratamiento por edad” para evaluar la interacción y usando la estrategia hacia atrás
El modelo globalmente es significativo, evaluado con la prueba del logaritmo del cociente de verosimilitudes, que el SPSS denomina “prueba ómnibus”. El coeficiente del termino de interacción no es distinto de 0 (p=0,931) por lo tanto no se rechaza la hipótesis nula de no existencia de interacción y se elimina esa variable
Obsérvese que la variable EDAD es una variable de confusión: el riesgo relativo ha disminuido desde 1,892 estimado con el modelo simple a 1,449, Además ha dejado de ser significativo. En consecuencia este sería el modelo final y la conclusión del análisis es que, una vez controlado por la edad, no hay diferencia significativa entre ambos tratamientos. http://www.hrc.es/bioest/Supervivencia_10.html (1 of 2) [02/01/2003 02:14:24]
Estrategias de modelización con el modelo de Cox
http://www.hrc.es/bioest/Supervivencia_10.html (2 of 2) [02/01/2003 02:14:24]
Medidas de frecuencia de la enfermedad. Introducción
MEDIDAS DE FRECUENCIA DE LA ENFERMEDAD V. Abraira Bibliografía: D.G.Kleinbaum, L.L.Kupper, H.Morgenstern Epidemiologic Research. Principles and Cuantitative Methods Van Nostrand Reinhold Company. 1982 Introducción La característica definitoria de la Epidemiología como ciencia es la cuantificación. Por ejemplo Rothman dice que la Epidemiología no es otra cosa que un “ejercicio de medición” y Anderson que es “el estudio de la ocurrencia de los procesos patológicos”. Por ello, ha desarrollado instrumentos para: Ø Medir la frecuencia de la enfermedad Ø Medirla en relación con sus supuestos determinantes La epidemiología clínica aplica el método epidemiológico para producir conocimiento sobre el proceso de la práctica clínica; aplica por tanto los mismos instrumentos para medir la frecuencia no sólo de la enfermedad sino también de otros eventos que ocurren en la práctica clínica: curar, solicitar una prueba diagnóstica, aplicar un tratamiento. Esto provoca a veces, alguna confusión terminológica de la que probablemente no estén exentos estos apuntes en los que se trata de estudiar Ø las medidas de frecuencia de un evento (en epidemiología suele ser enfermar, pero en epidemiología clínica también curación, muerte, etc.) Ø las medidas de asociación entre eventos (factores de riesgo, factores pronósticos, tratamientos, etc. con enfermar, curar, morir, etc.) y Ø las llamadas medidas de impacto
Otras lecturas F.Pozo, J.R.Ricoy, P.Lázaro. Una estrategia de investigación en el Sistema Nacional de Salud: I. La epidemiología clínica. Medicina Clínica 1994; 102:664669.
http://www.hrc.es/bioest/Medidas_frecuencia_1.html [02/01/2003 02:15:54]
Prevalencia
Prevalencia Es la proporción de individuos de una población que presentan el evento en un momento, o periodo de tiempo, determinado. Por ejemplo la prevalencia de diabetes en Madrid en el año 2001 es la proporción de individuos de esa provincia que en el año 2001 padecían la enfermedad. Se calcula
Características Ø
Es una proporción: Ø no tiene dimensiones Ø su valor oscila entre 0 y 1, aunque a veces se expresa como porcentaje Ø Es un indicador estático, que se refiere a un momento temporal Ø Indica la “carga” del evento que soporta la población, tiene su mayor utilidad en los estudios de planificación de servicios sanitarios Ø En la prevalencia influye la velocidad de aparición del evento y su duración; es por ello poco útil en la investigación causal y de medidas terapéuticas
http://www.hrc.es/bioest/Medidas_frecuencia_2.html [02/01/2003 02:16:13]
Incidencia
Incidencia La incidencia refleja el número de nuevos “casos” en un periodo de tiempo. Es un índice dinámico que requiere seguimiento en el tiempo de la población de interés. Cuando la enfermedad es recurrente se suele referir a la primera aparición. Se puede medir con dos índices: incidencia acumulada y densidad (o tasa) de incidencia. Incidencia acumulada Es la proporción de individuos que desarrollan el evento durante el periodo de seguimiento. Se calcula
Características Ø
Es una proporción Ø no tiene dimensiones. Ø su valor oscila entre 0 y 1, aunque también se suele expresar como porcentaje Ø Depende del tiempo de seguimiento Ø Se calcula sobre una cohorte fija, es decir no se permiten entradas de nuevos individuos durante el seguimiento. La principal limitación de este índice proviene del efecto de cohorte fija, puesto que a lo largo del seguimiento generalmente se pierden individuos. Ejemplo 1: Se sigue durante 12 meses a un grupo de 6 individuos que han sufrido un accidente cerebro-vascular (ACV), para evaluar la incidencia de recidiva. La situación se puede esquematizar en la figura
http://www.hrc.es/bioest/Medidas_frecuencia_3.html (1 of 2) [02/01/2003 02:16:41]
Incidencia
Los rombos rojos señalan recidivas mientras que los círculos verdes señalan pérdidas: el paciente B desapareció del estudio a los 2,5 meses, sin que hasta ese momento hubiera sufrido una recidiva, el paciente D falleció por otra causa no relacionada con el ACV, los pacientes C y F acabaron el periodo de estudio sin recidiva. La IA en los 2 años de seguimiento es 2/6 Obsérvese la indeterminación de este índice debido a las pérdidas; en este ejemplo si se hubiera completado el periodo de observación en todos los individuos, B y D podrían haber tenido un nuevo ACV y la IA sería distinta.
http://www.hrc.es/bioest/Medidas_frecuencia_3.html (2 of 2) [02/01/2003 02:16:41]
Densidad de incidencia
Densidad (o tasa) de incidencia Para evitar la limitación de la incidencia acumulada se define este otro índice de incidencia:
La densidad, o tasa, de incidencia es el cociente entre el número de casos nuevos ocurridos durante el periodo de seguimiento y la suma de todos los tiempos de observación. Se calcula
Características: Ø Ø Ø
Tiene dimensión de inversa del tiempo. Rango ilimitado. No depende del tiempo de seguimiento, asumiendo estacionareidad, es decir ritmo constante. Ø No necesita cohorte fija.
Ejemplo 2 Supóngase para el ejemplo 1, el esquema de seguimiento de la figura:
Es decir, es una cohorte dinámica en la que se permite incorporaciones, por tanto el seguimiento no empezó al mismo tiempo para todos los individuos. Como en el ejemplo 1, los rombos rojos señalan recidivas mientras que los círculos verdes señalan pérdidas: el seguimiento de los pacientes D, E y F comenzó 1, 2 y 6 meses después de empezado el estudio, el paciente B http://www.hrc.es/bioest/Medidas_frecuencia_4.html (1 of 2) [02/01/2003 02:17:35]
Densidad de incidencia
desapareció del estudio a los 2,5 meses, sin que hasta ese momento hubiera sufrido una recidiva, el D falleció por otra causa no relacionada con el ACV, los pacientes C y F acabaron el periodo de estudio sin recidiva. La suma de los tiempos de observación es
y, por tanto, la densidad de incidencia
http://www.hrc.es/bioest/Medidas_frecuencia_4.html (2 of 2) [02/01/2003 02:17:35]
Intervalos de confianza de los índices de prevalencia e incidencia
Intervalos de confianza de los índices de prevalencia e incidencia La prevalencia y la incidencia acumulada son proporciones, por tanto sus IC se calculan como tales, es decir
Ejemplo 3: En una muestra aleatoria de 500 personas de un área, hay 5 diabéticos. La prevalencia estimada es
y su intervalo de confianza al 95%:
Para construir el intervalo de confianza de la densidad de incidencia hay que tener en cuenta que el numerador es una variable de Poisson cuya varianza es igual a su media, asumiendo que el denominador es constante, una manera aproximada de calcular el intervalo es:
siendo d el número de eventos y L la suma de los tiempos. El IC para el ejemplo 2 se calcula:
Nótese el valor negativo del límite inferior que indica que para los datos de este ejemplo la aproximación es mala.
http://www.hrc.es/bioest/Medidas_frecuencia_5.html [02/01/2003 02:18:16]
Medidas de asociación o efecto
Medidas de asociación o efecto Son medidas que se usan para evaluar la asociación entre un evento y un factor de estudio, por ejemplo: mutación de un gen (factor) y una enfermedad (evento); tratamiento (factor) y curación (evento). La mayoría de ellas ya han sido estudiadas en otra parte de estos apuntes y serán repasadas ahora. Comparan medidas de frecuencia del evento entre dos o más grupos, definidos por diferentes categorías del factor. En aras de la simplicidad, consideraremos sólo 2 grupos, uno de ellos, usado como referencia, no tiene el factor y el otro sí. La categoría de referencia debería tener un tamaño grande para obtener estimaciones precisas y ser suficientemente homogénea para facilitar la interpretación. Comparar dos medidas de frecuencia se puede hacer con su cociente (si no son distintas se obtiene 1) o con la diferencia (si no son distintas se obtiene 0) Las medidas basadas en el cociente, llamadas medidas de efecto, son: Ø Razón de tasas de incidencia Ø Riesgo relativo (cociente de prevalencias o cociente de incidencias acumuladas) Ø Odds ratio Las medidas basadas en la diferencia, llamadas medidas de impacto, son: Ø Diferencia absoluta (o exceso) de riesgo Ø Diferencia relativa de riesgo (o fracción atribuible) Ø Reducción absoluta de riesgo Ø Reducción relativa de riesgo Ø Número necesario a tratar
Otras lecturas recomendadas Jaeschke et al Assessing the effects of treatment: measures of association. CMAJ. 152:351-357. 1995 Abraira Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo. SEMERGEN 26: 535-536. 2000. Abraira Medidas del efecto de un tratamiento (II): odds ratio y numero necesario para tratar. SEMERGEN 27: 418-420. 2001.
http://www.hrc.es/bioest/Medidas_frecuencia_6.html [02/01/2003 02:19:10]
Razón de tasas de incidencia
Razón de tasas de incidencia También llamada razón de densidades de incidencia (RDI), es el cociente entre las tasas de incidencia de ambos grupos, poniendo en el denominador la del grupo de referencia.
En la tabla se representan esquemáticamente los resultados de un estudio que permita evaluar la RDI, en la columna nF figuran los eventos (d0) y las personastiempo (L0) en la categoría que no tiene el factor y en la columna F los de la categoría que sí tiene el factor
Eventos Personastiempo
nF d0 L0
F d1 L1
Total d L
A partir de la tabla
Características Ø Ø Ø Ø
no tiene dimensiones. rango de 0 a ∞. RDI=1 si no hay asociación entre la presencia del factor y el evento. RDI>1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RDI <1 si la asociación es negativa.
Ejemplo 4: En un ensayo clínico para evaluar el efecto del tratamiento con un IECA más un diurético opcional, en pacientes que habían sufrido un ACV, se estudió como evento la ocurrencia de otro ACV en los siguientes 4 años, los resultados fueron: Placebo Tratamiento Total ACV 420 307 727 Personas-año 11889 11983 23872 A partir de aquí: http://www.hrc.es/bioest/Medidas_frecuencia_61.html (1 of 2) [02/01/2003 02:19:39]
Razón de tasas de incidencia
que indica que en los pacientes tratados con el tratamiento experimental la tasa de incidencia de otro ACV es el 73% de la de los pacientes tratados con placebo.
Referencia PROGRESS Collaborative Group. Randomised trial of a perindopril-based bloodpressure-lowering regimen among 6105 individuals with previous stroke or transient ischaemic attack. Lancet 2001; 358:1033-1041.
http://www.hrc.es/bioest/Medidas_frecuencia_61.html (2 of 2) [02/01/2003 02:19:39]
Riesgo relativo
Riesgo relativo En epidemiología se denomina riesgo a la probabilidad de ocurrencia de un evento, típicamente enfermar, aunque también morir, curar, etc.(en la terminología anglosajona se usan los términos risk y hazard, este último especialmente si el evento es morir). Más precisamente (véase el cap 6 de Kleinbaum et al. para más detalles) se define el riesgo como la probabilidad de que un individuo, libre de enfermedad y susceptible de ella, la desarrolle en un periodo determinado, condicionada a que el individuo no muera a causa de otra enfermedad durante el periodo. La incidencia acumulada es un estimador de esta definición de riesgo, mientras que la prevalencia es un estimador de otra posible definición de riesgo: probabilidad de que un individuo de una determinada población tenga una enfermedad en un momento o periodo de tiempo determinado. En ambos casos se usa el cociente entre el riesgo en el grupo con el factor y el riesgo en el grupo de referencia como índice de asociación y se denomina riesgo relativo (RR). En la tabla se representan esquemáticamente los resultados de un estudio que permita evaluar el RR, en la columna nF figuran los eventos (“casos”: a0) y los “no casos” (b0) en la categoría que no tiene el factor y en la columna F los de la categoría que sí tiene el factor
Casos
nF a0
F a1
No casos Total
b0 n0
b1 n1
A partir de la tabla
Características Ø Ø Ø Ø
no tiene dimensiones. rango de 0 a ∞. RR=1 si no hay asociación entre la presencia del factor y el evento. RR>1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RR<1 si la asociación es negativa.
Ejemplo 5:
http://www.hrc.es/bioest/Medidas_frecuencia_62.html (1 of 2) [02/01/2003 02:20:49]
Riesgo relativo
Otra forma de resumir los resultados del ensayo clínico del ejemplo 4 es:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
Y a partir de la tabla:
http://www.hrc.es/bioest/Medidas_frecuencia_62.html (2 of 2) [02/01/2003 02:20:49]
Odds ratio
Odds ratio Existe otra manera, proveniente del mundo del juego, de representar la probabilidad de ocurrencia de un evento y es mediante el cociente entre la probabilidad de que ocurra el evento y la probabilidad de que no ocurra. Este cociente, que en inglés se denomina odds y para el que no hay una traducción española comúnmente aceptada, indica cuanto más probable es la ocurrencia del evento que su no ocurrencia. El odds ratio (OR) es el cociente entre el odds en el grupo con el factor y el odds en el grupo sin el factor. A partir de la tabla en la que en la columna nF figuran los eventos (“casos”: a0) y los “no casos” (b0) en la categoría que no tiene el factor y en la columna F los de la categoría que sí tiene el factor
Casos
nF a0
F a1
No casos Total
b0 n0
b1 n1
El OR se calcula
Características Ø Ø Ø Ø
no tiene dimensiones. rango de 0 a ∞. OR=1 si no hay asociación entre la presencia del factor y el evento. OR>1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y OR<1 si la asociación es negativa.
Relaciones entre el OR y el RR Ø Ø
RR más intuitivo. OR se puede estimar siempre y de la misma forma; el RR no se puede en los diseños casos control. Ø El OR permite, mediante la regresión logística, ajustar por variables de confusión. http://www.hrc.es/bioest/Medidas_frecuencia_63.html (1 of 2) [02/01/2003 02:21:16]
Odds ratio
Ø Ø
El OR está siempre más alejado de 1 que el RR. Si el riesgo es bajo, son muy parecidos.
Ejemplo 6: Para la tabla del ejemplo 5:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
El OR se calcula:
Obsérvese que es más distinto de 1 que el RR.
http://www.hrc.es/bioest/Medidas_frecuencia_63.html (2 of 2) [02/01/2003 02:21:16]
Diferencia absoluta de riesgo
Diferencia absoluta de riesgo También llamada exceso de riesgo, se calcula como la diferencia entre el riesgo en el grupo con el factor y el riesgo en el grupo control. A partir de la tabla
Casos
nF a0
F a1
No casos Total
b0 n0
b1 n1
La DAR se calcula
Características Ø Ø Ø Ø
no tiene dimensiones. rango de –1 a 1. DAR=0 si no hay asociación entre la presencia del factor y el evento. DAR>0 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y DAR<0 si la asociación es negativa.
Ejemplo 7: Para los datos del ejemplo 5:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
La DAR es:
como es negativo indica que el riesgo en el grupo tratado es menor que en el grupo placebo; por cada 100 pacientes tratados se producen 3,7 ACV menos respecto a los que se producirían si no se trataran. En general, se suele usar este índice cuando el riesgo en el grupo expuesto es mayor que en el grupo control, es decir cuando la DAR es positiva, en caso contrario (como en el ejemplo) se usa la reducción absoluta de riesgo. http://www.hrc.es/bioest/Medidas_frecuencia_64.html (1 of 2) [02/01/2003 02:21:38]
Diferencia absoluta de riesgo
http://www.hrc.es/bioest/Medidas_frecuencia_64.html (2 of 2) [02/01/2003 02:21:38]
Reducción absoluta de riesgo
Reducción absoluta de riesgo Se calcula como la diferencia entre el riesgo en el grupo control y el riesgo en el grupo con el factor; es, por tanto igual a la diferencia absoluta de riesgo cambiada de signo. A partir de la tabla
Casos
nF a0
F a1
No casos Total
b0 n0
b1 n1
La RAR se calcula
Características Ø Ø Ø Ø
no tiene dimensiones. rango de –1 a 1. RAR=0 si no hay asociación entre la presencia del factor y el evento. RAR<0 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RAR>0 si la asociación es negativa.
Ejemplo 8: Para los datos del ejemplo 5:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
La RAR es:
que, similarmente a la diferencia absoluta de riesgo, se interpreta como que por cada 100 pacientes tratados se producen 3,7 ACV menos respecto a los que se producirían si no se trataran.
http://www.hrc.es/bioest/Medidas_frecuencia_65.html (1 of 2) [02/01/2003 02:22:04]
Reducción absoluta de riesgo
http://www.hrc.es/bioest/Medidas_frecuencia_65.html (2 of 2) [02/01/2003 02:22:04]
Diferencia relativa de riesgo
Diferencia relativa de riesgo También llamada fracción atribuible, se calcula como el cociente entre la diferencia absoluta de riesgo y el riesgo en el grupo control. A partir de la tabla
Casos
nF a0
F a1
No casos Total
b0 n0
b1 n1
La DRR se calcula
Reducción relativa de riesgo De modo similar se define, y se suele usar cuando el riesgo en el grupo expuesto (con el factor) es menor que el riego del grupo control, la reducción relativa del riesgo como el cociente entre la reducción absoluta de riesgo y el riesgo en el grupo control.
Ejemplo 9: Para los datos del ejemplo 5:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
La DRR es:
http://www.hrc.es/bioest/Medidas_frecuencia_66.html (1 of 2) [02/01/2003 02:22:23]
Diferencia relativa de riesgo
y la RRR
que indica que el riesgo del grupo tratado se reduce un 26,8% del riesgo del grupo control.
http://www.hrc.es/bioest/Medidas_frecuencia_66.html (2 of 2) [02/01/2003 02:22:23]
Número necesario a tratar
Número necesario a tratar Es el índice más reciente y fue propuesto en el contexto de los ensayos clínicos para evaluar el impacto del un tratamiento. Cobra, por tanto, todo su sentido cuando el factor a estudio es un tratamiento. Se define como el número de individuos que hay que tratar con el tratamiento experimental para producir, o evitar, un evento adicional respecto a los que se producirían con el tratamiento control. Se calcula como el inverso de la RAR A partir de la tabla
Casos
nF a0
F a1
No casos Total
b0 n0
b1 n1
El NNT se calcula como
La relacción entre la RAR y el NNT, puede entenderse mediante una simple “regla de tres”: puesto que la RAR, multiplicada por 100 para expresarla como porcentaje, se interpreta como que por cada 100 pacientes tratados se producen RAR eventos menos, para producir 1 menos necesitamos tratar 100/(RARx100) = 1/RAR Ejemplo 10: Para los datos del ejemplo 5:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
El NNT es:
y significa que por cada 27 pacientes tratados con el tratamiento experimental se evitaría 1 recurrencia de ACV.
http://www.hrc.es/bioest/Medidas_frecuencia_67.html (1 of 2) [02/01/2003 02:23:02]
Número necesario a tratar
http://www.hrc.es/bioest/Medidas_frecuencia_67.html (2 of 2) [02/01/2003 02:23:02]
Comparación de los distintos índices
Comparación de los distintos índices Para los datos del ejemplo 5:
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
Hemos encontrado los siguientes índices: RR=0,73 OR=0,70 NNT=27 RAR=3,7% RRR=26,8%
Todos ellos calculados con la misma tabla, por lo tanto todos ellos expresan exactamente el mismo efecto. Hay que notar, sin embargo que las relaciones entre ellos no se mantienen entre diferentes estudios (es decir, por ejemplo no siempre un RR=0,73 es equivalente a un OR=0,70 ni a un NNT=27, aunque siempre RAR=3,7% es equivalente a NNT=27). Existe evidencia empírica1,2 de que el efecto apreciado por los lectores de la investigación médica depende en gran medida del índice usado, por lo tanto conviene familiarizarse con ellos y sus relaciones. De la experiencia de cientos de meta-análisis se desprende que los índices relativos (RR y OR) tienden a ser más parecidos entre diferentes ensayos del mismo tratamiento que los índices absolutos (RAR y NNT), o dicho de otra manera los índices relativos serían característicos del tratamiento, mientras que los absolutos dependerían del tratamiento y también del riesgo del grupo control. Para decidir si el resultado de un estudio, expresado con un índice absoluto como el NNT, es aplicable en nuestro medio, hay que evaluar si el riesgo basal del estudio se similar al de nuestro medio y en caso contrario adaptar el índice a nuestro riesgo basal. Igualmente, en un metanálisis, el cálculo de un NNT global puede ser poco informativo si en los ensayos individuales hay heterogeneidad en los riesgos basales. Otras lecturas recomendadas 1. Meneu Ricardo R., Peiró S, Márquez Calderón S. Influencia de la presentación de los resultados de los ensayos clínicos en la intención de prescribir: relativizando el riesgo relativo. Aten Primaria 1998; 21:446-450. 2. Bobbio M, Demichelis B, Giustetto G. Completeness of reporting trial results: http://www.hrc.es/bioest/Medidas_frecuencia_7.html (1 of 2) [02/01/2003 02:23:56]
Comparación de los distintos índices
effect on physicians' willingness to prescribe. Lancet 1994; 343:1209-1211.
http://www.hrc.es/bioest/Medidas_frecuencia_7.html (2 of 2) [02/01/2003 02:23:56]
Intervalos de confianza de las medidas de asociación
Intervalos de confianza de las medidas de asociación Los intervalos de confianza aproximados al 95% para todas las medidas que se han descrito se calculan como: Razón de tasas de incidencia
el estadístico
se calcula a partir de la tabla nF d0 L0
Eventos Personastiempo
F d1 L1
Total d L
Ejemplo 11: Para construir el intervalo de confianza de la RDI de la tabla del ejemplo 4, primero se debe calcular la Placebo Tratamiento Total ACV 420 307 727 Personas-año 11889 11983 23872
y como la RDI estimada es igual a 0,73 el intervalo de confianza queda:
Riesgo relativo Para este índice y los siguientes la tabla es
Casos
nF a0
F a1
No casos
b0
b1
http://www.hrc.es/bioest/Medidas_frecuencia_8.html (1 of 2) [02/01/2003 02:24:25]
Intervalos de confianza de las medidas de asociación
Total
n0
n1
Odds ratio
Reducción absoluta del riesgo (la fórmula es, obviamente, la misma para la diferencia absoluta de riesgo)
Para la reducción relativa del riesgo se dividen ambos límites del intervalo de la reducción absoluta por el riesgo en el grupo control y para el número necesario a tratar se invierten los límites del intervalo de la reducción absoluta del riesgo. Ejemplo 12: Los intervalos de todos los índices calculados para los datos del ejemplo 5
Casos No casos Total
Placebo Tratamiento 420 307 2634 2744 3054 3051
http://www.hrc.es/bioest/Medidas_frecuencia_8.html (2 of 2) [02/01/2003 02:24:25]
Demostraciones de las propiedades de la probabilidad
Demostraciones de las propiedades de la probabilidad 1) p(Ac) = 1 - p(A) por ii p(Ac) + p(A) = p(Ω) ⇒ p(Ac) = p(Ω) - p(A) y como por iii p(Ω)=1 se obtiene 1) 2) A1 ⊂ A2 ⇒ p(A1) ≤ p(A2) el suceso B = A1c ∩ A2 cumple A1 ∪ B = A2 y A1 ∩ B = ∅ por lo tanto, según ii) p(A2) = p(A1) + p(B) y según i) p(A2) ≤ p(A1) 3) p(∅) = 0 por 1) y iii) 4) p(A) ≤ 1 por 2 y iii) 5) p(A ∪ B) = p(A) + p(B) - p(A ∩ B) (Regla general de la adicción) A ∪ B = A ∪ (Ac ∩B) [1] En la gráfica se ve claramente, y más generalmente A ∪ (Ac ∩ B) = (A ∪ Ac) ∩ (A ∪ B) = Ω ∩ (A ∪ B) = A ∪ B y también A ∩ (Ac ∩B) = ∅, por lo tanto aplicando ii a [1] p(A ∪ B) = p(A) + p(Ac ∩ B) [2] si en [1] se hace la intersección con B B = (A ∩ B) ∪ (Ac ∩ B) [3] pero A ∩ B y Ac ∩ B son disjuntos (A ∩ B) ∩ (Ac ∩ B) = A ∩ Ac ∩ B ∩ B = ∅ por lo tanto aplicando ii) a [3] p(B) = p(A ∩ B) + p(Ac ∩ B) == p(Ac ∩ B) = p(B) - p(A ∩ B) y sustituyéndolo en [2] se obtiene 5 Volver a propiedades de la probabilidad
http://www.hrc.es/bioest/Probabilidad_14_demo.html [02/01/2003 02:30:48]
Demostración
Demostración de la Regla de la probabilidad total B=B ∩ Ω = B ∩ (A1 ∪ A2 ∪ ... ∪ An) = (B ∩ A1) ∪ (B ∩ A2) ∪ ... ∪ (B ∩ An) como los Ai son mutuamente excluyentes, también lo son B ∩ Ai, por lo tanto según el axioma ii p(B) = p(B ∩ A1) + p(B ∩ A2) + ... + p(B ∩ An) y como p(B ∩ Ai) = p(Ai) p(B|Ai) se obtiene la regla de la probabilidad total
http://www.hrc.es/bioest/Probabilidad_17_demo.html [02/01/2003 02:31:42]
Demostración del Teorema de Bayes
Demostración del Teorema de Bayes
Usando en el numerador la regla de la multiplicación y en el denominador la regla de la probabilidad total Volver a Teorema de Bayes
http://www.hrc.es/bioest/Probabilidad_18_demo.html [02/01/2003 02:32:41]
Ejemplos de tipos de histograma
Ejemplos de tipos de representaciones gráficas Histogramas: Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abcisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).
A veces es más útil representar las frecuencias acumuladas.
O representar simultáneamente los histogramas de una variable en dos situaciones distintas.
http://www.hrc.es/bioest/Ejemplos_histo.html (1 of 3) [02/01/2003 02:34:30]
Ejemplos de tipos de histograma
Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas.
Otra más
http://www.hrc.es/bioest/Ejemplos_histo.html (2 of 3) [02/01/2003 02:34:30]
Ejemplos de tipos de histograma
En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.
http://www.hrc.es/bioest/Ejemplos_histo.html (3 of 3) [02/01/2003 02:34:30]