Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE CIENCIAS BONDAD DE AJUSTE PARA LA DISTRIBUCIÓN LOGÍSTICA: PRUEBAS GRÁFICAS Y PRUEBAS FORMALES T E S I S QUE PARA OBTENER EL TÍTULO DE: A C T U A R I A P R E S E N T A : ERIKA NAYELI ABAD VIVERO DIRECTORA DE TESIS: MAT. MARGARITA ELVIRA CHÁVEZ CANO 2009 Neevia docConverter 5.1 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Hoja de Datos del Jurado 1. Datos del alumno Abad Vivero Erika Nayeli 57 82 67 01 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaría 300118744 2. Datos del tutor Mat. Margarita Elvira Chávez Cano 3. Datos del sinodal 1 Dra. Ruth Selene Fuentes García 4. Datos del sinodal 2 M. en D. Alejandro Mina Valdés 5. Datos del sinodal 3 Dra. María Edith Pacheco Gómez-Muñoz 6. Datos del sinodal 4 Act. Jaime Vázquez Alamilla 7. Datos del trabajo escrito Bondad de Ajuste Para la Distribución Logística: Pruebas Gráficas y Pruebas Formales 142 p 2009 Neevia docConverter 5.1 Agradecimientos A la Universidad Nacional Autónoma de México y a quienes hacen posible que la Educación Superior sea Pública y de Calidad. A mi querida Facultad de Ciencias y todos sus valiosos profesores. A mis sinodales: Dra. Ruth Selene Fuentes García, Dra. María Edith Pacheco Gómez- Muñoz, M. en D. Alejandro Mina y Act. Jaime Vázquez Alamilla, por sus valiosos comentarios y recomendaciones. Y de manera muy especial quiero agradecer a mi tutora Mat. Margarita Elvira Chávez Cano por su apoyo constante y decidido sin el cual no hubiera sido posible este trabajo. Neevia docConverter 5.1 Dedicatoria A aquellos que siempre me han hecho soñar y creer en un mejor futuro…siempre me hacen a volver a la esperanza: Mis abuelos, mis raíces siempre presentes. Mis padres María del Refugio y Luis Manuel, ejemplos de superación constante. Mi fuente de fortaleza y permanencia. Mis padrinos Luz María y Francisco Javier, por su consejo y cariño constantes. Mis hermanas Úrsula, Bárbara y Lucía, por seguir su “signo”, sus convicciones. Mi compañero Emmanuel, por mostrarme nuevos “ingredientes para que el pan que muchos llaman mañana se cocine…” Neevia docConverter 5.1 “Yo sueño que estoy aquí destas prisiones cargado, y soñé que en otro estado más lisonjero me vi. ¿Qué es la vida? Un frenesí. ¿Qué es la vida? Una ilusión, una sombra, una ficción, y el mayor bien es pequeño; que toda la vida es sueño, y los sueños, sueños son." Pedro Calderón de la Barca Neevia docConverter 5.1 http://es.wikiquote.org/wiki/Vida http://es.wikiquote.org/wiki/Sue%C3%B1o INDICE I.Introducción 8 CAPÍTULO I. Información general sobre la Distribución Logística 10 1.1 Antecedentes Históricos. 10 1.2 Características y propiedades básicas de la distribución logística. 13 1.3 Pruebas de Bondad de Ajuste 22 1.4 Muestras Censuradas 24 CAPÍTULO II. Pruebas de Bondad de Ajuste para la Distribución Logística: Técnicas gráficas 26 2. 1 Función de Distribución Empírica 27 2.2 Prueba gráfica de bondad de ajuste utilizando la gráfica de la función de distribución empírica. 31 2.2.1 Ejemplos 32 2.2.2 Conclusiones y recomendaciones 34 2.3 Gráfica de Probabilidad de la Función Logística 35 2.3.1 Definición 35 2.3.2 Casos especiales 36 2.3.3 Gráficas de Bondad de ajuste y estimación de parámetros 38 2.3.4 Detección de desviaciones de linealidad en gráficas de probabilidad de la función logística 40 2.3.5 Gráficas de probabilidad para muestras censuradas. 44 2.3.6 Ejemplos 54 CAPÍTULO III. Pruebas de Bondad de Ajuste para la Distribución Logística: Técnicas formales. 58 3.1 Pruebas del tipo Ji-cuadrada. 58 3.1.1 Las pruebas Clásicas de la Ji-cuadrada. 59 3.1.2 Sobre el número de celdas 65 Neevia docConverter 5.1 3.1.3 Elección de una prueba 68 3.1.4 Ejemplos 68 3.2 Las pruebas Ji-Cuadradas generales: Celdas dependientes de los datos. 78 3.2.1 Ejemplos 79 3.2.2 Conclusiones y recomendaciones 85 3.3 Pruebas basadas en estadísticas EDF 85 3.3.1 Hipótesis Simple 93 3.3.2 Hipótesis Compuesta 102 3.3.3 Ejemplos 106 3.3.4 Transformaciones uniformes 113 3.4 Pruebas basadas en espacios normalizados 115 3.4.1 Estadística Anderson-Darling A2 modificada 115 3.4.2 Estadística de Tiku 117 3.4.3 Ejemplos 119 3.5 Pruebas basadas en regresión y correlación 123 3.5.1 Modelos de pruebas de regresión 127 3.5.2 Pruebas basadas en el coeficiente de determinación 128 3.5.3 Otras pruebas 129 3.5.3 Ejemplos 130 Conclusiones 135 Bibliografía 137 Neevia docConverter 5.1 I.Introducción En muchos casos, probar bondad de ajuste es solo un eslabón de la gran meta: puede ser desde el paso inicial o incluso el paso cúspide de todo un análisis estadístico o propuesta de modelo. No por ser uno de los muchos posibles pasos del análisis pierde valía. De hecho, el problema de Bondad de Ajuste es inherente a cualquier análisis estadístico formal pues siempre que se genera una hipótesis sobre la distribución de las observaciones muestrales es necesario probarla. Considerando que la distribución Logística es de las distribuciones más conocidas se vió la necesidad de retomar las principales técnicas para evaluar la Bondad de Ajuste de esta distribución. Es de hacer notar que la distribución logística ha ido ganando popularidad por ser una función sencilla y efectiva para modelar fenómenos relacionados con el crecimiento, desde el de la población humana hasta la penetración o crecimiento que tiene un nuevo producto o una nueva tecnología enel mercado. A pesar de ser una distribución “popular”, las técnicas de bondad de ajuste para ella no son tan conocidas. De hecho, las pruebas paramétricas más conocidas están limitadas a la distribución normal y acaso a la distribución exponencial. Por otra parte, aunque hay un buen número de técnicas no- paramétricas, éstas necesitan consideraciones especiales para cada distribución. En este sentido y con el propósito de contar con una herramienta útil en las principales áreas de aplicación de un actuario como la ciencia actuarial y sus aplicaciones tradicionales en el ramo de seguros y pensiones, pero también en áreas como la demografía, salud pública, o incluso en mercadotecnia (conocer la duración de vida de un producto en el mercado o el tiempo que tarda una innovación en entrar totalmente, o ganar su mercado) se presentan las técnicas más representativas para probar bondad de ajuste de la distribución logística. El objetivo general de este trabajo es retomar las técnicas o pruebas más útiles para probar Bondad de Ajuste de una Distribución Logística, hacer un balance sobre sus alcances y limitaciones, así como analizar la posibilidad de ser complementadas entre sí. Como primer paso, se vió la necesidad de entender el origen de esta distribución a partir de las motivaciones y los personajes que propiciaron su desarrollo. Este acercamiento abre paso para reconocer las principales características de la distribución logística. En el capítulo I se abordan estos temas. En los capítulos II y III se muestran las Técnicas Gráficas y las Técnicas Formales, donde para ejemplificar cada una de las técnicas propuestas se decidió utilizar dos conjuntos de datos: el llamado LOG,y el NOR que por construcción se sabe tienen una función de distribución logística L(100, 18.14) y distribución normal N(100, 10) respectivamente.. El objetivo de utilizar estos datos es mostrar cómo cada una de las técnicas propuestas resulta más potente para detectar distintos comportamientos, pues dadas las características de la distribución logística es frecuente que sea “confundida” por una distribución normal. Neevia docConverter 5.1 Dado que en muchas de las áreas de aplicación de un actuario se trabaja con observaciones relacionadas a la supervivencia, se incorpora el enfoque de muestras censuradas para cada una de las técnicas descritas en los capítulos II y III. La intención es desarrollar las técnicas de bondad de ajuste en el más puro sentido del análisis de supervivencia al incorporar las consideraciones necesarias para trabajar con observaciones censuradas, de manera que el aporte parcial de cada observación no sea ignorada y se cuente con toda la información disponible. Ésto está en sintonía con el sentido primero de la estadística: analizar el fenómeno con toda la información posible. Cabe mencionar que las técnicas o metodologías aquí presentadas pretenden ser lo más útiles posible en la práctica, por lo que técnicas de mayor complejidad son omitidas o solo mencionadas como antecedente de las técnicas propuestas. Neevia docConverter 5.1 CAPÍTULO I. Información general sobre la Distribución Logística 1.1 Antecedentes Históricos. Estudiosos de la historia de las matemáticas, en este caso de la historia de la distribución logística, tal como J.S. Cramer (The origins and development of the logit model, 2003) establecen que los orígenes de la distribución logística se remontan al siglo XIX, en pleno desarrollo de los primeros estudios de dinámica de poblaciones por una parte y el estudio de las reacciones químicas autocatalíticas. En cuanto a los estudios de dinámica de población, se sabe que esta área del conocimiento se encarga de estudiar los cambios, ya sean marginales o de largo plazo, que sufre una o más poblaciones en su número de integrantes o en la composición por peso, edad, etc. De hecho, los estudios de dinámica de población han ido ampliando su campo de acción y se interesan en entender los procesos biológicos, ambientales y, en el caso de poblaciones humanas, los procesos sociales que influyen en los cambios de la población. Thomas Robert Malthus (1766-1834), demógrafo y economista inglés, aportó con su Modelo de Crecimiento de Malthus las bases de la dinámica de población. Incluso, el primer principio de dinámica de población es ampliamente aceptado como la ley exponencial de Malthus. Fue entre 1789 y 1826 que Malthus publicó seis ediciones de su famoso “An Essay on the Principle of Population” incorporando en cada una de ellas innovaciones, espacio para sus críticos e incluso cambios a sus propios puntos de vista sobre el tema. Sin embargo, desde su primera edición tuvo gran repercusión en el pensamiento de sus contemporáneos y resultó una influencia importante en investigadores de áreas como demografía, economía y biología. Mientras que teóricos e investigadores del pensamiento y acción económica como John Maynard Keynes o David Ricardo eran influidos notablemente por el trabajo de Malthus 1 , en el área de biología o de la evolución el mismo Charles Darwin no escapó de la influencia de su trabajo. Gracias a Malthus, Darwin reconoció el valor de la competencia entre poblaciones, ya sea entre diferentes especies o incluso entre individuos de la misma especie (Young, R.M. 1985). Cramer (2003) apunta que en el siglo XIX los estudios de dinámica de población causaban un interés tal que no solo demógrafos estaban involucrados. Tal es el caso de Alphonse Quetelet, astrónomo de formación pero dedicado a la estadística. Él estaba al tanto de los últimos y más innovadores teorías del área, en especial de la teoría de Malthus sobre el crecimiento de la población. Alphonse Quetelet estaba consciente de un detalle muy 1 http://william-king.www.drexel.edu/top/prin/txt/equil/malthus.html http://cepa.newschool.edu/het/profiles/malthus.htm Neevia docConverter 5.1 http://william-king.www.drexel.edu/top/prin/txt/equil/malthus.html http://cepa.newschool.edu/het/profiles/malthus.htm importante en el modelo de Malthus: que una población humana por si sola crecería en progresión geométrica. Bajo este modelo, la extrapolación de un crecimiento exponencial, si se lleva al uso indiscriminado para valores grandes en el tiempo, lleva a valores imposibles de población humana. Lo anterior puede verse más claramente si consideramos que la derivación del modelo de Malthus, así como la derivación del modelo del curso de una reacción autocatalítica, consideraron en primera instancia el desarrollo en el tiempo de una cierta cantidad P(t) y su tasa de crecimiento simplemente como: 𝑃 (𝑡) = 𝑑𝑃(𝑡) 𝑑𝑡 (1.1) Donde la primera suposición fue que 𝑃 (𝑡) es proporcional a 𝑃 𝑡 : 𝑃 𝑡 = 𝛽𝑃 𝑡 (1.2) Donde 𝛽 es la tasa de crecimiento y es constante pues se define como 𝛽 = 𝑃 𝑡 𝑃 𝑡 . Este modelo llevó directamente a una solución exponencial: 𝑃 𝑡 = 𝐴𝑒𝛽𝑡 (1.3) Donde la constante A suele ser remplazada por la condición inicial P(0). Si con P(t) nos estamos refierendo, ya sea a la población de un país o al curso de una reacción química autocatalítica, este modelo estaría reflejando un crecimiento sin oposición. Es en este punto donde la teoría de Maltus encontró tanto detractores como curiosos. Entre ellos Alphonse Quetelet y su pupilo Pierre Francois Verhulst. Quetelet y Verhulst 2 trabajaron para encontrar el término adecuado para modelar la “resistencia” que de manera lógica o natural debe enfrentar el crecimiento de una 2 Siguiendo similares motivaciones y también de principios del siglo XIX sobresale el trabajo de Benjamin Gompertz . La Ley de Mortalidad de Gompertz sería utilizada ampliamente por las compañías aseguradoraspara calcular el costo del seguro de vida. Incluso, hoy en día la llamada curva de mortalidad de Gompertz es el modelo base de muchos cálculos actuariales . El modelo de Gompertz publicado en 1825 tenía la forma siguiente: 𝑁 ′ 𝑡 = 𝑟𝑁 𝑡 𝑙𝑜𝑔 𝐾 𝑁(𝑡) Neevia docConverter 5.1 población. El primer paso fue decidir que esta resistencia sería una cierta función 𝜑(. ) que estaría también en función del nivel actual de población: 𝑃 𝑡 = 𝛽𝑃(𝑡) − 𝜑(𝑃 𝑡 ) (1.4) Pierre F. Verhulst, matemático belga y doctor en Teoría de los Números por la Universidad de Ghent, para 1838 tenía lista la que sería primero conocida como la ecuación de Verhulst y más tarde como la función logística. Él derivó su équation logistique para describir el crecimiento auto-limitante de una población de seres vivos. La aportación importante de Verhulst, es decir la derivación de la función logística, consistió en usar a la función 𝜑 como una función cuadrática simple, de manera que puede ser escrita como: 𝑃 𝑡 = 𝛽𝑃(𝑡) Ω − 𝑃(𝑡) (1.5) Donde Verhulst incorpora la idea de que existe un límite superior o un nivel de saturación de la población, Ω, y que el crecimiento de la población no solo depende del tamaño de la población actual sino que es también proporcional al “espacio disponible” o Ω − 𝑃 𝑡 . Si 𝑃 𝑡 es expresado como una proporción entre la población al momento t y el nivel de saturación de la población 𝑃 𝑡 = 𝑊(𝑇) Ω el modelo queda expresado como: 𝑃 𝑡 = 𝛽𝑃(𝑡) 1 − 𝑃(𝑡) (1.6) Donde 𝑃 𝑡 es el número de individuos al tiempo t, 𝛽 es la tasa de crecimiento de la población y Ω es la capacidad o número máximo de individuos que el medio puede soportar. En términos más sencillo, este modelo de crecimiento de la población establece que: La tasa de reproducción o tasa de crecimiento es proporcional al nivel actual de población, siempre que todas las demás variables se mantengan constantes. La tasa de reproducción o tasa de crecimiento es proporcional a los recursos existentes, siempre que todas las demás variables se mantengan constantes. Donde 𝑁 𝑡 es el número de individuos al tiempo t, 𝑟 es la tasa de crecimiento intrínseca y 𝐾 hace referencia al número de individuos en equilibrio. Neevia docConverter 5.1 De hecho, el segundo punto modela la relación de competencia por los recursos existentes, que al final resulta ser el mayor limitante en el crecimiento de una población. La ecuación de Verhulst puede ser integrada exactamente. De hecho, la solución para esta ecuación diferencial es la expresión que Verhulst bautizó como función logística: 𝑃 𝑡 = exp(𝛼 + 𝛽𝑡) 1 + exp(𝛼 + 𝛽𝑡) (1.7) De manera que de acuerdo a la ecuación de Verhulst la población en el tiempo t será: 𝑃 𝑡 = Ω exp(𝛼 + 𝛽𝑡) 1 + exp(𝛼 + 𝛽𝑡) (1.8) Donde, lim𝑡→∞ 𝑃 𝑡 = Ω. Verhulst publicó , aunque de manera modesta , entre 1938 y 1947 su modelo en tres artículos. En ellos otorga, sin dar mayor explicación, el nombre de curva logística a su modelo y también presenta evidencias de lo bien que la curva describía los niveles de población de Francia, Bélgica, Essex y Rusia para los años anteriores a 1833. Desafortunadamente la muerte prematura de Verhulst y su carácter serio o reservado limitaron la difusión de su trabajo. Incluso el propio Quetelet, tutor de Verhulst, desdeñó los resultados obtenidos por su pupilo de manera que quedaron en el olvido total. Finalmente, la historia le hizo justicia al primer descubridor de la función logística: el matemático belga C. Verhulst es reconocido de manera oficial como el descubridor de la función tal como la concebimos actualmente. Aunque cabe decir que su posterior desarrollo estuvo determinado por “... acciones individuales e historias personales de unos cuantos estudiosos: el redescubrimiento de la función de crecimiento se debe a Pearl y Reed (1920), el renacimiento del término logístico a Yule (1925) y la introducción de la función en el campo de la investigación biomédica (y por lo tanto en Estadística) a Berkson.” 3 1.2 Características y propiedades básicas de la distribución logística. Sin duda, el teorema del límite central fue un parteaguas pues abrió paso a un gran rango de posibilidades tanto en la práctica como en el desarrollo y estudio de las funciones de distribución. 3 Crámer, J. S. The origins and development of the logit model. (2003) Neevia docConverter 5.1 Como bien resume Emmanuel Lesigne (2005, págs. 29-31), este teorema es resultado del trabajo sucesivo de Abraham de Moivre (The Doctrine of Chance, Londres 1718), Pierre Simon Laplace (Théorie analytique des probabilités, París 1812) y Carl Friedrich Gauss (Theoria combinationis observationionum erroribus minimus obnoxiae, 1821). El descubrimiento de De Moivre fue la curva normal, descubrimiento que abrió la puerta a la del teorema del límite central de De Moivre-Laplace, que sería finalmente complementado por Gauss. Fue precisamente Karl Friedrich Gauss, debido en gran medida a su capacidad de trabajar tanto en la parte pura como en la aplicada, uno de los primeros en usar la curva normal y en mostrar las múltiples aplicaciones. De esta manera, con el teorema del límite central se establece el rol universal de la famosa curva de campana, la distribución normal. Con el paso del tiempo se vio la necesidad de modelar los fenómenos de distintas naturalezas con modelos más afines a sus características y claro, para muestras finitas. Así para los fenómenos que implican un crecimiento, la distribución logística ha demostrado ser de las distribuciones más apropiadas. Actualmente la distribución logística es una de las funciones de probabilidad más conocida. A través del tiempo ha sido utilizada para modelar desde crecimiento de poblaciones, reacciones autocatalíticas, la velocidad de expansión de una innovación tecnológica, diagnósticos médicos, salud pública o incluso para medir los cambios porcentuales día a día del índice S&P (Standar and Poor´s), entre otras aplicaciones. Sus características y propiedades principales son muy conocidas. Entre ellas destacan (Balakrishnan, N. en Handbook of the Logistic Distribuction, capítulo I): Función de densidad: 𝑓 𝑥; 𝜇,𝜎 = 𝜋 𝜎 3 𝑒−𝜋 𝑥−𝜇 /𝜎 3 1 + 𝑒−𝜋 𝑥−𝜇 /𝜎 3 2 (1.9) Con −∞ < 𝑥 < ∞, −∞ < 𝜇 < ∞ , 𝜎 > 0. Función de distribución: 𝐹(𝑥; 𝜇,𝜎) = 1 1 + 𝑒−𝜋 𝑥−𝜇 /𝜎 3 (1.10) Donde, por ser función de distribución se sabe cumple: lim 𝑥→−∞ 𝐹 𝑥; 𝜇,𝜎 = 0 𝑦 lim 𝑥→∞ 𝐹 𝑥; 𝜇,𝜎 = 1 Neevia docConverter 5.1 Para la variable aleatoria 𝑌 = 𝑋−𝜇 𝜎 , la función logística estandarizada, 𝐿 0,1 , con 𝜇 = 0 y 𝜎 = 1 tiene función de densidad: 𝑓(𝑦) = 𝜋 3 𝑒−𝜋𝑦 / 3 1 + 𝑒−𝜋𝑦 / 3 2 (1.11) Y función de distribución: 𝐹 𝑦 = 1 1 + 𝑒 − 𝜋𝑦 3 (1.12) Si se define la variable aleatoria: 𝑍 = 𝜋(𝑋 − 𝜇)/𝜎 3 = 𝜋𝑌/ 3 (1.13) La función de densidad y la función de distribución se simplifican y facilitan su uso: 𝑓∗ 𝑧 = 𝑒−𝑧 1 + 𝑒−𝑧 2 (1.14) 𝐹∗(𝑧) = 1 1 + 𝑒−𝑧 (1.15) Esta transformación también es conocida como una forma estándar y simplificada de la distribución logística y será denotada por L(0,1) (distribución logística estándar). A partir de las gráficas de la función de densidad y la función de distribución es posible apreciar que la función dedensidad de L(0,1) es simétrica alrededor del cero y tiene una punta más alta que la de la distribución normal. La llamada función de riesgo (hazard function) de la variable 𝑌: 𝐻 𝑌 = ln 1 + 𝑒−𝜋𝑌/ 3 (1.16) Neevia docConverter 5.1 Así como la tasa de falla (failure rate) o tasa riesgo (hazard rate) h(y), es el cociente de la función de distribución y la función de supervivencia S(y). En el caso de la logística estándar 𝐿 0,1 toma la forma: (𝑦) = 𝑓(𝑦) 𝑆(𝑦) = 𝑓(𝑦) 1 − 𝐹(𝑦) = 𝜋 3 1 + 𝑒−𝜋𝑌/ 3 (1.17) Fig. 1.1 Función de densidad de una v.a. L(0,1) Fig. 1.2 Función de distribución de una v.a. L(0,1) 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 f(y) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 -3 -2 -1 0 1 2 3 F(y) Neevia docConverter 5.1 Para una variable aleatoria positiva y continua, en este caso Y, la cual se interpreta como la duración de vida de cierto objeto, la función riesgo se refiere a la razón de cambio de la probabilidad de no supervivencia entre t y t+1 dado que al tiempo t sobrevive. Dicho de otra manera, la función de riesgo proporciona información sobre la probabilidad de que un objeto que sobrevive al tiempo t no sobreviva para un tiempo adicional dt. Fig. 1.3 Función de riesgo de una v.a. L(0,1). En cuanto a la gráfica de la función distribución y de la función riesgo, es notoria la relación de proporcionalidad entre ellas. Esta peculiar característica de la función logística le valió ser considerada como una buena distribución para modelar el crecimiento de una población. No solo existe en el caso de la función logística una relación de proporcionalidad entre su función de distribución y su función riesgo. Basta recordar que para cualquier variable aleatoria continua, su función de distribución puede ser especificada a partir de la función de riesgo (ver Ross 2002) 4 : (𝑦) = 𝑓(𝑦) 𝑆(𝑦) = 𝑓(𝑦) 1 − 𝐹(𝑦) = 𝑑 𝑑𝑦 𝐹(𝑦) 1 − 𝐹(𝑦) (1.17) Al integrar ambos lados de la igualdad se tiene: 4 Ross, S. A first Course in Probability. Sexta edición 2002. 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 -3 -2 -1 0 1 2 3 h(y) Neevia docConverter 5.1 (𝑦)𝑑𝑦 = 𝑑 𝑑𝑦𝐹(𝑦) 1 − 𝐹(𝑦) 𝑦 0 𝑦 0 = 𝑑𝑢 𝑢 𝑢 0 (1.18) Si 𝑢 = 1 − 𝐹(𝑦) y entonces 𝑑𝑢 = − 𝑑 𝑑𝑦 𝐹(𝑦) 𝑦 𝑑𝑦 = − ln 𝑢 + 𝑐 = −ln(1 − 𝐹 𝑦 ) 𝑦 0 + 𝑐 (1.19) De manera que: ln(1 − F y ) = − 𝑦 𝑑𝑦 𝑦 0 + 𝑐 (1.20) o bien: 1 − 𝐹(𝑦) = 𝑒𝑐𝑒𝑥𝑝 − 𝑦 𝑑𝑦 𝑦 0 (1.21) 𝐹(𝑦) = 1 − 𝑒𝑥𝑝 − 𝑦 𝑑𝑦 𝑦 0 (1.22) De esta relación entre la función de distribución y la función riesgo, también se desprende la llamada función de riesgo acumulada, que es la integral de la función riesgo y se interpreta como la probabilidad de que ocurra una falla al tiempo t dado que había sobrevivido hasta el tiempo t: 𝐻(𝑡) = 𝑦 𝑑𝑦 𝑡 0 (1.23) O, alternativamente, como lo muestra la relación anterior: 𝐻(𝑡) = −ln(1 − 𝐹 𝑡 ) (1.24) Neevia docConverter 5.1 En busca de una descripción directa y sin complicaciones de cálculo del crecimiento logístico, es frecuente se utilice a la variable aleatoria 𝑍 = 𝜋𝑌/ 3 para describir las principales características y propiedades (Balakrishnan, N. 1992): Función generadora de momentos 𝑀𝑧 𝑡 = 𝐸 𝑒 𝑡𝑍 = 𝑒−𝑧𝑒𝑡𝑧 1 + 𝑒−𝑧 2 ∞ −∞ 𝑑𝑧 = 𝑒− 1−𝑡 𝑧 1 + 𝑒−𝑧 2 ∞ −∞ 𝑑𝑧 = 𝑢𝑡(1 − 𝑢)𝑡𝑑𝑢 𝑐𝑜𝑛 𝑢 = 1 1 + 𝑒−𝑧 1 0 = 𝐵 1 + 𝑡, 1 − 𝑡 = Γ 1 + 𝑡 Γ 1 − 𝑡 . (1.24) De esta manera, la función generadora de cumulantes de Z se obtiene como: 𝐾𝑧(𝑡) = 𝑙𝑛𝑀𝑧(𝑡) = 𝑙𝑛Γ(1 + 𝑡) + 𝑙𝑛Γ(1 − 𝑡) (1.25) Los cumulantes de Z se obtienen a partir de 1.25 al derivar con respecto a t y evaluando t=0. Por ejemplo: 𝐸(𝑍) = Γ′(1) − Γ′(1) = 0. (1.26) 𝑉𝑎𝑟(𝑍) = 2 Γ′′ (1) − (Γ′ 1 )2 (1.27) Donde Γ′′ . y Γ′(. ) son la segunda y primera derivada de la función gamma. También es posible encontrar los momentos de la variable aleatoria Z por medio de la integración de la función de densidad. Dado que la función logística es simétrica alrededor del cero, los momentos nones serán cero. En el caso de los momentos pares, la integral de la función de densidad tendría la forma: 𝐸 𝑍2𝑟 = 𝑧2𝑟 𝑒−𝑧 1 + 𝑒−𝑧 2 ∞ −∞ 𝑑𝑧 = 2 𝑧2𝑟 𝑒−𝑧 1 + 𝑒−𝑧 2 ∞ 0 𝑑𝑧 Neevia docConverter 5.1 = 2 𝑧2𝑟 (−1)𝑗−1𝑗𝑒−𝑗𝑦∞𝑗=1 ∞ 0 𝑑𝑦 = 2Γ(2𝑟 + 1) (−1)𝑗−1 𝑗2𝑟 ∞ 𝑗=1 = 2Γ 2𝑟 + 1 1 − 1 22𝑟−1 𝜂(2𝑟) (1.28) Para 𝑟 = 1, 2,… donde 𝜂 𝑠 = 𝑗−𝑠∞𝑗=1 es la función zeta de Riemann. Así, para el segundo y cuarto momento se tiene: 𝑉𝑎𝑟 𝑍 = 𝐸 𝑍2 = 2 ∗ 2 1 − 1 2 𝜂 2 = 2 𝜋2 6 = 𝜋2 3 (1.29) 𝐸 𝑍4 = 2 ∗ 24 1 − 1 8 𝜂 4 = 42 𝜋4 90 = 7𝜋4 15 (1.30) Y como consecuencia, también es posible conocer el valor de los coeficientes de kurtosis y sesgo (skewness) de una población con distribución logística: 𝑠𝑒𝑠𝑔𝑜: 𝛽1 = 𝐸(𝑥 − 𝜇)3 𝜎3 = 0. (1.31) 𝑘𝑢𝑟𝑡𝑜𝑠𝑖𝑠: 𝛽2 = 𝐸(𝑥 − 𝜇)4 𝜎4 = 63 15 = 4.2 (1.32) Donde 𝐸(𝑥 − 𝜇)𝑛 denota al n-ésimo momento central de la distribución logística. Una medida de sesgo cero es característica de una distribución simétrica, como lo son la distribución normal o normal estándar. Por su parte un valor de una kurtosis grande está relacionado con que mucha de la varianza de la distribución es debida a valores muy grandes y atípicos en las colas. Neevia docConverter 5.1 De hecho las características de la distribución logística muestran gran parecido con la flexible distribución normal, razón por la cual resulta en ocasiones difícil diferenciar claramente entre una y otra. Johnson y Kotz (1970) muestran que al comparar la distribución de una variable normal estándar contra una logística estándar la diferencia entre ellas es muy pequeña pues el máximo valor de la diferencia se obtenía cuando 𝑦 = 0.7 y era del orden de 0.0228. En contraste, una característica importante de la distribución logística es su nivel de kurtosis de 4.2 que comparado con el nivel de kurtosis de una normal estándar 𝑁(0,1) donde el valor de 𝛽2 o kurtosis es de 3 es fácil notar que la función logística posee colas más largas o pesadas que la función normal. La presencia de colas largas o pesadas indica que mucha de la variabilidad se debe a observaciones grandes. Distribuciones con colas más largas que las de la normal corresponden a distribuciones donde hay gran cantidad de observaciones con probabilidades lejos del valor de la media. Esto es, colas largas dificultan las conclusiones acerca del valor de la media. Fenómeno que no ocurre en la distribución normal. Se podría decir que en términos de la variabilidad de las observaciones y por consecuencia, del nivel de kurtosis, la distribución logística es el “punto intermedio” entre la distribución normal y la distribución valor extremo. Esto va ligado al tipo de fenómeno que es descrito de mejor manera por cada distribución: la distribución logística es útil, intuitivamente, para modelar con mayor fineza aquellos fenómenos donde el comportamiento que más interesa conocer es la probabilidad de ocurrencia en los “extremos” del tiempo de medición, por ocurrir ahí la mayor variabilidad. Esta variabilidades grande pero no al extremo de las variabilidades esperadas bajo una distribución de valores extremos. Como ilustración a esto, se muestra una relación entre la función de distribución valor extremo (usada principalmente para medir “puntos de quiebre” bajo condiciones extremas o de stress también conocidos como modelos de stress-resistencia) y la distribución logística: Sean X y Y variables aleatorias independientes con distribución valor extremo 𝐸𝑥𝑡𝑟𝑒𝑚(𝛼,𝛽), entonces X-Y se distribuye como una distribución logística 𝐿 0,𝛽 . (Krishnamoorthy, K. 2006) Estimadores máximo verosímiles Para la distribución logística la función de verosimilitud 𝐿(𝜇,𝜎) esta dada por: 𝐿 𝜇,𝜎 = 𝑓( 𝑛 𝑖=1 𝑥𝑖; 𝜇,𝜎) = 𝜋 𝜎 3 𝑒−𝜋 𝑥𝑖−𝜇 /𝜎 3 1 + 𝑒−𝜋 𝑥𝑖−𝜇 /𝜎 3 2 𝑛 𝑖=1 Neevia docConverter 5.1 Las ecuaciones de máxima verosimilitud pueden ser resueltas numéricamente a través de las ecuaciones: 1 + 𝑒−𝜋 𝑥−𝜇 /𝜎 3 −1𝑛 𝑖=1 = 𝑛 2 (1.33) 𝜋(𝑥 − 𝜇) 𝜎 3 𝑛 𝑖=1 1 − 𝑒−𝜋 𝑥−𝜇 /𝜎 3 1 + 𝑒−𝜋 𝑥−𝜇 /𝜎 3 = 𝑛 (1.34) Donde la media muestral y la desviación estándar son buenos estimadores para 𝜇 y 𝜎, esto para ser utilizados como valores iniciales de las ecuaciones para encontrar los estimadores 𝜇 y 𝜎 . 𝜇 = 1 𝑛 𝑥𝑖 𝑛 𝑖=1 (1.35) 𝜎 = 3 𝑛 1 𝑛 − 1 𝑋𝑖 − 𝑋 2 𝑛 𝑖=1 (1.36) Propiedades. Krishnamoorthy 2006 destaca las siguientes propiedades de la distribución logística: 1. Sea X v.a. con distribución logística 𝐿 𝛼,𝛽 entonces 𝑋−𝛼 𝛽 es una v.a. con distribución logística estándar 𝐿 0, 1 . 2. Sea U v.a. con distribución uniforme 𝑈 0,1 entonces la v.a. 𝛼 + 𝛽 log 𝑈 − log(1 − 𝑈) tiene distribución logística 𝐿 𝛼,𝛽 . 3. Sea Y v.a. exponencial 𝐸𝑥𝑝 𝜆 entonces la v.a. −𝑙𝑜𝑔 𝑒−𝑌 1−𝑒−𝑌 se distribuye como una logística estándar 𝐿 0, 1 . 4. Sean 𝑌1 y 𝑌2 v.a. independientes e idénticamente distribuidas 𝐸𝑥𝑝 𝜆 entonces, la v.a. −𝑙𝑜𝑔 𝑌1 𝑌2 se distribuye 𝐿 0, 1 . 1.3 Pruebas de Bondad de Ajuste El paso obligado para cualquier análisis estadístico formal es verificar que efectivamente la distribución que se supone tienen las observaciones muestrales es la postulada. Bajo esta Neevia docConverter 5.1 necesidad han ido surgiendo distintas técnicas para examinar que tan bien la información muestral bajo estudio ajusta a la distribución de probabilidad de la población. Dicho con otras palabras, la necesidad recae en conocer si los valores predichos por el modelo elegido proporcionan una representación certera de los valores observados. Estas técnicas son conocidas como Pruebas de Bondad de Ajuste y a través de éstas se busca determinar si las diferencias observadas son atribuibles a omisiones muestrales o a una pobre especificación del modelo. Para lograr esto se utilizan varias técnicas agrupadas en dos grandes enfoques: el informal o gráfico y el formal, también conocido como pruebas de hipótesis. D’Agostino y Stephens (1986) apuntan que, de manera formal, el problema de Bondad de Ajuste se aborda a partir de dos pasos principalmente: 1. El cálculo de una medida de consistencia o discrepancia (estadística de prueba). 2. La aplicación de una prueba de hipótesis. Aunque las Pruebas de Bondad de Ajuste son un caso particular de las Pruebas de Hipótesis merecen ser tomadas en un lugar aparte ya que son, sin duda, el primer paso para poder continuar con otros análisis ya con información sobre la naturaleza de la distribución a la cual “pertenecen” las observaciones. Esto es porque el punto más importante es la medida de concordancia de los datos con la hipótesis nula, pues la decisión deseable es aceptar que la variable aleatoria X sigue una cierta distribución 𝐹(𝑥). De acuerdo a D’Agostino y Stephens (1986) hay varias razones para esto: primero, la distribución de los datos muestrales puede arrojar luz sobre el proceso que los generó; en segundo término, si se conoce la distribución que tienen los datos entonces las pruebas estadísticas estándares y los procedimientos de estimación que se vayan a utilizar estarán guiados por este conocimiento. Por ejemplo, si los datos siguen una distribución normal, las inferencias concernientes a las medias y varianzas puede hacerse usando pruebas especificas para la distribución normal. En este caso se utilizarían como estadísticas de prueba una que tiene distribución t de Student, o una F de Fisher. También el cálculo de estimadores como intervalos de confianza, intervalos de tolerancia e intervalos de predicción, dependen frecuentemente de la distribución de la información muestral. Las técnicas de bondad de ajuste están construidas para medir la cercanía o conformidad de los datos muestrales o mejor dicho un conjunto de valores que toma la variable aleatoria X con la función de distribución postulada. O equivalentemente, para medir que tan distintas son. En el caso de las pruebas de hipótesis, se tratan de pruebas estadísticas formales y las medidas de consistencia o discrepancia son las estadísticas de prueba. Las hipótesis a probar, o 𝐻0 , en Bondad de Ajuste pueden ser tanto simples como compuestas. En cambio la hipótesis alternativa 𝐻1 la mayor parte de las veces es compuesta y no aporta ninguna información completa sobre la distribución. Por ejemplo, la hipótesis nula podría ser que la variable aleatoria X tiene sesgo positivo. Lo ideal es poder Neevia docConverter 5.1 contar en casos como este con una prueba de Bondad de Ajuste que sea sensible a la característica tanto de la hipótesis nula como de la alternativa. Por otra parte, aunque no son precisamente pruebas formales, el problema de Bondad de Ajuste se puede abordar desde el enfoque de las ya conocidas y utilizadas técnicas gráficas. Con una larga historia en el análisis estadístico, las gráficas buscan mostrar la cercanía o en su caso desviación que tiene la variable aleatoria bajo estudio y la distribución hipotética. La más conocida es la llamada gráfica de probabilidad donde se grafican las funciones de los rangos contra las observaciones ordenadas. Si los datos se van alineando en una recta esto está indicando que la distribución hipotética es un modelo razonable para los datos. 1.4 Muestras Censuradas Dentro de los fenómenos mejor descritos por la distribución logística es común que no se cuente con toda la información de la muestra. Tomando esto en consideración y con el fin de explorar técnicas de bondad de ajuste en el más puro sentido del análisis de supervivencia (de manera que el aporte parcial de cada observación no sea ignorada y se cuente con toda la información disponible), se muestra una breve descripción de las formas en que se puede presentar la censura de las observaciones: Una muestra censurada se presenta cuando para 𝑋1 ,𝑋2 ,… ,𝑋𝑛 muestra aleatoria, alguna de las observaciones no está disponible o falta. La censura puede ser producto de muy diversas causas o circunstancias, ya sean premeditadas o incluso azarosas. Además la censura dentro de una muestra puede ocurrir para cualquier observación y en cualquier tiempo. Teniendo esto en mente, los tipos de censura se han clasificado como (D’Agostino y Massaro en Balakrishnan 1992): i. Censura por la izquierda, que ocurre cuando se tienen observaciones ordenas y faltan todas las observaciones menores a 𝑋𝑠:𝑛 . Esto es, solo la cola izquierda presenta censura. ii. Censura por la derecha, que ocurre cuando se tienen observaciones ordenadas faltan todas la observaciones mayores a 𝑋𝑟 :𝑛 , esto es, solo la cola derecha presenta censura. Una característica importante es que el tiempo de censura observado es siempre menor que el tiempo de falla. iii. Censura múltiple, cuando la censura se presenta en ambascolas pero también cuando se presenta en observaciones centrales o fuera de las colas. iv. Tipo I, cuando la censura ocurre para valores aleatorios de s (por la izquierda) o r (por la derecha). En este tipo de censura el investigador desconoce el número de valores aleatorios que serán censurados pero para ello tuvo que determinar un tiempo máximo de observación para que ocurra la falla. Las censura de este tipo también suele ser conocido como tiempo de falla. Neevia docConverter 5.1 v. Tipo II, cuando la censura ocurre para valores predefinidos de s o r. En este tipo de censura es el propio investigador el que decide prolongar el periodo de observación hasta tener los valores s o r deseados. vi. Censura aleatoria, cuando el valor de una observación no se conoce pero si sabe que todas las 𝑋𝑖 no censuradas cumplen con cierta función, por ejemplo que 𝑋𝑖 > 𝑇𝑖 , donde 𝑇𝑖 es también una muestra aleatoria. Aquí el investigador no tiene ningún control sobre la censura. La censura, o falta de observaciones disponibles, ocurre frecuentemente en las muestras relacionadas con la duración de vida. Puede ocurrir cuando, por ejemplo, las observaciones que interesan son las que ocurren antes de que una cierta magnitud predefinida se haya alcanzado. Es el caso de la medición de la vida de un foco donde se busca registrar la duración de vida de aquellos focos que fallen antes de cumplir tres meses. En este caso el número de observaciones obtenidas o censuradas, 𝑟, es una variable aleatoria por lo que es clasificada como censura individual tipo I o también conocida como tiempo de censura. Si la clasificación de la censura es con respecto a la “ubicación” que tienen las observaciones censuradas entonces este ejemplo de los focos es una muestra censurada por la derecha.En cambio, y como ejemplo de la censura individual tipo II o censura de falla, está el caso de la medición de los 15 días más calurosos del año. En este caso el número de observaciones ordenadas, 𝑠, está ya predefinido. Es decir , 𝑠 no es una variable aleatoria. Además, con respecto a la temperatura, el tipo de censura en la que se clasifican estas observaciones es la de censura por la izquierda. El tiempo de censura aleatorio ocurre cuando el tiempo en que ocurre la censura para cada sujeto es una variable independiente y además es independiente del valor que toma la medida. El ejemplo clásico de este tipo de censura es el caso de un experimento donde el tiempo de supervivencia de los individuos que han recibido cierto tratamiento es la variable de interés. Puede ocurrir que algunos sujetos abandonen el estudio antes de que el evento a medir ocurra o bien, que el tiempo del experimento termine antes que ocurra el evento. En la mayoría de los casos los valores más grandes que pueda tomar la variable de interés no serán observados, razón por la cual a este tipo de censura se le conoce también como censura arbitraria por la derecha. Cuando los distintos tiempos de censura para cada individuo son conocidos se trata de una censura progresiva de tipo I para muestras censuradas múltiples. Esto ocurre, por ejemplo cuando los sujetos empiezan una prueba de vida a diferentes tiempos, pero cada uno de ellos tiene un punto de término predefinido. Las muestras con censura progresiva de tipo II ocurren con menor frecuencia , aunque como en el caso de la censura progresiva tipo I, se presenta en el campo de las pruebas de supervivencia cuando por ejemplo los sujetos entran a la prueba al mismo tiempo para después seleccionar un número aleatorio de sujetos sin falla. Este número aleatorio de sujetos son removidos de la muestra inmediatamente después de que un número predeterminado de fallas ocurren. Neevia docConverter 5.1 CAPÍTULO II. Pruebas de Bondad de Ajuste para la Distribución Logística: Técnicas gráficas A la par del desarrollo de las técnicas formales de Bondad de Ajuste se han ido desarrollando técnicas gráficas, que no son sino herramientas sencillas que se pueden usar ya sea en papel probabilístico, como fue en un principio, o en programas de computadora sencillos tal como SPSS (Statistical Package for the Social Sciences), SAS (Statistical Analysis System) o incluso Excel. Estas técnicas resultan muy útiles para entender las relaciones que existen dentro de la información muestral bajo estudio. De hecho, para el problema de Bondad de Ajuste las técnicas gráficas se usan por lo menos de dos formas: a) Como una técnica exploratoria de los datos. En este caso el objetivo es identificar características que puedan dar luz sobre el tipo de propiedades matemáticas del fenómeno bajo estudio. Podría ser el caso de especificaciones como la simetría, la distribución subyacente o la presencia de colas pesadas. Otro tipo de características que se pueden conocer a partir de técnicas gráficas es el valor de la media y la varianza cuando se sabe hay existencia de normalidad. b) En conjunto con las técnicas formales de Bondad de Ajuste. En este caso el objetivo es que las hipótesis a probar bajo las técnicas formales estén influidas por la características que las técnicas gráficas estén sugiriendo. Frecuentemente son éstas las responsables del descubrimiento de detalles que no eran esperadas antes del análisis. Como las técnicas numéricas cuantifican la información y la evidencia de los datos, también pueden servir para verificar que las inferencias sugeridas por las técnicas gráficas se cumplen. Existe, sin embargo, un problema potencial detrás del uso exclusivo de técnicas gráficas como herramienta para la Bondad de Ajuste. Como estas técnicas no hacen distinción entre los datos estadísticamente significativos, resultan muy sensibles a variaciones aleatorias de los datos. Esto es, sin una verificación formal el uso exclusivo de técnicas gráficas puede llevar a conclusiones erróneas. Lo ideal es usar pruebas numéricas o formales una vez que se tiene un análisis gráfico de los datos. Con esto se asegura que las pruebas gráficas y las pruebas formales se complementen. Existen en la literatura muchas técnicas. Sin embargo, las expuestas en este capítulo cumplen con el cometido de ser útiles en la práctica, justamente por tener procedimientos sencillos y porque proporcionan información adicional que complementa a los métodos formales. Neevia docConverter 5.1 2. 1 Función de Distribución Empírica Definición: Sea 𝑥1,,𝑥2,… ,𝑥𝑛 una muestra aleatoria de tamaño 𝑛 proveniente de la distribución logística y con función de distribución: 𝐹(𝑥; 𝜇,𝜎) = 1 1 + 𝑒−𝜋 𝑥−𝜇 /𝜎 3 (2.1) Como se sabe, la función de distribución empírica está definida por: 𝑆𝑛(𝑥) = #(𝑋𝑛 ≤ 𝑥) 𝑛 (2.2) Si se utilizan observaciones ordenadas esto es, estadísticas de órden, 𝑥1:𝑛 ≤ 𝑥2:𝑛 ≤ ⋯ ≤ 𝑥𝑛 :𝑛 la función de distribución empírica se simplifica: 𝑆𝑛 𝑥 = 𝑖 𝑛 (2.3) donde 𝑖 = #(𝑋𝑗 :𝑛 ≤ 𝑥). La gráfica de la función de distribución empírica se obtiene de graficar 𝑥𝑖:𝑛 contra 𝑆𝑛 𝑥 = 𝑖 𝑛 . Fig. 2.1 Función de distribución empírica EDF de los datos NOR. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 70 80 90 100 110 120 130 Fn(x) Neevia docConverter 5.1 La relación entre la función de distribución empírica y la función de distribución real está basada en resultados muy interesantes, tal es el caso del llamado Teorema Fundamental de la Estadística Matemática o Teorema de Glivenko-Cantelli. Este teorema resulta muy útil en el contexto de las pruebas de bondad de ajuste pues proporciona información sobre que tan cercanas o parecidas resultan la función de distribución empírica y la función de distribución real para todos los valores de x. Así, el teorema de Glivenko-Cantelli asegura que con probabilidad 1, la convergencia de 𝑆𝑁(𝑥),función de distribución empírica, a 𝐹 𝑥 , función de distribución real, es uniforme en x para −∞ < 𝑥 < ∞ (Renyi 1970): 𝑃 𝑠𝑢𝑝 𝑥 𝑆𝑁(𝑥) − 𝐹(𝑥) 𝑛 ∞ 0 = 1. (2.4) Al definir a la variable aleatoria 𝐷𝑛 = 𝑠𝑢𝑝 𝑆𝑁(𝑥) − 𝐹(𝑥) estamos indicando que ésta es la variable aleatoria que mide que tanto 𝑆𝑁(. ) se desvía de la distribución real 𝐹 . . La importancia de este teorema recae en el hecho de que establece que con muestras suficientemente grandes se puede tener información certera sobre la distribución de la población. Por otra parte, aunque el teorema de Glivenko-Cantelli dice que la diferencia entre la función de distribución empírica y la función de distribución real tiende a cero con probabilidad 1 mientras el tamaño de muestra tiende a infinito, no habla de la rapidez de esta convergencia. Esta información es obtenida a través del teorema de Smirnov- Kolmogorov: Teorema de Smirnov-Kolmogorov. Sean 𝜉1 , 𝜉2 ,… , 𝜉𝑛 variables aleatorias independientes e idénticamente distribuidas con función de distribución 𝐹 𝑥 y donde la k-ésima estadística de órden se denota como 𝜉𝑘:𝑛 y la función de distribución empírica se define como: 𝑆𝑛(𝑥) = 0 𝑝𝑎𝑟𝑎 𝑥 ≤ 𝜉1:𝑛 , 𝑘 𝑛 𝑝𝑎𝑟𝑎 𝜉𝑘 :𝑛 < 𝑥 < 𝜉𝑘+1:𝑛 , 1 𝑝𝑎𝑟𝑎 𝜉𝑘 :𝑛 < 𝑥 Entonces: a) Smirnov lim 𝑛 ∞ 𝑃 𝑛 sup 𝑆𝑛 𝑥 − 𝐹 𝑥 < 𝑦 = 1 − 𝑒−2𝑦 2 𝑝𝑎𝑟𝑎 𝑦 > 0, 0 𝑒. 𝑜. 𝑐 Neevia docConverter 5.1 (2.5) b) Kolmogorov lim 𝑛 ∞ 𝑃 𝑛 sup 𝑆𝑛 𝑥 − 𝐹 𝑥 < 𝑦 = 𝐾 𝑦 𝑝𝑎𝑟𝑎 𝑦 > 0, 0 𝑒.𝑜. 𝑐. (2.6) Donde : 𝐾 𝑦 = (−1)𝑘 ∞ 𝑘=−∞ 𝑒−2𝑘 2𝑦2 (Renyi 1970). Es interesante notar que bajo estos teoremas la distribución límite no depende de 𝐹 𝑥 . Es suficiente con que 𝐹 𝑥 sea continua para garantizarlos y además no es necesaria alguna suposición adicional sobre su naturaleza, es decir, se trata de un problema de estimación no paramétrico. Esta prueba para probar la hipótesis de que cierta muestra fue tomada de una población con función de distribución continua 𝐹 𝑥 , se desarrolló a partir resultados muy interesantes sobre las característica de 𝑆𝑛 𝑥 . Los resultados anteriores permiten, cuando la función 𝐹 𝑥 es continua y conocida, calcular el valor de 𝑆𝑁(𝑥) − 𝐹𝑋(𝑥) para cualquier valor que tome x. En el caso de la distribución logística, como 𝐹 𝑥 es continua y no decreciente que cumple 0 ≤ 𝐹 𝑥 ≤ 1, es posible saber cómo va cambiando 𝑆𝑁(𝑥) − 𝐹𝑋(𝑥) conforme x va tomando los valores del dominio de la función. Los teoremas de Glivenko-Cantelli y Kolmogorov-Smirnov proporcionan en conjunto una idea más clara de las características y las relaciones existentes entre la función de distribución empírica y la función de distribución real. En especial, resulta muy útil saber que se puede construir una banda de confianza para 𝐹 𝑥 en términos de 𝑆𝑁(𝑥). Esta banda se construye retomando el teorema de Glivenko-Cantelli en función de la variable aleatoria 𝐷𝑛 = 𝑠𝑢𝑝 𝑆𝑁(𝑥) − 𝐹(𝑥) . De acuerdo a la desigualdad de Chebyshev se puede encontrar un valor 𝐷𝑛 𝛼 tal que: 𝑃 𝐷𝑛 ≤ 𝐷𝑛 𝛼 = 1 − 𝛼 (2.7) De la definición de 𝐷𝑛 , se sigue que: 1 − 𝛼 = 𝑃 𝑠𝑢𝑝 𝑆𝑁(𝑥) − 𝐹(𝑥) ≤ 𝐷𝑛 𝛼 = 𝑃 𝑠𝑢𝑝 𝑆𝑁(𝑥) − 𝐹(𝑥) ≤ 𝐷𝑛 𝛼 , 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑎 𝑥 Neevia docConverter 5.1 = 𝑃 −𝐷𝑛 𝛼 ≤ 𝑆𝑁 𝑥 − 𝐹 𝑥 ≤ 𝐷𝑛 𝛼 , 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑎 𝑥 = 𝑃 𝑆𝑁 𝑥 −𝐷𝑛 𝛼 ≤ 𝐹 𝑥 ≤ 𝑆𝑁 𝑥 + 𝐷𝑛 𝛼 ,𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑎 𝑥 (2.8) Esto es, con probabilidad 1 − 𝛼 la función de distribución desconocida 𝐹𝑋(𝑥) está dentro de la banda delimitada por 𝑆𝑁 𝑥 −𝐷𝑛 𝛼 y 𝑆𝑁 𝑥 +𝐷𝑛 𝛼 (Mood, Graybill y Boes 2001). Además, a partir de la amplitud de esta banda se tiene una medida de que tan preciso es 𝑆𝑁 𝑥 como estimador de 𝐹𝑋 𝑥 . Como consecuencia de los resultados anteriores se puede decir que la gráfica de la distribución empírica da una buena imagen de la población o de la función de distribución real conforme 𝒏 crece y que a partir de sus propiedades también se puede obtener mayor información acerca de que tan desviada está de la distribución real, como en el caso de la banda de confianza. La función de distribución empírica es, de hecho, una función escalonada con escalones en los valores de la variable aleatoria. Otro efecto importante al aumentar el tamaño muestral es que los escalones van siendo suavizados a la par (ver figura 2.3). Función de supervivencia. La función de distribución empírica es un tipo de “puente” entre una muestra aleatoria 𝑥1,, 𝑥2,… , 𝑥𝑛 y la función de distribución de la población 𝐹(𝑥), pues utiliza la frecuencia de las observaciones menores o iguales a cada valor de x para estimar 𝑃 𝑋 ≤ 𝑥 = 𝐹 𝑥 . Igual de útil resulta ser la función de supervivencia o 𝑆 𝑥 = 1 − 𝐹(𝑥), donde ahora la variable de interés es el tiempo de vida o supervivencia, ya sea de una persona , un animal o cualquier producto. El tiempo de supervivencia también encuentra como áreas de aplicación aquellos problemas donde se desea conocer el tiempo antes de que ocurra un cierto fenómeno como puede ser el descubrimiento de una cura o el tiempo previo a la llegada o salida de cierto objeto. Neevia docConverter 5.1 Fig. 2.2 Ejemplo de banda para la función de distribución real 𝐹(𝑥), delimitada por 𝑆𝑁 𝑥 −𝐷𝑛 𝛼 y 𝑆𝑁 𝑥 +𝐷𝑛 𝛼 . Fig. 2.3 Gráfica EDF escalonada de las primeras 10 observaciones no ordenadas de los datos LOG. 2.2 Prueba gráfica de bondad de ajuste utilizando la gráfica de la función de distribución empírica. Un primer acercamiento sobre qué tan bien ajustan los datos muestrales a una distribución logística es sobreponer a la grafica de distribución empírica la gráfica de la función de distribución teórica de la distribución logística y evaluar qué tan bien se sobrepone una 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 70 80 90 100 110 120 130 F(X) Sn(x)+Dn Sn(x)-Dn 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 50 60 70 80 90 100 110 120 130 140 150 Sn(x) Neevia docConverter 5.1 gráfica a la otra. Es posible evaluar la cercanía entre los puntos de cada una de las gráficas y de manera informal decir qué tan bien ajustan los datos a una distribución logística. Los criterios para decidir qué tan cercana es una gráfica de otra son subjetivos y sólo “a ojo”. Lo ideal es que la EDF esté justo sobre la función de distribución real, sin embargo si la mayoría de los puntos de la EDF cumplen esto o no se encuentran “muy lejos” de la función de distribución real, resulta razonable pensar que los datos provienen de una distribución logística. El caso sencillo es cuando los valores de los parámetros μ y σ son conocidos y sólo es necesario utilizarlos en la función de distribución teórica. Sin embargo, lo más común es que tanto μ y σ sean desconocidos y deban ser estimados por el método de máxima verosimilitud. 2.2.1 Ejemplos Para ejemplificar el uso de la gráfica de la función de distribución empírica como prueba informal de bondad de ajuste, se presentan los resultados para los siguientes conjuntos de datos: a) Datos LOG con 𝑛 = 100 observaciones generadas a partir de una distribución L(100, 18.14). b) Datos NOR con 𝑛 = 100 observaciones generadas a partir de una distribución N(100, 10). Para los datos LOG Se supondrá no existe censura para las 𝑛 = 100 observaciones y que los parámetros 𝜇 y 𝜎 son desconocidos, por lo que se utilizan los estimadores máximo verosímiles. Para verificar que esta información muestral tiene comportamiento de una distribución logística basta con graficar la función de distribuciónempírica (EDF) de estos datos y después sobreponer la gráfica teórica de una distribución logística (𝐹(𝑥; 𝜇,𝜎)) para el mismo dominio. 𝐸𝐷𝐹: 𝑆𝑛 𝑥 = 𝑖 𝑛 𝐹(𝑥;𝜇,𝜎) = 1 1 + 𝑒−𝜋 𝑥−𝜇 /𝜎 3 En la figura 2.4 se presentan las gráficas correspondientes, donde es fácil notar la gran cercanía entre ambas. Bajo este criterio suena razonable decir que los datos LOG provienen de una distribución logística con 𝜇 = 100 y 𝜎 = 10. Neevia docConverter 5.1 Fig. 2.4 Gráfica EDF 𝑆𝑁 𝑥 de los datos LOG con la gráfica teórica de una distribución logística 𝐹 𝑥 sobrepuesta. Para los datos NOR Nuevamente se supondrá no existe censura para las 𝑛 = 100 observaciones y que los parámetros 𝜇 y 𝜎 son desconocidos, por lo que se utilizan los estimadores máximo verosímiles suponiendo distribución logística. El procedimiento se repite y en la a figura 2.5 se presenta las gráfica EDF y la de distribución real. Fig. 2.5 Gráfica EDF 𝑆𝑁 𝑥 de los datos NOR con la gráfica teórica de una distribución logística 𝐹 𝑥 sobrepuesta. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 50 60 70 80 90 100 110 120 130 140 150 Sn(x) F(X) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 70 80 90 100 110 120 130 F(X) Sn(x) Neevia docConverter 5.1 De la figura 2.5 se observa la gran cercanía entre ambas gráficas, por lo que se podría decir, basándonos únicamente en la cercanía de las gráficas, que los datos NOR provienen de una distribución logística. 2.2.2 Conclusiones y recomendaciones Es claro que utilizar esta técnica gráfica como única prueba de bondad de ajuste no asegura que el resultado obtenido sea confiable: por ser una técnica puramente descriptiva es muy sensible a los comportamientos aleatorios de una muestra. Sin embargo, se recomienda utilizarla siempre como primer diagnóstico de la información muestral pues a partir de ella es posible tener una representación exhaustiva de toda la información disponible. La función de distribución empírica (EDF) es lo suficientemente formal y a la vez lo suficientemente versátil para poder ser utilizada con cualquier tipo de datos, incluso con muestras censuradas. Basta recordar los resultados formales que sustentan el uso de estas gráficas, tal es el caso de la convergencia de 𝑆𝑛(𝑥) en 𝐹 𝑥 para todos los valores de 𝑥 que es, de hecho, una convergencia fuerte. Esta versátil técnica no-parámetrica, ofrece las siguientes ventajas: 1. Bajo transformaciones monótonas es invariante, aunque claro, la forma que tome la gráfica EDF puede cambiar como resultado de estas transformaciones. 2. La complejidad en la construcción de la gráfica EDF no depende del número de observaciones. 3. Proporciona, sin necesidad de cálculo alguno, información directa sobre la forma que tiene la función de distribución real de los datos a partir del conocimiento del grado de kurtosis o del sesgo (skewness), por ejemplo. 4. A partir de la gráfica EDF es posible detectar patrones sobre la localización o dispersión de la información muestral. Incluso los outliers o puntos atípicos pueden ser detectados “a ojo”. 5. Su uso se extiende de manera natural al caso de muestras censuradas, no importando el tipo de censura que presente. Es importante recalcar que como toda técnica estadística tiene limitaciones cuando el tamaño de muestra es pequeño por lo que las conclusiones o resultados que se desprendan del uso de esta técnica deben tomarse con cautela cuando se presenten estas condiciones. Cabe resaltar que, de los ejemplos mostrados es claro que bajo esta técnica no es fácil distinguir entre una distribución normal de una logística por lo que uno de los principales objetivos del trabajo no se cumple al utilizar esta técnica. Neevia docConverter 5.1 2.3 Gráfica de Probabilidad de la Función Logística 2.3.1 Definición Una de las desventajas o dificultades de evaluar la cercanía de la función de distribución empírica con la función de distribución teórica es el determinar la magnitud de las desviaciones en curvas, es decir en graficas no lineales. Sin duda, es generalmente más fácil evaluar desviaciones de una línea recta. El elemento clave de la grafica de probabilidad de la función logística es que transforma la función de distribución empírica, salvo algunas fluctuaciones aleatorias, en una línea recta siempre y cuando la función intrínseca sea logística. El principio detrás de esta transformación es simple. Si la distribución real depende de dos parámetros: de ubicación 𝜇 y de escala 𝜎 , donde 𝜇 𝑦 𝜎 no son necesariamente la media y la desviación estándar, para la función de distribución logística, 𝐹 𝑥; 𝜇, 𝜎 = 1 1+𝑒−𝜋 𝑥−𝜇 /𝜎 3 , si es estandarizada por la transformación 𝑌 = 𝑋−𝜇 𝜎 y usando 𝐺(𝑦) como la función de distribución teórica de la función logística estandarizada, la distribución puede ser escrita como: 𝐹 𝑥; 𝜇,𝜎 = 𝐺(𝑦) (2.9) Al tomar la función inversa de 𝐺(. ) 𝐺−1(𝐹 𝑥; 𝜇,𝜎 ) = 𝑦 = 𝑥 − 𝜇 𝜎 (2.10) Entonces al despejar 𝑥: 𝑥 = 𝜇 + 𝜎𝑦 = 𝜇 + 𝜎𝐺−1(𝐹 𝑥; 𝜇,𝜎 ) (2.11) Como 𝑦 y 𝑥 están linealmente relacionados, la grafica de 𝑥 en 𝑦 = 𝐺−1(𝐹 𝑥; 𝜇,𝜎 ) será una línea recta. En el caso de la distribución logística se tendría que : 𝑦 = 𝐺−1 𝐹 𝑥; 𝜇,𝜎 = 3 𝜋 log 𝐹 𝑥; 𝜇,𝜎 1 − 𝐹 𝑥; 𝜇,𝜎 (2.12) Neevia docConverter 5.1 Para una muestra aleatoria se reemplaza la función de distribución teórica por la función de distribución empírica o 𝑆𝑛 𝑥 , donde para evitar tomar logaritmo de infinito se aplica la corrección por continuidad: 𝑆𝑛 𝑥 = 𝑖 − 0.5 𝑛 , (2.13) Donde 𝑖 = #(𝑋𝑗 ≤ 𝑥). Así, la grafica de 𝑥 contra 𝑦 tendrá por función: 𝑦 = 3 𝜋 log 𝑆𝑛 𝑥 1 − 𝑆𝑛 𝑥 (2.14) La gráfica resultante será la gráfica de probabilidad de la función logística. Si los datos provienen de una distribución logística la grafica será, salvo fluctuaciones aleatorias, una línea recta. 2.3.2 Casos especiales Muestras pequeñas. D’Agostino en D’Agostino and Stephens (1986) destina un apartado especial para los casos en que la información muestral es limitada o pequeña. Él considera pequeña cualquier muestra con menos de 50 observaciones. En estos casos detectaron que cuando se grafica la gráfica de probabilidad con 𝑦 = 𝐺−1 𝐹 𝑥; 𝜇,𝜎 en el eje vertical contra los valores observados de la muestra, en 𝑥 (eje horizontal) ocurre que las “colas” de la gráfica tienden a curvarse, incluso si la distribución en la hipótesis es la correcta. Esto sin duda llevaría, si no se toma con cautela, a conclusiones erróneas o sin legitimidad. La recomendación que aporta D’Agostino es utilizar en vez de 𝑦 = 𝐺−1 𝐹 𝑥; 𝜇,𝜎 (en el eje vertical) los valores esperados de las estadísticas de órden de la forma estandarizada de la distribución bajo hipótesis. Sin embargo el mismo autor apunta que en el caso especial de la distribución logística sus estudios muestran que para muestras con 𝑛 ≥ 10 no es necesario utilizar a los valores esperados de las estadísticas de orden como percentiles de la distribución estandarizada. La siguiente tabla, compendio del trabajo de Gupta y Shah (1965) y Gupta, Qureishi y Shah (1967), contiene el análisis de los datos para construir la gráfica de probabilidad de las primeras 10 observaciones de los datos LOG provenientes de una distribución logística. Se incorporan los valores esperados de las estadísticas de orden en una columna y los valores de y calculada para la distribución logística en otra. Al comparar los valores que toman ambos para cada observación no se detectan variaciones que pudieran considerarse influyentes en la gráfica de probabilidad. La figura 2.6 muestra a la gráfica de probabilidad usando los valores de y. Neevia docConverter 5.1Cabe resaltar que en los cálculos de la tabla anterior se hicieron con la corrección por continuidad de 𝑆𝑛 𝑥 . Durante el desarrollo de este trabajo se utilizará esta corrección que autores como Barnett (1975) y posteriormente D’Agostino and Stephens han probado y con buenos resultados. En particular, Barnett (1975) estudió las implicaciones y alternativas de modificar la función de distribución empírica bajo la forma general: 𝑆𝑛 𝑥 = (𝑖 − 𝑐) (𝑛 − 2𝑐 + 1) , (2.15) Donde 0 ≤ 𝑐 ≤ 1. Que cuando 𝑐 = 0.5 se reduce a la expresión: 𝑆𝑛 𝑥 = (1 − 0.5) 𝑛 (2.16) Presencia de empates. Aún en los casos continuos, como es el de la distribución logística, puede haber presencia de empates en la información muestral. Lo ideal es graficar únicamente un punto que será, en el caso de datos desagrupados, la media de los valores de y de cada observación repetida y en el caso de datos agrupados el valor más alto que tomen los datos del grupo. Neevia docConverter 5.1 Fig. 2.6 Gráfica de probabilidad para las primeras 10 observaciones de los datos LOG. Contraste entre los valore esperados de las estadísticas de órden y los valores de 𝑦 = 𝐺−1 𝐹 𝑥; 𝜇, 𝜎 . 2.3.3 Gráficas de Bondad de ajuste y estimación de parámetros Para el caso del conjunto de datos LOG con n=100 observaciones, en la figura 2.7 se muestra la gráfica de probabilidad. En este caso los puntos de la gráfica de probabilidad están muy cercanos a una línea recta por lo que se puede decir que tiene por función de distribución a la distribución logística: Dada una grafica de probabilidad de la función logística de un conjunto de datos, existen varias maneras de obtener la línea recta a la cual se debería ajustar la información muestral. Se encontraron 4 posibles técnicas, aunque informales, para determinar cual tendría que ser esa línea recta: a) Trazado de una línea por simple observación. Lo más sencillo es simplemente trazar la línea recta por donde “ se ve” tiene esta conformación la gráfica de probabilidad. D’Agostino y Massaro en Balakrishnan 1992, encontraron útil tomar la línea recta que une a los puntos correspondientes a 𝑆𝑛 𝑥 = 0.10 y 𝑆𝑛 𝑥 = 0.90. Después de trazar la línea “a ojo” también se puede obtener una estimación rápida sobre los parámetros de la distribución logística. Por ejemplo, para los datos LOG, en la gráfica 2.8 es posible obtener estimadores para la media 𝜇 y desviación estándar 𝜎 ya que por contrucción 𝑦 = 0 corresponde a la media 𝜇 y que 𝑦 = 1, o el 86avo percentil, corresponde a 𝜇 + 𝜎. En la gráfica 2.8 se ve como las líneas que salen de 𝑦 = 0 y 𝑦 = 1 al -2 -1 0 1 2 40 50 60 70 80 90 100 110 120 130 140 150 160 y Valores esperados Estadísticas de órden Neevia docConverter 5.1 tocar la línea recta trazada “a ojo” dan un estimador aproximado del valor que toma sobre el eje de las x los parámetros 𝜇 =99 y 𝜎 =117. b) Estimadores de regresión. La línea recta a la que se deben “parecer” los puntos de la gráfica de probabilidad de una distribución logística está determinada por la ecuación 𝑥 = 𝜇 + 𝜎𝑦, que es la ecuación con la que se construye la grafica de probabilidad con 𝑦 = 3 𝜋 log 𝐹𝑛 𝑥 1−𝐹𝑛 𝑥 . Para trazar esta línea recta es necesario saber el valor de μ y σ. Una alternativa es utilizar los estimadores por mínimos cuadrados ordinarios: 𝜎 = 𝑦 − 𝑦 𝑥 (𝑦 − 𝑦 )2 , 𝜇 = 𝑥 − 𝜎 𝑦 , (2.17) Es importante recordar que cuando 𝑦 = 0 entonces 𝜇 = 𝑥 Además, como las observaciones están ordenadas no son independientes, por lo que es de esperarse un patrón no aleatorio de los puntos alrededor de la línea recta. Las desviaciones de la línea recta tienen que ser medidos por la distancia horizontal entre la línea recta y los puntos. Esto porque en el caso de la gráfica de probabilidad se está graficando 𝑦 en el eje vertical. Fig. 2.7 Gráfica de probabilidad para los datos LOG con línea trazada “a ojo”. -4 -3 -2 -1 0 1 2 3 4 40 50 60 70 80 90 100 110 120 130 140 150 160 y Neevia docConverter 5.1 Fig. 2.8 Gráfica de probabilidad para los datos LOG. c) Media y desviación muestral. Generalmente no existe gran diferencia entre los estimadores por regresión y la media 𝑋 y desviación 𝑆 muestrales. Sin duda, usar estos últimos resultan un método sencillo. d) Estimadores máximo verosímiles. No podía hacerse a un lado la opción de encontrar el valor de los parámetros por máxima verosimilitud.Es interesante notar que cuando el valor de los parámetros de la distribución es conocido , es decir, cuando la hipótesis nula es simple, se realiza la verificación al graficar 𝑋(𝑖) contra el valor de la media en la hipótesis. El paso siguiente será ver qué tan cercanos están los puntos graficados de este modo a una línea recta con intercepción 0 y pendiente de 1. 2.3.4 Detección de desviaciones de linealidad en gráficas de probabilidad de la función logística Detección de observaciones atípicas. La gráfica de probabilidad de la función logística puede ayudar, además, a detectar observaciones atípicas. En este caso, conviene graficar 𝑦 en el eje horizontal, de manera que los outliers u observaciones atípicas aparezcan como grandes desviaciones verticales de la línea recta y sean identificadas rápidamente bajo una inspección de la gráfica de probabilidad. Distribuciones unimodales. De acuerdo a D’Agostino and Stephens (1986) es posible distinguir una distribución normal o cualquier distribución unimodal no normal a partir de la medida de sesgo y de la medida del peso de las colas, o kurtosis. Estas medidas bien pueden ser útiles en la detección de desviaciones de una función logística. La medida de simetría o skewness está definida por: -4 -3 -2 -1 0 1 2 3 4 40 50 60 70 80 90 100 110 120 130 140 150 160 y Neevia docConverter 5.1 𝛽1 = 𝐸(𝑥 − 𝜇)3 𝜎3 (2.18) Mientras que la medida del peso de las colas, o kurtosis, está definida como: 𝛽2 = 𝐸(𝑥 − 𝜇)4 𝜎4 (2.19) Como la distribución logística es simétrica, esto significa que su medida de sesgo es 𝛽1 = 0, además de que el peso de las colas o kurtosis tiene una magnitud del orden de 𝛽2 = 4.2 . Se puede saber si una distribución tiene sesgo positivo a partir de la proporción de la función de distribución empírica para valores de 𝑖 𝑛 lo más cercanos a 1, o dicho de otra manera mayores a 0.9. Si están concentrados en estos puntos, la gráfica se alarga y queda lo más cercana al eje horizontal. Similarmente, la función tendrá sesgo negativo si la proporción está cargada hacia los valores de 𝑖 𝑛 menores a 0.1. Las figuras 2.9, 2.10 y 2.11 muestran las gráficas de probabilidad de la función logística para 3 distintos grupos de datos con distribución simétrica ( 𝛽1 = 0) y distintos grados de kurtosis. De estos tres ejemplos, los datos con un comportamiento más cercano al de una distribución logística son los NOR, como era de esperarse. Fig. 2.9 Gráfica de probabilidad n=100 de una distribución uniforme U(0,10). (𝛽2 = 1.8) 0 1 2 3 4 5 6 7 8 9 10 -1.5 -1 -0.5 0 0.5 1 1.5 y Neevia docConverter 5.1 Fig. 2.10 Gráfica de probabilidad n=100 de una distribución Laplace (0,2) con 𝛽2 = 6.0 Los datos UNI fueron generados a partir de una distribución uniforme U(0,10) mientras que los LAP fueron generados de una distribución Laplace con parámetro de localización 0 y parámetro de escala. Los datos NOR provienen de una normal N(100, 10). En general, las gráficas de probabilidad logística de datos cuya distribución es simétrica presentan la apariencia de la fig 2.13A en donde se puede apreciar cómo cambia el sentido de la curva dependiendo del grado de kurtosis: 𝛽2 > 4.2 𝑜 𝛽2 < 4.2. Fig. 2.11 Gráfica de probabilidad n=100 de una distribuciónNormal (100,10) con 𝛽2 = 3.0 En cambio, las gráficas de probabilidad de la distribución logística presentan el tipo de comportamiento que ilustra la figura 2.13B cuando provienen de distribuciones no -15 -10 -5 0 5 10 15 -1.5 -1 -0.5 0 0.5 1 1.5 y x 70 80 90 100 110 120 130 -1.5 -1 -0.5 0 0.5 1 1.5 y Neevia docConverter 5.1 simétricas. A partir de estos patrones se descarta a primera vista que la distribución a prueba sea una logística, que es una distribución simétrica. Este tipo de comportamiento permite determinar incluso que tipo de sesgo presenta. Fig. 2.13 (A) Apariencia de las gráficas de probabilidad logística de distribuciones simétricas. (B) Apariencia de las gráficas de probabilidad logística de distribuciones con sesgo. D’Agostino y Massaro en Balakrishnan 1992. Neevia docConverter 5.1 2.3.5 Gráficas de probabilidad para muestras censuradas. Muestras censuradas individuales. Frecuentemente no todas las observaciones de una muestra están disponibles, esto es, la muestra está censurada. (ver 1.4) En el caso de las gráficas de probabilidad para muestras censuradas individuales el procedimiento es el mismo que para muestras completas, teniendo siempre en cuenta que aunque sólo se graficarán las observaciones disponibles, 𝑟 ó 𝑠 según sea el caso, el denominador de 𝑆𝑛 𝑥 será 𝑛 y no sólo las observaciones sin censura 𝑛 − 𝑟 o 𝑛 − 𝑠. Ejemplo. Suponer que del conjunto de datos LOG con 𝑛 = 100 solo se cuenta con las 40 observaciones menores. Esto significa que se trata de una muestra censurada por la derecha con con 𝑟 = 60. Para construir la gráfica de probabilidad de la distribución logística se siguen los mismos pasos que cuando se trataba de una muestra completa: primero ordenar las observaciones disponibles para después calcular tanto la función de distribución empírica 𝑆𝑛 𝑥 con 𝑦 = 3 𝜋 log 𝑆𝑛 𝑥 1−𝑆𝑛 𝑥 considerando las 𝑛 = 100 o, dicho de otra manera, la muestra completa. Una vez que las observaciones disponibles son ordenas, 𝑆𝑛 𝑥 se calcula con 𝑛 = 100 y 𝑦 también se calcula de la manera usual usando 𝑆𝑛 𝑥 . La grafica 2.14 muestra la grafica de probabilidad de estos datos con la gráfica teórica de y contra x donde los estimadores de 𝜇 y 𝜎 se obtuvieron por mínimos cuadrados: 𝜇 = 101.32, 𝜎 = 10.32. Es importante hacer notar que al graficar no importa si la censura es tipo I o tipo II. Fig. 2.14 Gráfica de probabilidad de la distribución logística para los datos LOG con censura por la derecha con r=60. 50 60 70 80 90 100 -3 -2.5 -2 -1.5 -1 -0.5 0 y Neevia docConverter 5.1 Muestra con Censura Múltiple. Cuando la censura de una muestra no se limita a una de las colas se conoce como censura múltiple. Esta consiste en la censura en ambas colas simultáneamente pero también en la censura de observaciones centrales o fuera de las colas. La gráfica de probabilidad puede ser extendida para el caso de muestras censuradas múltiples. La interpretación de la gráfica de probabilidad para este caso y para muestras con censura simple será la misma que cuando la muestra está completa. Sin embargo, la generalización de esta técnica para muestras censuradas múltiples requiere redefinir la función de distribución empírica 𝑆𝑛 𝑥 . En busca de una explicación lo más clara y sencilla posible, se considera primero qué pasa cuando la muestra censurada es censura progresiva del tipo I, esto sin olvidar que para los otros tipos de censura múltiple se utiliza la misma metodología. Suponer se tienen n unidades bajo estudio y cada una de ellas tiene un tiempo de inicio distinto pero todos terminan el experimento al mismo tiempo t. Los tiempos de vida ordenados de las n unidades serán 𝑌(1),𝑌(2),… ,𝑌(𝑛). Algunos de ellos serán tiempos de falla y otros tiempos de censura. En caso de ocurrir r fallas todavía quedarían (𝑛 − 𝑟) en la prueba para el tiempo t. En este caso el tiempo de falla 𝑌(𝑖) no es necesariamente la 𝑖 − é𝑠𝑖𝑚𝑎 observación más grande la función de distribución sujeta prueba, razón por la cual 𝑌(𝑖) no puede ser un cuantil muestral de la muestra completa. La única manera en que ésto sería posible es si todos los 𝑌(1),𝑌(2),… ,𝑌(𝑛) son tiempos de falla. Aun con estas modificaciones, el objetivo sigue siendo graficar los r tiempos de falla contra los cuantiles teóricos de la función G. Para ello se hace necesario saber qué proporción de la población cae por debajo de 𝑌(𝑖), esto es, hace falta conocer cuál es el valor de 𝐹(𝑌 𝑖 𝜇,𝜎) . En este caso, la alternativa de uso más extendido es la estimación de Kaplan-Meier (1958) para la función de supervivencia 𝑆 𝑥 . Donde para conocer la estimación de la función de distribución empírica 𝑆𝑛(𝑥) se usa la relación 𝐹 𝑥 = 1 − 𝑆 𝑥 . Estimador Límite-Producto de Kaplan-Meier. El llamado Estimador Límite-Producto de Kaplan-Meier es una alternativa al clásico método de clasificar las observaciones de supervivencia en una tabla de mortalidad. Kaplan-Meier permite ir más allá y estima la función de supervivencia 𝑆 𝑥 directamente de la información de supervivencia en un tiempo continuo, pero también a partir de los tiempos de falla o no supervivencia. Este estimador encuentra amplias áreas de aplicación que van desde la investigación médica hasta la economía. En el caso de la investigación médica, donde surgió la motivación para el modelo, el estimador Kaplan-Meier se usa para medir la proporción de pacientes que Neevia docConverter 5.1 sobrevivirán tras cierto tratamiento. Un ingeniero, por su parte, estará interesado en conocer el tiempo de vida de alguna máquina o alguna de sus partes antes de fallar. La incorporación de los tiempos de falla para el cálculo de la función de supervivencia es consecuencia de que Kaplan y Meier (1958) notaron que el llamado tiempo de supervivencia o “tiempo previo a la muerte” en ocasiones no puede ser observado por la pérdida del objeto sobre el que se está experimentando. Las causas para esto pueden ser que: los objetos o sujetos “salieron” del estudio los objetos o sujetos entran desfasados al estudio el experimento termina antes de que se presente el fallecimiento del paciente. El gran aporte de Kaplan y Meier fue la propuesta de un método para utilizar la información disponible aun considerando pérdidas. De hecho desde su primer artículo, Kaplan y Meier están abiertos a considerar al término “muerte” no solo de la manera coloquial sino que adoptan las demás interpretaciones, incluso metafóricas, que el término pueda sugerir en otras aplicaciones. Ellos aceptan que “muerte” puede representar a cualquier evento susceptible de muestreo aleatorio y van mas allá al sugerir que incluso los términos “muerte” o “pérdida aleatoria” pueden ser intercambiados haciendo posible un análisis adicional de la información muestral desde los distintos puntos de enfoque. Esta flexibilidad en la definición de los términos incluso permite estimar funciones de supervivencia 𝑆(𝑡) apropiadas para varias categorías de eventos en la ausencia de otros. Dentro de los supuestos mas importantes de su modelo se encuentra que la “muerte” de un objeto y la “pérdida” de ese o cualquier otro objeto nunca ocurren al mismo tiempo t, además de que nunca coincide con el año t en que otra función esté siendo evaluada. De manera práctica esto significa que las muertes ocurridas en el tiempo t serán consideradas como si hubieran ocurrido un poco antes que t y que las pérdidas ocurridas en el tiempo t serán tratadas como si hubieran ocurrido un poco después del tiempo t. Esta convención de que la muertes preceden a las pérdidas tiene que ver con que cuando se está analizando una muestra cualquiera, de manera natural se examina al grupo de objetos al tiempo 𝑡0, se anota
Compartir