Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Index Curso Introducción Definición y semántica Veamos una de las tantas definiciones de Estadística: "Ciencia que pretende crear, desarrollar, y aplicar técnicas que permitan evaluar la incertidumbre de las inferencias inductivas". Muchos de nosotros tenemos una sensación semejante a escuchar hablar en un idioma en el cual reconocemos palabras aisladas pero no captamos la idea. No nos va mucho mejor con el diccionario, podemos leer en el Diccionario Enciclopédico Joyan de la Editorial Ruy Díaz en su primera edición de mayo de 1991 que la Estadística es: "Parte de la matemática que estudia las propiedades variables de las cosas, generalmente a partir de muestras, para describir, inferir y predecir acerca de los sucesos o fenómenos". Si no se comprende el qué, el por qué y el para qué, no conviene avanzar en detalles de procedimientos específicos. Creemos más importante reflexionar y discutir sobre las ideas que proponemos a continuación, que intentar memorizar cualquier fórmula estadística. Si sabemos lo que necesitamos, las fórmulas nos esperan eternamente en el libro. Causa y efecto Creemos que la dificultad es previa a intentar entender la definición. Nos parece que la dificultad est á en la base de elaboración de muchas de nuestras ideas, y que proponemos sintetizar como un binomio conceptual: "causa – efecto". Un binomio constru ído, muchas veces, sobre percepciones sensoriales no procesadas; aún hoy decimos que el sol "sale" por el Este, que a cierta hora "cae" el rocío y ni hablar de los "afectos" del corazón o de la determinación y valentía que "se pone" con los testículos. El concepto en el binomio es: "en presencia de la misma causa sucede el mismo efecto". Los fundamentos para esta afirmación los encontramos en el modo "natural" con que el que manejamos muchas de nuestras actividades cotidianas. Nuestra razón relaciona con ese concepto binomial datos presentes y pasados, propios y ajenos, para decidir cual ha de ser nuestro proceder para obtener determinado resultado, con ese método planificamos nuestro accionar. Sucede que no siempre las cosas resultan conforme al planeamiento. En esas circunstancias, con el mismo método, intentamos explicar la discordancia y entre las razones habituales encontramos: "datos insuficientes", "error de procedimiento", etc. Si con esa metodología las explicaciones no satisfacen, surgen las "irracionales": "mala suerte", "el destino", "los astros no fueron favorables", etc. Son expresiones de que la "causa" no se conoce; no se duda del concepto binomial. Si el efecto fue diferente al esperado, la explicación "natural" es que hubo una causa diferente a la considerada. Parece "antinatural", ilógico si se prefiere, plantearse si "efectos" desiguales podrían suceder en presencia de la misma "causa", de las mismas circunstancias. [Index FAC] [Index CCVC] Bioingenieria e Informatica Médica/Bioengineering- Medical Informatics Curso: Bioestadística básica para médicos asistenciales 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Leyes de Murphy y la perplejidad Las diferencias entre lo planeado y el resultado est án magníficamente descriptas en la mayor recopilación de anónimas citas destacables de todos los tiempos, nos referimos a las "Leyes de Murphy". Esas "Leyes" no nos parecen otra cosa que un modo irónico de expresar perplejidad. Cuando la realidad no se ajusta a lo "razonable" según el binomio "causa-efecto" nuestro desconcierto intelectual se refugia en conceptos que trascienden a la razón, como son: "visi ón", "intuición", "sexto sentido", "percepción extrasensorial", etc. Determinismo y casualidad Esta tendencia "natural" a encontrar una ligazón estable y reproducible entre "las causas y los efectos" de todo lo que acaece, es quizá la base de que nuestra educación médica, como la mayoría de las formaciones "científicas", sea aún hoy, esencialmente "Determinista". Nuestro modo básico de pensar lo es. El Determinismo proponemos entenderlo como una estructura intelectual que asume que todo lo que sucede está sujeto a leyes de cumplimiento inexorable. Son "deterministas" por ejemplo: la "Ley de la Gravedad" de Isaac Newton y la más próxima a nuestros tiempos, "Teoría de la Relatividad" de Albert Einstein. Pierre Simon Laplace afirmaba que el Universo era completamente "Determinista", y que un conjunto de "leyes" científicas permitirían describir y predecir todos los sucesos del universo. El determinismo se constituyó en el paradigma científico durante siglos. Las únicas objeciones eran religiosas ¿Dios no puede intervenir una vez que creó una ley? ¿Dios tiene poder para crear la ley y no para transgredirla? Si nos pidiesen expresar el determinismo en una sentencia arriesgaríamos la siguiente: "En las mismas condiciones sucede el mismo fenómeno". La falta de correspondencia entre las condiciones preexistentes y el suceso previsto se explica, "naturalmente", porque "faltan datos" o por "errores" de cualquier tipo. No se pone en duda el "Principio Determinista". "Dios no juega a los dados", solía decir Einstein, quien recibió el premio Nobel por su contribución a la teoría Cuántica pero nunca aceptó que el universo estuviese "gobernado" por el azar. Si la casualidad no existe, ¿cómo explicar la lotería, o cualquier "juego de azar"? Creemos que en la necesidad de coherencia intelectual está la concepci ón de un componente Metafísico vinculado al universo conocido. Lo metafísico, con leyes propias, inaccesibles de momento y prevalentes sobre las conocidas del universo Físico, explicaría las aparentes "casualidades" bajo el común denominador del destino determinado. Ese universo dual complementario (físico y metafísico) con sus leyes, es una respuesta a nuestra perplejidad y una base para dejar "a salvo" el determinismo. Incertidumbre y aleatoriedad Un enfoque diferente aparece como opción si se acepta la existencia de fenómenos casuales (aleatorios, azarosos). Si aceptamos lo impredecible de ciertos fenómenos deberemos cambiar también el modo de estudiarlos, de analizarlos. El Principio de Incertidumbre lo propuso en 1926 un físico, el Dr. Werner Heisemberg, que investigaba el movimiento de las partículas atómicas y trataba de establecer las "leyes" que lo rigen en sus diversos aspectos (velocidad, posición, etc). Quizá en lo que para los doctos es un exceso en la síntesis, podríamos decir que las observaciones de Heisemberg lo llevaron, entre otras, a estas conclusiones: 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology • El diseño del experimento compromete el resultado. Por ejemplo: la luz que Heisemberg utilizaba para estudiar posición y velocidad de las partículas, modificaba el movimiento espontáneo de las mismas. • Condicionar variables distorsiona al conjunto. En otros términos, la reproducibilidad es garantía de antinaturalidad . Diseños experimentales que fijan condiciones muy rígidas, tratando de acotar las variables en juego para poder concentrarse en la observación de una de ellas, lo que logran es distorsionar las relaciones del conjunto incluyendo al comportamiento espontáneo (natural) de la variable en estudio. A Heisemberg le pasaba esto cuando pretendía estudiar simultáneamente velocidad y posición de las partículas atómicas. Es común en biología cuando se intenta comprender las diferencias de ciertos fenómenos "in vitro" al estudiarlos " in vivo", "in situ", etc. • Impredecible en cuanto inmensurable. No se pueden predecir con exactitud los acontecimientos futuros, en parte porque, como ya vimos, tampoco se pueden medir exactamente los presentes. Estos estudios llevaron a que Heisemberg, Schrödinger y Dirac entre otros, expusieran que "En general, la mecánica cuántica no predice un único resultado de cada observación particular. En su lugar, predice un cierto número de resultados posibles y nos da las probabilidades de cada uno de ellos".No es ocioso aclarar que la tecnología moderna con sus transistores, las computadoras, los circuitos integrados de video, los satélites, etc. se basa en esta concepción "no determinista" de los fenómenos físicos. Incertidumbre y Agradecimiento No podemos avanzar en estos temas sin mencionar lo que nos ayudó a apreciar estas ideas el libro del Dr Stephen Hawking "A Brief History of Time, From the Big-Bang to Black Holes" traducido como "Historia del Tiempo" Ed. Crítica Barcelona, 1988. Recomendamos a los interesados a completar y corregir nuestro resumen el cap 4 pág 81 dónde el Dr Hawking desarrolla "El Principio de Incertidumbre". Aleatoriedad y Probabilidad Si no se puede predecir exactamente el suceso individual, se puede intentar calcular la probabilidad de que ocurra de determinada manera. Blas Pascal (1623-1662) desarrolló la teoría de las combinaciones y creó las bases del cálculo de probabilidades. Si se observa el "dado" que mencionaba Einstein se constata que no se necesita tirarlo ni una sola vez para pronosticar cuantas veces "saldrá" un número cuando se tire el dado 100 veces o que probabilidad tiene de "salir" ese número en un solo tiro. En estudios como los de Heisemberg, en las conductas médicas, y en otras ciencias, enfrentar al azar con la razón surge como desafío y como necesidad. Más aún, y por otro lado, medítese en desarrollar completamente la idea de libertad en un universo "determinista". Para aceptar un universo aleatorio no es necesario el complemento metafísico ni creer que "Dios juega a los dados". Un creyente sólo necesita creer que Dios se reserva el derecho de actuar cuando y como quiera, de manera que su intervención, aleatoria, no contraría la libertad implícita para todo(s) en esa aleatoriedad. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Estadística y Aleatoriedad La Estadística es una ciencia que agrupa conocimientos matemáticos para intentar trabajar racionalmente en la observación de fenómenos aleatorios. La Estadística es una respuesta racional a la incertidumbre, a la aleatoriedad. A las definiciones que no entendíamos proponemos resumirlas en estas ideas: • La Estadística es una rama de la Matemática. • El objeto de estudio de la Estadística son los fenómenos casuales. • La Estadística expresa lo casual matemáticamente. La Estadística utiliza la observación de las características de pocos casos para elaborar conclusiones que pueda proyectar con una probabilidad conocida a la generalidad de dónde salieron los casos observados. Ese es el sentido de expresarse en porcentajes. La Estadística asume que no siempre en idénticas condiciones sucede id éntico fenómeno. En realidad, la Estadística asume que las diferencias fenomenológicas en condiciones similares son la regla, y que la igualdad, es la excepción. La Estadística pretende reconocer, cuantificar y pronosticar esas diferencias. Una meta de la Estadística es darle significado a las diferencias observadas. La Estadística da respuesta matemática (probabilidad) a una pregunta constante: ¿ Las diferencias observadas expresan (significan) simplemente la variación casual, lo aleatorio, el azar, o que realmente cambiaron las circunstancias? La Estadística trata de inferir si una diferencia observada es o no casual, y para ello calcula y expresa la probabilidad de que esa diferencia haya sido casual. Si la probabilidad de observar esa diferencia casualmente es muy baja, el investigador interpreta que cambiaron las condiciones e infiere que esa diferencia no es casual. La Estadística es un Método Inductivo ya que el camino del conocimiento va de lo particular a lo general. Una vez inferido (conocido desde la particularidad) el comportamiento de la generalidad, se puede pronosticar (establecer probabilidad) conductas particulares. Así, el conocimiento estad ístico deviene deductivo en la reversa hacia lo particular: Un tratamiento quirúrgico a un paciente concreto, le ofrecerá mayores probabilidades de sobrevida que el tratamiento no quirúrgico alternativo, si esa diferencia en la sobrevida (mayor en este caso) se observó y se infirió no casual , en estudios previos comparativos de ambos tratamientos y que incluyeron pacientes como el de la consideración. La Estadística es el idioma con el que nos referimos a los fenómenos aleatorios. Publicación: Septiembre 2005 Tope Preguntas, aportes y comentarios ser án respondidos por el relator o por expertos en el tema a través de la lista de Bioingenieria e Inform ática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology ©1994-2005 CETIFAC - Bioingeniería UNER Webmaster - Actualización: 05-Sep-2005 Nombre y apellido: País: Argentina Dirección de E-Mail: Enviar Borrar Dr. Diego Esandi Co-Presidente Comité Científico Correo electrónico Dra. Silvia Nanfara Co-Presidente Comité Científico Correo electrónico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Index Curso Clase Nº 1: Terminología Básica Raúl E. Ortego, Carlos R. Secotaro Intentaremos algunas definiciones de términos, pero como en los idiomas, trataremos de aprender su significado mediante la utilización, y con la reiteración como método, aun a riesgo de recibir el calificativo de tautólogos. Aleatorio y evento Su equipo de trabajo resuelve estudiar si la dieta influye en la mortalidad durante el año del egreso de personas que se internaron en su hospital por un Infarto Agudo de Miocardio, a los cuales durante esa internación se les diagnósticó por primera vez que padecían diabetes. El tratamiento que su servicio recomienda durante el primer año post alta incluye un control dietético estricto. Resuelven dividir a los pacientes en dos grupos denominados Dieta Controlada y Dieta Libre respectivamente. Todos los pacientes egresados en esas condiciones, y cada uno de ellos, están expuestos a morir en el año de observación post alta hospitalaria. El equipo de estudio no sabe si va a ocurrir siquiera alguna muerte en ese lapso (el tiempo de exposición, u observación en este caso). Tampoco se sabe, en caso de que ocurra, que personas fallecerán en ese lapso. En resumen, la muerte, el suceso a observar en estos pacientes, no se sabe cuando ocurrirá, a quién le va a ocurrir y ni siquiera si va a ocurrir alguna vez. La ocurrencia de ese suceso es Aleatoria, o si se prefiere Casual o Azarosa. Un fenómeno ó acontecimiento ó circunstancia ó suceso (algo) de aparición (ocurrencia) aleatoria es denominado Evento. Para el estudio de marras, la muerte será el evento a contabilizar. Nótese la diferencia semántica coloquial para ese término, ya que aún personas instruídas se refieren a la "organización" de eventos (Fiestas, Congresos, etc). Si hay algo desorganizado por definición es un evento. El concepto de Evento está asociado indisolublemente al azar, a la casualidad. El Evento es esencialmente aleatorio. Población y muestra En los censos de las personas que habitan un lugar los gobiernos procuran obtener ciertos datos de todos y de cada uno de los habitantes, sin excluir a ninguno por ninguna razón, se habla de censo de la Población. Las empresas que desean analizar ciertos gustos o necesidades de la Población para intentar satisfacerla y obtener con ello un beneficio, solicitan recabar los datos pertinentes a una parte de la Población que denominan Muestra. Se intenta inferir desde la muestra lo que se quiere conocer de la población. La Población es una totalidad; la muestra es una parte de esa totalidad. [Index FAC] [Index CCVC] Bioingeniería e Informática M édica/Bioengineering- Medical Informatics Curso: Bioestadística básica para médicosasistenciales 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology La población como objeto de estudio es una totalidad de datos obtenibles, no necesariamente de personas. Nuevamente la estadística se aleja del significado coloquial del idioma. La totalidad de peces del mar es una población, pero también lo son la totalidad de las flores, la totalidad de las rosas, la totalidad de los colores de las rosas, etc. Una parte de una población, las rosas de las flores, se puede considerar población en cuanto esa sea la totalidad que interese. Una población puede ser la totalidad de pacientes diabéticos; pero también puede serlo la totalidad de los pacientes Diabéticos Tipo I o la totalidad de los pacientes con Infarto y Diabetes diagnosticada durante la internación. En el estudio de su hospital no se internó una totalidad, sólo una parte. Cualquier parte de una población no es una muestra de la misma. La muestra es una parte que representa a una población de referencia. Para que desde la muestra se pueda inferir el conocimiento de la población, la muestra debe representarla en su totalidad, en todas sus características. Para que la muestra represente a la población, todos y cada uno de los individuos de la población deben tener la oportunidad de estar considerados para participar de la muestra. La totalidad debe estar disponible para el fraccionamiento, para el muestreo (a un sustantivo la Estadística necesita transformarlo en verbo para su idioma: muestrear). Los miembros de la población que efectivamente son incluídos en la muestra deben serlo por casualidad, por azar, aleatoriamente . La muestra es esencialmente de constitución aleatoria. Representación y Sesgo Cuando una parte de la población es incluída o excluída de un fraccionamiento por alguna característica peculiar se dice que es "cortada", "sesgada" de la población y por lo tanto los miembros de la población que carecen de la característica utilizada para sesgar no están representados en la fracción; se fraccionó pero no se muestreó. El sesgo descalifica a la fracción como muestra ya que no representa a la totalidad. En el estudio de su hospital se resolvió dividir a los pacientes en dos grupos. Se decidió que los ingresados en días pares serían asignados al grupo Dieta Libre y los ingresados en d ías impares al grupo Dieta Controlada. Otras opciones consideradas fueron: 1) Incluir en el grupo Dieta Controlada sólo a los que hubiesen completado el segundo nivel de escolaridad porque había más garantía de cumplimiento y 2) Incluir en Dieta Libre a todos los desocupados ya que de hecho comerían lo que pudiesen. Se rechazaron esas opciones porque implicaban un sesgo en el estudio. Para más detalles, si las consecuencias alimentarias de la desocupación son tan serias, una opción es excluir a los desocupados de ambos grupos del estudio; en consecuencia se debe agregar al título del trabajo un item que diga"… en pacientes con ocupación conocida", ya que los pacientes con Infarto y diabetes "de novo" desocupados no estarán representados. Lo que no se debe hacer cuando se pretende muestrear, es seleccionar para la distribución con cualquier criterio que no sea esencialmente aleatorio. En medicina se sabe si un paciente está representado en determinado trabajo cient ífico, en otras palabras, si pertenece a la población que se ha estudiado, analizando las características del "Material y Método" del trabajo en cuestión. Si el paciente se ajusta a los criterios de inclusión y a los de exclusión y no fue incluído en el estudio por una razón fortuita, azarosa, como por ejemplo que nació después de que el estudio finalizó, lo mismo pertenece a la población estudiada, está representado en esa muestra. Esa es la base que permite aplicar en el presente estudios de antaño, sin necesidad de repetirlos con cada generación. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Constantes y Variables Quizá estos términos son el ejemplo paradigmático de que con las mismas palabras no se expresan las mismas ideas en el lenguaje coloquial y en la Estadística. En el uso corriente son predicados de significado opuesto; en los trabajos cient íficos son el sujeto, y lo variable puede hacerse constante y viceversa. En el estudio ALLHAT (The Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial JAMA, December 18, 2002 - Vol 288, N°23: 2981-2997) la aparición de Diabetes con el tratamiento hipotensor fue una variable. Si para algún trabajo de Metaanálisis sobre tratamiento hipotensor y aparición de Diabetes se tomase al subgrupo del ALLHAT en los que apareció Diabetes, la aparición de la Diabetes sería la constante de ese subgrupo como lo es de todo el metaanálisis. La característica de constante o variable deja de pertenecer a la "cosa" en estudio para depender sobre todo de "cómo se estudia a la cosa". En un "material de estudio" hay características, cualidades, que lo identifican, que le son esenciales (si cambian, ese "material" ya sería otro distinto), a esas cualidades se las llama Constantes. Las Variables son cualidades del "material de estudio" que aún modificándose ellas, no cambian al "material" que sigue siendo el mismo. Esta vez el concepto está en el lenguaje popular, ya que "la mona aunque se vista de seda … mona queda". En el estudio de su hospital la variable es la mortalidad anual, para ello contará esos eventos (las muertes) durante ese lapso; podría haber estudiado la tasa de reinfarto o la necesidad de indicar insulina sin que variase lo constante. Su equipo de estudio quiere saber si las características de la Dieta (libre o controlada) incide en la mortalidad (la variable) más allá de lo meramente casual, ya que, por supuesto, descuentan que habrá diferencias de mortalidad entre ambos grupos con un año de observación para cada paciente. Constantes y Variables, de cualidades del material de estudio se tornan sujeto (sustantivo) de estudio, así se escucha decir: "La variable fue tal o cual". Nótese que estudiando la variable, lo que en realidad su equipo quiere saber es si hubo cambios en lo presumido constante . Si verifican que hubo tales cambios, concluirán que el control de la dieta cambia las circunstancias, las condiciones, que se alteró lo constante, que los dos grupos no representan a la misma población, que son muestras de poblaciones diferentes, que la dieta divide en poblaciones diferentes, que el control de la dieta marca una diferencia en el pronóstico de los pacientes porque dejan de pertenecer a la misma población. Que no es lo mismo haber tenido un Infarto, ser diabético y cumplir la dieta que su hospital sugiere, que no cumplir tal recomendación. Por las características variables de fenómenos aleatorios, la Estadística procura inferir si hay condiciones basales, constantes, diferentes. Conocer lo constante a través de lo variable es la razón de ser de la Estad ística. Uso combinado de constantes y variables Reconocemos si una melodía es ejecutada con una trompeta o con un violín o con un instrumento de percusión por las constantes que caracterizan a los sonidos emitidos por esos instrumentos. Reconocemos que se trata de la misma melodía por las constantes (partitura) que la caracterizan. Las relaciones temporales variables de frecuencia de los sonidos emitidos por los instrumentos, las notas musicales, permitirán interpretar diferentes melodías con el mismo o con diferentes instrumentos. Las constantes de la melodía son las variables que pueden compartir los instrumentos sin perder sus propias constantes de emisión de sonidos. El material de estudio puede ser un instrumento con sus constantes y usar diversas melodías como variables o cualquier otra combinación. Veamos otros ejemplos: Morir es una constante en la vida (ciclo) del hombre. La muerte de individuos es un evento en un lapso de observación de un grupo de hombres. 4to. Congreso Virtual deCardiología - 4th. Virtual Congress of Cardiology La mortalidad [Relación Muertos/(Muertos +Vivos )] en un lapso de observación (por ejemplo: anual) es una variable de las Poblaciones Humanas. Tipos de Variable Las variables pueden ser Cualitativas o Cuantitativas. Las variables cualitativas pueden ser Nominales u Ordinales. A) Cualitativa Nominal: Las variables se describen con palabras o números. El estudio o análisis de las mismas no admite operaciones matemáticas aunque la variable se exprese con números (por ejemplo el directorio telefónico). Son un ejemplo de estas variables el Infarto Agudo de Miocardio (IAM), la Insuficiencia Cardíaca Derecha, la Diabetes , etc. Estas variables nominales pueden ser dicotómicas cuando admiten solo dos posibilidades, por ejemplo: vivo o muerto, operado o no operado. B) Cualitativa Ordinal: Las variables admiten graduaciones jerárquicas, pero sin cuantificar, por ejemplo: "mayor o menor que". El estudio o análisis de las mismas no admite operaciones matemáticas, pero sí se pueden comparar. Son ejemplo de estas variables cualitativas ordinales las Clases Funcionales I, II, III ó IV de la Insuficiencia Cardíaca o del Angor. Las variables cuantitativas o cardinales admiten en su estudio a todas las operaciones matemáticas. Estas variables pueden ser Continuas o Discontinuas (Discretas). A) Cuantitativa Continua: El valor de la variable admite las infinitas posibilidades de los números reales y las fracciones tienen sentido. En estudios con la variable Peso Corporal se admite que entre dos valores existan infinitos valores, por ejemplo entre 30 y 31 Kg se admite todos los decimales que se considere necesario: 30,1; 30,11; 30,111, 30,1111, etc. B) Cuantitativa Discreta o Discontinua: El valor de la variable entre dos valores no admite infinitas posibilidades ya que las fracciones no tienen sentido. Por ejemplo: el número de dedos faltantes para determinar capacidad laboral, el número de "piezas" obtenidas en una cacería, el número de piezas dentales para hacer una prótesis, etc. Funciones Estadísticas Son la expresión de procedimientos matemáticos realizados con los valores de las variables, por ejemplo el promedio A) Parámetros Son las funciones de la Población y por lo tanto son una Constante de la misma. Nótese la diferencia con el significado coloquial del término cuando se lo utiliza para decir por ejemplo: "los parámetros de control del paciente se mantuvieron en el rango normal" dónde va implícita la variabilidad. Se simboliza a los parámetros con letras Griegas, por ejemplo el Promedio se simboliza µ (mu) y el Desvío Standard G (giga). B) Estadígrafos Son las mismas funciones, pero referidas a la Muestra , son por lo tanto Inconstantes y se las simboliza con letras Latinas , por ejemplo el Promedio es y el Desvío Standard es DS . 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Tipos de Estadística A) Estadística Descriptiva Es la que se limita a caracterizar poblaciones o muestras mediante funciones de las mismas, Parámetros o Estadígrafos respectivamente. Desde los datos obtenidos por muestreo se pueden hacer proyecciones a la población mediante la expresión de las funciones en porcentajes. B) Estadística Inferencial Es la que procura saber si muestras que exhiben diferentes valores y funciones pertenecen a la misma población. La Estadística Inferencial trata de establecer cual es la probabilidad de que la diferencia observada se deba sólo al azar del muestreo. Procura inferir con sus conclusiones el significado de las diferencias. En el estudio que se planteó su equipo, al estudiar la mortalidad anual de pacientes que no sabían que eran diabéticos y que padecieron un IAM comparando dos muestras según los pacientes siguiesen una dieta estricta luego del alta, dan por obvio que observarán diferencias en la mortalidad de ambos grupos (Dieta Libre vs Controlada). La estadística inferencial operando matemáticamente con los valores y/o las funciones obtenidas en cada muestra aporta datos para ayudar a interpretar esa diferencia. El tratamiento estadístico (matemático) de los datos le asignará una probabilidad a que la diferencia observada sea casual. Su equipo ha decidido que si la p robabilidad de que la diferencia sea casual es menor de 1% (uno por ciento) o expresado de otro modo que la p < 0.01 inferirán que la dieta marcó la diferencia, que la diferencia no fue casual, que la dieta divide poblaciones. La Estadística Inferencial concluye informando la p robabilidad de que la diferencia sea casual. No niega que haya sido casual. No pretende negar la casualidad. Procure explicarle a alguien que ya ganó u$s 1.000.000 en la lotería jugando un número de 5 cifras y habiendo sido la probabilidad de ganar < 0.000001, que la casualidad no existe y que por lo tanto ¡¿no ganó?!. Por el contrario:¿Recomendaría jugar para "zafar"? La Estadística infiere en el sentido de proponer conclusiones sobre la totalidad con datos parciales. Entre las varias definiciones del diccionario (ibid) para el verbo inferir proponemos elegir "inducir una cosa de otra". En el estudio de su hospital, el equipo de trabajo procurará inducir si el control dietético es eficaz disminuyendo la mortalidad post Infarto en diabéticos "de novo" si la diferencia a observar entre los dos grupos tiene baja probabilidad de ser sólo casual. El valor de probabilidad que llamará "baja" su equipo, ha decidido que sea 1% (p < 0.01 ). El equipo sabe que puede ser simplemente una casualidad encontrar una diferencia de mortalidad entre ambos grupos de control de dieta, aunque los cálculos inferenciales den que la probabilidad de un hallazgo casual sea p < 0.000001 (como el de la lotería). Nótese que la medicina "Basada en la Evidencia" no transmite "verdades reveladas"; sólo dice que es evidencia una interpretación de datos que asigna un valor "arbitrario" (elegido si se prefiere) a la casualidad. Arbitrario no quiere decir "infalible". La medicina "Basada en la Evidencia" por los cálculos de la Estadística Inferencial recomendaría en nuestros ejemplos que jugar a la lotería no es la forma más probable (¿segura?) de "zafar". Quizás, veremos su estudio, la "evidencia" obtenida recomiende que es más seguro cumplir con la dieta que no hacerlo, aun sabiendo "a priori" que algún incumplidor "zafará" o que el más cumplidor de todos podría morir a los tres meses. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Publicación: Septiembre 2005 Tope Preguntas, aportes y comentarios ser án respondidos por el relator o por expertos en el tema a través de la lista de Bioingeniería e Informática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: Nombre y apellido: País: Argentina Dirección de E-Mail: Enviar Borrar Dr. Diego Esandi Co-Presidente Comité Científico Correo electrónico Dra. Silvia Nanfara Co-Presidente Comité Científico Correo electrónico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico ©1994-2005 CETIFAC - Bioingeniería UNER Webmaster Actualización: 13-sep-05 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Clase Nº 2: Estadística Descriptiva Raúl E. Ortego, Carlos R. Secotaro Index curso - Clase anterior - Clase siguiente Cuantificar para comparar En conversaciones cotidianas se comparan variables cualitativas utilizando adverbios de cantidad y adjetivos calificativos. Las señoras comentan que tal afamado diseñador de ropas es contradictorio porque en verano elije colores "cálidos" y entre ellos se inclina "más" por el rojo. Los caballeros, dialogando sobre automóviles, opinan sobre la "mayor o menor confiabilidad" de ciertas marcas reconocidas. Ha sido reconocido que los pacientesdiabéticos tienen más riesgo de arteriopatías. Ciertas recomendaciones procuran que ese riesgo en pacientes diabéticos sea menor. El lenguaje coloquial deja librado a la imaginación, a las vivencias previas, en ocasiones a las expectativas de los interlocutores, la magnitud, el impacto, de tales apreciaciones. ¿Cuánto, y en ocasiones Qué, es "más", "mayor", "mejor", etc?. La Estadística Descriptiva , acorde a su esencia, debe expresarse matemáticamente. Para describir a las variables cualitativas con números, la primera acción es contar. Finalmente, si es apropiado, se puede inferir comparando relaciones de muestras. Frecuencia: mediciones y relaciones 1. Frecuencia Absoluta"f": Cantidad de veces que se repite determinado valor de la variable (cuantitativas) o atributo (cualitativa). 2. Frecuencia Relativa "fr = f/n": Es el cociente entre la "f" y el número total de datos "n". 3. Frecuencia Absoluta Acumulada"fa": Es la suma de las "f" hasta un valor de la variable. Por ejemplo: si decimos que 40 estudiantes han "sacado" 4 o menos de 4 como nota, en realidad hemos sumado la cantidad de "0", de "1", de "2", de "3" y de "4". La expresión correcta (porque no "sumamos" estudiantes) hubiese sido: hay 40 notas con 4 o menos de 4. 4. Frecuencia Relativa Acumulada"fra": Es la suma de las "f" hasta un valor de la variable. En el ejemplo anterior, si los alumnos (notas) son 80, afirmaríamos que el 50% saco 4 o menos de 4. 5. Distribución de Frecuencia: Es una "Tabla" donde se presentan, en columnas, los valores de la variable y su correspondientes frecuencias. Por ejemplo, si "tiramos" un dado 50 veces podríamos obtener algo así: [Index FAC] [Index CCVC] Bioingeniería e Informática M édica/Bioengineering- Medical Informatics Curso: Bioestadística básica para médicos asistenciales 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Prevalencia e incidencia A una clínica le han ofrecido la posibilidad de atender por sistema de "cápita" a una población de jubilados. Se trata de 9.900 personas de ambos sexos y con una edad promedio de 60 años. El sanatorio que los atiende actualmente realizó un relevamiento de todos ellos investigando Diabetes; encontraron 1980 personas que cumplían con los criterios diagnóstico de Diabetes. El sanatorio referido ha solicitado un incremento en el monto de "cápita" por paciente en razón de que la diabetes aumenta los costos de atención. Argumentan que la prevalencia de Diabetes en ese grupo es "más" alta que en la población general que se toma como referencia para establecer el monto de la cápita. El diabetólogo de la clínica es convocado para asesorar al respecto. La Estadística Descriptiva utiliza la palabra Prevalencia para referirse a la proporción de una totalidad, los jubilados en este caso, que cumple los criterios particulares que interesan (variable cualitativa), en nuestro ejemplo, de Diabetes. Siguiendo los pasos necesarios para transformar variables cualitativas en números, se contó el total de personas (9.900) y se contó para conocer la frecuencia absoluta (1980) de diabéticos. La relación de esos números informa que del total de esos jubilados son Diabéticos 1980/9.900 (0,2) o en términos porcentuales para hacer proyecciones, que la Prevalencia es del 20%. Nótese que Prevalencia es una manera de referirse a una Frecuencia Relativa . El Diabetólogo informa que en la población general la Diabetes se presenta con una Prevalencia del 5%. Más aún, el diabetólogo informa que con la edad promedio de esa población de jubilados, se debe esperar que la aparición anual de nuevos casos de Diabetes, en el nuevo idioma, que la Incidencia de Diabetes, sea superior a la tasa de mortalidad y por lo tanto, con el transcurso del tiempo, la prevalencia aumentará. La relación de una prevalencia con alguna unidad de tiempo, anual en el ejemplo, es lo que la Estadística Descriptiva denomina Incidencia. Prevalencia e Incidencia son maneras matemáticas de presentar mediciones y relaciones (Frecuencias). Son datos obtenidos con variables cualitativas y que la Estadística Descriptiva ofrece para hacer proyecciones y/o inferencias. Riesgo y Odds Si la variable cualitativa tiene connotación peligrosa o desagradable en algún sentido, su frecuencia relativa en los estudios puede incluir esa idea si se la expresa utilizando el término Riesgo, es una alternativa en reemplazo de Prevalencia. El servicio de ginecología del hospital regional ha realizado un estudio en el que observó una frecuencia relativa de 30% de Recién Nacidos de Bajo Peso (RNBP) en embarazos de mujeres menores de 18 años, mientras que en mayores de 18 años fue del 5%. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology La comunicación de esos datos podría hacerse diciendo que la Prevalencia de RNBP en embarazos de menores de 18 años es del 30%, lo cual es mayor que la Prevalencia del grupo control que es del 5%. En el programa de prevención de embarazos no deseados el servicio optó por distribuir una circular que advierte que el Riesgo de RNBP en embarazos de adolescentes es del 30%, siendo el Riesgo habitual del 5%. La misma idea de frecuencia relativa puede ser expresada matemáticamente con una diferencia, sutil con poblaciones grandes, relevante con poblaciones pequeñas o en proceso de cambio. Se trata de la relación "Odds". La Prevalencia es la relación entre el número obtenido de la variable y el total. En ese total están incluídos los "variable positivo" y los "variable negativo". En el ejemplo de los jubilados se relacionó los 1980 diabéticos con los 9900 jubilados. En esos 9900 jubilados estaban incluídos los 1980 diabéticos. La relación Odds resulta de dividir el número de "variable positivo" con el número de "variable Negativo". En el ejemplo la Odds Ratio es 1980 /7920 (Diabetes+/Diabetes -). Esta palabra inglesa tiene muchas acepciones: "impar" (odd shoe), "extra" (odd player in a game), "chances" (… odds are against us), etc. La relación Odds, en inglés Odds Ratio (OR) , proponemos emplearla como Riesgo Agregado o Riesgo Extra o Probabilidad Adicional ya que relaciona "los que SÍ con los que NO", a "los que les pasó con los que no les pasó". OR simultáneamente informa el Riesgo de que SI con la Probabilidad de que NO. Si se analiza la evolución durante 10 años de observación de una afección con un determinado tratamiento y el evento a contabilizar es la muerte, puede expresarse la frecuencia relativa de la muerte (la mortalidad) con el criterio que vimos para Riesgo . En ese caso, el denominador será siempre el total de pacientes observados, son los que se van muriendo, van pasando del denominador al numerador pero no se los descuenta del denominador. Es como si los muertos siguiesen "votando", como si continuasen en el grupo, vigentes para nuevos eventos. Veámoslo con números: muestra original de 1000 pacientes. El primer año mueren 25 pacientes: mortalidad 25/1000 = 0.025 = 2.5%, a los 5 años han muerto 350 pacientes luego: mortalidad 350 / 1000 = 0.35 = 35%. Si la relación se hiciese con OR, se informaría el primer año 25 / 975 = 0.0256 = 2.56%; pero a los 5 años se informaría 350 / 650 = 0.538 =53.8% Ninguna de las dos relaciones es "mentirosa", pero: ¿Mortalidad 35% o 53.8% a 5 años? Han muerto el 35% de los que iniciaron; los vivos saben que la relación muertos / vivos actualmente es casi 54%. OR informa con más precisión la situaci ón al momento del análisis. OR es una manera de mantener actualizada la información. Números y localización Para expresar las direcciones de nuestras viviendas hemos elegido hacerlo con números que establecen nuestra localización relacionándola con una posición conocida. Referido al planeta deberemos citar Latitud y Longitud de un punto ubicado en nuestra vivienda. Lo común es fijar un punto cero en la localidad, al cual se lo denomina punto o Lugar o Centro de Referencia. Nótese que el Centro de Referencia,o Km 0 en el lenguaje ciudadano, habitualmente no se ubica en la vivienda de nadie, por cierto que siendo el punto una localización virtual, él mismo no es una vivienda real. Cualquier ubicación en una localidad está referida a ese Centro y se urbaniza con las calles perpendiculares cada 100 metros hacia los cuatro puntos cardinales. Si se dice que alguien reside en Calle 12 Oeste 1464 Norte, queda claro que vive en un lugar al cual pertenece el punto donde se cruzan dos líneas perpendiculares imaginarias que distan del Centro de Referencia: la primera 1200 m al Oeste y la otra 1464 m al Norte. En Estadística Descriptiva las funciones (Parámetros y Estadígrafos) son utilizados como Referencia de localización de los valores de las variables. Como veremos poco más adelante es muy útil 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology saber la localización de un valor con respecto a otro utilizado como referencia. En lenguaje coloquial, es importante saber que tan lejos o cerca del centro de referencia está un determinado valor y cómo se agrupa el conjunto. En el lenguaje estadístico se denominan a estos números referenciales, calculados con las mediciones realizadas, Medidas de Referencia. Medidas de referencia Se utilizan dos tipos de medidas, las que identifican el Centro de Referencia de la Población o de la Muestra y las que expresan la distribución (Dispersión en la jerga Estadística) de los valores de esa población o de esa Muestra alrededor del centro. En el nuevo idioma que estamos aprendiendo se habla entonces de Medidas de Tendencia Central y de Medidas de Dispersión, respectivamente. En la traducción a nuestro lenguaje cotidiano, proponemos entenderlo como las referencias para localizar los valores individuales o reales de la variable en estudio. Medidas de tendencia central 1. Media o Promedio: Se calcula dividiendo el valor resultante de sumar todos los valores obtenidos (Sumatoria) de la Variable (v) por el número de valores obtenidos (n). 2. Mediana: Es un valor de la variable que separa al conjunto en igual número de valores mayores y menores que él mismo. Como se refiere a localización sería más apropiado decir igual número de valores a un lado y a otro, o por encima y por debajo. Por ejemplo, si los valores obtenidos fueron: -2, 0, +2, +4, +6, la mediana de esa serie es +2. Se la puede definir sólo con la jerga estadística, veamos dónde estamos con el idioma: "la mediana es el valor de la variable cuya frecuencia acumulada es mayor que la mitad de la frecuencia del valor total". ¿Todavía no lo manejamos? Quizá sea oportuno repasar el item Frecuencia: Mediciones y Relaciones. En series grandes y/o "pares" de valores existe una fórmula para calcular la mediana que utiliza la Distribución de frecuencias y el rango entre cada par de valores inmediatos. A ese rango se lo denomina: Intervalo de clase. 3. Modo: Es el valor de la variable más frecuente. Por ejemplo, si los valores obtenidos fueron: 2,2,2,3,5,7, el modo es 2. En series grandes y/o "empatadas" el modo se calcula también con fórmulas que utilizan la Distribución de frecuencias y el Intervalo de clase. Medidas de dispersión 1. Rango: Es una manera de señalar los límites de las localizaciones posibles. Se expresa con dos valores, el valor más alto y el valor más bajo obtenidos de la variable. Por ejemplo: los valores obtenidos fueron: 2,3,3,4,5,6, el rango es 2 y 6 . 2. Cuantilo: Es un valor de la variable que separa al conjunto dejando ubicados una parte, un 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology porcentaje o una proporción por encima y otra por debajo de ese valor. Por ejemplo, el Percentilo 25 es el valor de la variable que deja por debajo al 25% de los valores obtenidos y por encima al 75% de esos valores. 3. Desvío: El promedio o media o medio, se construye sumando los valores reales y dividiendo esa sumatoria por el número de valores reales que se sumaron. Por ejemplo: los valores obtenidos son 2, 2, 3, 3, 4, 4, 7, 7, 8, 10; la media es 5. En este caso el valor promedio no es uno de los valores reales obtenidos. No importa, aprendimos que al promedio lo necesitamos como una referencia para ubicar a los valores reales y relacionarlos al respecto entre ellos mismos. Esa es la idea del concepto Desvío en este nuevo idioma, expresa la localización de un valor real con respecto al centro de referencia. El Desvío se calcula restando el valor al promedio. En el ejemplo de marras los desvíos de los valores reales obtenidos son: -3, -3, -2, -2, -1, -1, +2, +2, +3 , +5. En el leguaje coloquial diríamos que hay valores que están más cerca y otros más lejos del promedio; con otras palabras, el desvío nos dice la ubicación relativa del valor respecto al promedio y por ende, también de los valores entre sí. Para que tenga sentido, entonces, el desvío se expresa conjuntamente con el promedio de referencia; para legos, es la "dirección" de un valor de la variable. Varianza y desvío standard o medio Si la intención es inferir como se distribuye la población, la totalidad, señalar cada desvío es engorroso y poco práctico, por lo tanto, para esa finalidad, si la distribución de los valores de la variable es más o menos simétrica tiene sentido calcular el Desvío Medio (Promedio de los Desv íos) o Desvío Standard ( DS ) de los valores de la variable. Se calcula mediante la siguiente fórmula: La fórmula expresa que la sumatoria (?) de los desvíos al cuadrado (x – )2 debe dividirse por el número de valores obtenidos (n) ; eso ya lo conocemos, es calcular el promedio de los desvíos, lo novedoso es elevar los desvíos al cuadrado para luego extraer la raíz cuadrada (v) al promedio obtenido. Suele usarse ( n–1) en lugar de n, y en eses caso se habla de "grados de libertad". Para el lenguaje de nuestras conversaciones cotidianas es un galimatías. Los valores reales obtenidos de la variable son números mayores y menores que el promedio. Eso significa que habrá desvíos positivos y negativos, como ya vimos en los ejemplos previos. Hicimos la analogía de que el desvío es la "dirección" del valor. Imagine qué sentido podría tener dar su dirección o su teléfono con números negativos. Trabajar con "direcciones negativas" es todo un tema, más aún porque en realidad los desvíos son localizaciones reales, positivas en la jerga común, y no valores negativos en el sentido de tales números reales. Lo que interesa, más que una localización precisa de los valores, es inferir la dispersión promedio, la ubicación promedio, común, Standard, o si se prefiere, cómo se agrupan. Recordemos algunas cosas simples de matemática, nos enseñaron que números reales que se elevan al cuadrado dan como resultado un número real con signo positivo. Por ejemplo: (-2)2 = +4 ó (+2)2 = +4 ó 4 ya que la positividad está implícita por omisión. Elevar al cuadrado la sumatoria de los desvíos, antes de dividirlo por el número de datos, da como resultado que la dirección promedio de los desvíos es positiva. El Desvío promedio Positivo, en tanto cuadrático, se denomina Varianza. En las comparaciones de muestras, podremos estudiar no solamente las diferencias en las medidas de 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology tendencia central, promedios, medianas o modos; tenemos la posibilidad de comparar las dispersiones, en otros términos, de analizar la varianza de muestras. Se abre la posibilidad de apreciar que muestras que parecen similares, que parecen representar a la misma población por la similitud de sus medidas de tendencia central, en realidad al analizar la varianza exhiben una dispersión tan distinta que podrían representar a poblaciones diferentes. El conjunto se agrupa de manera diferente. La varianza es muy cómoda para trabajar matemáticamente, pero convengamos que como expresión de dispersión, de ubicaciones, de "direcciones", alrededor de una medidade tendencia central, al tener un solo signo se autolimita como idea de ubicación. Recordábamos que un número elevado al cuadrado da un resultado positivo, el procedimiento inverso, extraer la raíz cuadrada de un número, da un resultado que admite (tiene) los dos signos conocidos. Si la varianza es la expresión cuadrática de la dispersión promedio, parece más inteligible referirse, generalizando, a la ubicación de los valores de la variable por medio de su Raíz Cuadrada, ya que al tener los dos signos expresaremos mejor la idea que queremos transmitir, esto es, que "los valores de la variable están localizados más o menos tanto alrededor de …". A la Raíz cuadrada de la Varianza se la denomina Desvío Medio o Standard y se lo simboliza como DS. Por supuesto, para que tenga sentido el DS debe expresarse conjuntamente con la medida de tendencia central de referencia; para legos, es la ubicación promedio (la dispersión) de los valores de la variable alrededor del "Km 0". Comparemos dos muestras, una caracterizada por 50 y DS ±1, otra por 50 DS ± 15. El DS expresa como se dispersan los valores en general. Si volvemos a nuestra analogía de ver al desvío como las "direcciones" de los valores, la primer muestra ( 50 ± 1), nos sugiere que los valores están ubicados muy próximos, si fuesen viviendas pensaríamos en un vecindario urbano, la segunda muestra ( 50 ± 15) describiría una zona rural. Los datos de la Estadística Descriptiva son utilizados por la Estadística Inferencial. El problema es resolver si las dos muestras del ejemplo representan a una misma población. Piense la conclusión si compara solo los (50 y 50) , sin hacer ningún cálculo no parece la misma conclusión si compara ± DS ( 50 ± 1 y 50 ± 15) o si se concentra en analizar las varianzas (1 y 225). 1 y 225 resultan de DS2 ya que DS =v v y por lo tanto v = DS2. Queda claro que para inferir comparando muestras, son importantes los valores, pero también las funciones, todas ellas, especialmente las que expresan la manera en que se "localizan", se distribuyen, se dispersan los valores de la variable. En biología es frecuente comparar muestras contra sí mismas; por ejemplo, antes y después de un determinado tratamiento. Si se comparan sólo los promedios puede pasar algo semejante a lo del ejemplo previo, no apreciar diferencias, a pesar de que el tratamiento realmente cambió las condiciones basales. En otros términos, que la muestra post tratamiento no representa a la misma población que la muestra pre tratamiento, pero eso, a veces, sólo se percibe con claridad analizando la varianza de las muestras. Distribución y localizaciones conflictivas Algunos valores reales de la variable pueden tener una localización tan distante de la medida de tendencia central que surjan dudas sobre su pertenencia a la población. La Estadística Descriptiva contempla estas situaciones analizando los posibles modos de distribución de los valores de la variable: Distribución Simétrica o Asimétrica. Distribución simétrica y marginalidad 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Se la reconoce por la coincidencia del valor de media, mediana y modo. A un valor que impresiona fuera de contexto, que es difícil aceptarlo como perteneciente a la población muestreada, se lo denomina Marginal. Su equipo de trabajo exploró los valores de colesterol sanguíneo en 100 varones de 30 a 50 años asintomáticos y sin antecedentes personales ni familiares de factores de riesgo para aterosclerosis con examen físico normal. El 68% de los valores se encontraron en el rango 170 a 190 mg%; el 95% en el rango 160 a 200 mg% y el 99% en el rango 150 a 210 mg%. Un valor hallado, y corroborado que no se trataba de un error técnico, fue 450 mg%.La duda es considerarlo un valor normal casual y por lo tanto incluirlo para los cálculos o, una rara enfermedad genética con hipercolesterolemia sin impacto clínico temprano. Se trata claramente de un valor marginal. Su equipo decide comunicar su hallazgo y aclarar que no se lo incluyó en los cálculos hasta no completar estudios genéticos. Distribución asimétrica Se las reconoce por la falta de coincidencia entre media y mediana. Los valores de la variable tienden a agruparse (modo) hacia alguno de los extremos. El reconocimiento de la distribución es muy importante para el tratamiento estadístico. Aplicar fórmulas propias de una distribución simétrica a valores dispersos de manera asimétrica provoca errores con trascendencia en la proyección y en las inferencias. En dispersiones asimétricas se debe optar entre media y mediana como medida de Tendencia Central; hay que decidir y elegir la que se crea más útil como referencia para caracterizar la distribución de los valores de la variable. La media esta muy influenciada por los valores extremos, por marginales. Por ejemplo: los valores obtenidos son 2, 4, 6, 8, 40; la media es 15; la mediana es 6. El tratamiento matemático para proyectar e inferir conclusiones de las muestras a la población varía según el tipo y la distribuci ón de los valores obtenidos. Index curso - Clase anterior - Clase siguiente Publicación: Septiembre 2005 Tope Preguntas, aportes y comentarios ser án respondidos por el relator o por expertos en el tema a través de la lista de Bioingeniería e Informática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: Nombre y apellido: País: Argentina Dirección de E-Mail: 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Enviar Borrar Dr. Diego Esandi Co-Presidente Comité Científico Correo electrónico Dra. Silvia Nanfara Co-Presidente Comité Científico Correo electrónico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico ©1994-2005 CETIFAC - Bioingeniería UNER Webmaster Actualización: 13-sep-05 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Clase Nº 3: Tablas y Gráficos Raul E. Ortego Carlos R. Secotaro Index curso - Clase anterior - Clase siguiente Es un acervo de los pedagogos que "una imagen expresa más que mil palabras". La Estadística incorpora esta idea a su modo de transmitir señales, datos, conclusiones. Tablas Es una manera de presentar datos agrupados para facilitar comparaciones. Se ordenan las Variables en Filas (Horizontales) y los Datos en columnas (Verticales). Los datos de las variables quedan ordenados en Tablas de "Contingencia" (lo que ha sucedido y lo que no ha sucedido). Veamos un ejemplo imaginario utilizando las Columnas para anotar pacientes con y sin Diabetes; las filas para anotar los pacientes con y sin Infarto de Miocardio (IAM). Coordenadas cartesianas Son dos líneas perpendiculares (Ejes) que se cruzan en un punto que funciona como el 0 (cero) para las cuatro semirrectas resultantes. Por convención hacia arriba y hacia la derecha son valores positivos. El Eje horizontal o Eje de las Abscisas o Eje de las X es el Eje de la Variable. El Eje Vertical o Eje de las Ordenadas o Eje de las Y es el Eje de la Frecuencia. Histograma [Index FAC] [Index CCVC] Bioingeniería e Informática Médica/Bioengineering- Medical Informatics Curso: Bioestadística básica para médicos asistenciales 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology La frecuencia de la variable se expresa con un área determinada (vg: barras) Polígonos de Frecuencia Se unen los extremos de las barras y se puede comparar en un mismo gráfico distintas poblaciones o muestras. Polígonos de distribución acumulativa Son polígonos de frecuencia en los que se coloca en el eje de ordenadas la frecuencia acumulada. Permite observar y eventualmente comparar, la evolución temporal de la variable en una o más muestras simultáneamente. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congressof Cardiology Scatter Se representa cada valor de la variable con un punto en un gráfico de coordenadas cartesianas. Es la imagen de la dispersión de los valores de la variable, del modo de distribución (Simétrica o Asimétrica) y permite observar valores marginales en el contexto global. Trazar lineas de Correlación. Campana de Gauss Los fenómenos biológicos tienen habitualmente la Distribución de Frecuencia de los valores de la variable prácticamente simétrica. El Polígono de Frecuencia resultante adopta una forma particular denominada: " Campana de Gauss " Imágenes e ideas En nuestra idea de estudiar la Estadística como idioma, la "Bioestadística" sería un "dialecto" específico, por el que nos interesamos especialmente. No conviene avanzar en Bioestadística sin reflexionar sobre la "Campana de Gauss". Este simple Polígono de Frecuencia se convierte de un gráfico en una "piedra fundamental" de las ideas, en un cimiento del análisis de fenómenos biológicos. Para tenerla in mente simplificaremos la "campana" a su expresión basal: el par de coordenadas cartesianas tradicionales para Variable y Frecuencia (X e Y) con el agregado de señalar el valor Promedio o Medio o Media ( ) recordando que por ser simétrica la distribución, ese valor es el mismo de 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology la mediana y del modo. La línea de la campana proponemos imaginarla "punteada", siendo cada punto una localización, una ubicación, como veremos a continuación. En la imagen de la Distribución Simétrica que pretendemos instalar como idea, como base de pensamiento y de expresión, agregaremos dos líneas perpendiculares. Una contiene al punto del valor medio, la otra contiene al de mayor frecuencia. Se cortan, coinciden, en un punto cúspide de la campana. Valor y localización En una distribución de frecuencias simétrica, el valor real "x" de frecuencia de aparición "y" se ubica, se localiza, en el punto A ó "xy" de la curva. Para nuestro idioma asumamos que esa es una localización absoluta, "cruda", no referida a ningún otro valor de la variable. Cada punto de la línea de la "campana" es la localización de cada valor de la variable. La línea de puntos es la sucesión de localizaciones del conjunto de valores de la variable. La "campana" es un símbolo gráfico de cómo se distribuye, se dispersa o si se prefiere, cómo se agrupa, la población o muestra estudiada. Proponemos hablar y pensar de cada "campana" como si fuese el "mapa", la "localidad", de una población o de una muestra. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Pertenencia por localización En la analogía propuesta pensamos a la localización de un valor concreto como la "residencia" de ese valor de la variable identificado en el Eje de las X. La localización no es el valor de la variable (su identidad), la localización es dónde se ubica ese valor de la variable acorde al número de veces que se repite. Por la ubicación, por la dirección de una residencia, reconocemos a la localidad y dentro de ella al "barrio" (la localidad pequeña, íntima) a la que pertenece. Pensemos al punto A (xy desde ahora) desde la perspectiva de la línea punteada que es la "campana" dónde se localizan el conjunto de valores de la variable (la población). El punto xy pertenece a la localización en general del conjunto de valores de la variable que se está estudiando. El punto xy de una localidad puede pertenecer a más de una población. En realidad a cada localización es mejor aún que nos la imaginemos para nuestras conversaciones y pensamientos como una posada, un albergue, dónde conviven, cohabitan, muchas identidades, miembros de diferentes "comunidades", de diferentes conjuntos de valores de la variable, de diferentes poblaciones o muestras. Un estudio comparó el efecto de una gaseosa "light" sobre la glucemia en ayunas. Analizó una muestra de pacientes diabéticos y una más pequeña de pacientes NO diabéticos como control. En los resultados vieron que un valor absoluto (x) de glucemia de 100 mg% se encontró en la muestra de glucemias de pacientes diabéticos pero también en la muestra de glucemias de pacientes NO diabéticos. Por el valor (x) no se reconoce a la muestra (ó población) de pertenencia. La localización xy "cruda","pura", "absoluta" pertenece a más de una muestra, por ende, tampoco la ubicación aislada indica muestra o población de pertenencia. Observe la localización xy y su relación espacial (distancia) a la vertical (en color rojo) que pasa por el valor medio de cada una de las campana a las que pertenece xy. Sin aplicar fórmulas, con su léxico cotidiano, observando esa relación, piense a cual de las dos muestras descriptas por cada campana (podrían ser poblaciones) tiene más probabilidad de pertenecer el valor x de localización xy. Por la localización relativa de un valor de la variable se puede establecer la probabilidad de pertenecer a determinada población o muestra según corresponda. Valores reales y virtuales Los valores reales se identifican (son), en el Eje de las X. Los valores reales "x" se localizan en un punto xy, se ubican, "existen", conforme a su frecuencia de aparición en la línea de la campana de su población. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Se localizan exactamente en el punto de intersección, entre la vertical que pasa por el Eje de las X (su identidad, el "valor") y la horizontal que pasa por el Eje de las Y (su frecuencia de aparición). La línea curva, la " campana ", en esta analogía de ubicaciones, es la línea que recorre las localizaciones de todos y cada uno de los valores reales de la variable. El valor medio, el promedio, la media, como medida de Tendencia Central que es, habíamos propuesto presentarla como el "Km 0", como el centro de referencia. La vertical que pasa por el valor medio es una línea de referencia para localizar con respecto a ella misma a cada uno y al conjunto de valores reales de la variable; esa línea es una referencia para ubicar el conjunto con sus relaciones intrínsecas. El promedio o valor medio o media ( ) es una idea, una construcción, un valor de referencia, un valor virtual, que a veces, puede ser el mismo que uno real; siempre es un valor virtual, puede coincidir con un valor real. Un valor real, aunque eventualmente coincida numéricamente, "no es" el promedio. Proponemos como ejercicio de abstracción abandonar la idea de que el promedio es el valor real más frecuente; resistirse a aceptar al promedio como que "vive", que "existe", que es "real" y que se "localiza" en el punto de mayor frecuencia. Es una trampa intelectual creer que al promedio se lo "encuentra" fabricándolo con los valores reales hallados; es una falacia común creer que el promedio es un valor real que existía y estaba "oculto", disimulado entre esos valores reales. Un simple ejemplo para luego continuar. Suponga una variable discreta con valores siempre PAR, por ejemplo, dados los valores 2, 4, 6, 8; el promedio es 20/4 = ¡¿ 5 ?! Los valores reales son siempre pares, el promedio es impar. NO hay problema, es un valor virtual alrededor del cual se distribuyen los valores reales. El promedio y el conjunto El valor del promedio y la línea vertical que lo contiene es una referencia común a diversas poblaciones o muestras. La coincidencia en el promedio es claramente insuficiente para identificar a un conjunto determinado, específico, de valores de una variable, es decir a una muestra o población. Sólo observar la figura basta como argumento probatorio de estas afirmaciones. El mensaje de la campana Los valores reales de la variable son insuficientes para identificar la muestra o población a la cual 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology pertenecen esos valores. Las localizaciones de los valores reales de la variable son insuficientes paraidentificar la muestra o población a la cual pertenecen esos valores. Poblaciones o muestras diferentes comparten valores reales, localizaciones de los mismos y pueden compartir también al valor virtual de referencia que se denomina promedio. La localización de un valor de la variable con respecto, referida, al promedio del conjunto de valores de la variable, permite calcular la p robabilidad de pertenencia de ese valor, a ese conjunto de valores de la variable (población o muestra). Index curso - Clase anterior - Clase siguiente Publicación: Septiembre 2005 Tope Preguntas, aportes y comentarios serán respondidos por el relator o por expertos en el tema a través de la lista de Bioingeniería e Informática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: Nombre y apellido: País: Argentina Dirección de E-Mail: Enviar Borrar Dr. Diego Esandi Co-Presidente Comité Científico Correo electrónico Dra. Silvia Nanfara Co-Presidente Comité Científico Correo electrónico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico ©1994-2005 CETIFAC - Bioingeniería UNER Webmaster Actualización: 15-sep-05 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Clase Nº 4: Error Standard Raul E. Ortego, Carlos R. Secotaro Index curso - Clase anterior - Clase siguiente El Error Standard podríamos expresarlo conceptualmente como el error que se puede cometer al intentar conocer a una Población por una Mue s tra de sí misma. La frecuencia absoluta de aparición de rangos de glucemias en una Población (están todos, no es una muestra) de 4600 pacientes No diabéticos fue la siguiente: Tabla de Resultados Histograma de frecuencia y polígono de frecuencia [Index FAC] [Index CCVC] Bioingeniería e Informática Médica/Bioengineering- Medical Informatics Curso: Bioestadística básica para médicos asistenciales 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Conceptos y tipo de variable Para facilitar la comprensión del ejemplo hemos transformado una variable continua como es la Glucemia en una cardinal como es el "rango de glucemia". Lo hemos hecho para que la "localización" de los valores de la variable sea más simple. Los conceptos sobre las limitaciones (el Error ) de conocer a la población por una muestra se aplican en los estudios que utilizan variables cualitativas nominales o cardinales, que "cuentan" para obtener la frecuencia de aparición en cualquiera de sus modalidades. Por supuesto que ocurre lo mismo si se trabaja con relaciones de las frecuencias obtenidas, como son el "Riesgo o Prevalencia", el "Odds Ratio", etc. Es conveniente destacar que las "ideas fuerzas" que expondremos a continuación son las mismas cuando se trabaja con variables cuantitativas continuas o discontinuas. En la analogía propuesta en este ensayo, se trata del mismo idioma, el mismo lenguaje. Localización en la "Campana": Al histograma de frecuencia que se denomina "Campana", lo simplificaremos para trabajar, "colgando" en cada "localización" el número de "habitantes" de ese valor de la variable allí "alojados" o "ubicados" si se prefiere. La línea gruesa vertical que divide a esta "campana" con distribución simétrica en fracciones iguales, es la línea que ya estudiamos pasando simultánemente por el valor PROMEDIO , por el valor de la MEDIANA y por el valor del MODO. No está de más recordar que en cada "localización" se alojan habitantes que comparten la identidad en cuanto al valor de la variable en el Eje de las X, pero que pertenecen a otras comunidades (Poblaciones). En este caso, esos otros "ocupantes" en cada "rango", podrían pertenecer a poblaciones de pacientes Diabéticos y de diversos tipos de Diabetes. A esos valores de la variable ("individuos") "alojados" en la misma localización que los miembros de la población en estudio, pero que no pertenecen a ella, los ignoraremos, los discriminaremos, como si no "existiesen". 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology El Azar del Muestreo Si observa la campana de la población del ejemplo encontrará, a los 4600 "pobladores", la totalidad, "localizados" según cada valor de la variable de la población. Observe que los valores en este caso son 7 (siete) rangos, las localizaciones también son 7 (siete), los pobladores son 4600 distribuídos simétricamente. Una muestra es una fracción de una población que se obtiene tomando azarosamente a algunos miembros de la población "muestreada". Idealmente una muestra sería una "miniatura " de la población. La idea de muestra está concebida imaginando que la misma es una "copia a escala" de la población. En el imaginario, la muestra no sólo representa sino que reproduce (a escala) a la población con sus características de distribución. En nuestro ejemplo, no necesitamos hacer ningún "cálculo de probabilidades" para saber que una muestra del 10% de la población (460 pacientes) no será obtenida, si de verdad es por azar, tomando un 10% de cada "localización". El azar, que garantiza ecuanimidad en la representación; conspira contra la exactitud de la "copia a escala". Obtener tal tipo de copia sería "sacar la lotería", es posible pero muy poco probable. Cantidad y representación Si por el azar del muestreo la "extracción" no es proporcionalmente idéntica para cada "localización", no hacen falta fórmulas para intuir que las campanas de diversas muestras no serán iguales entre sí, ni tampoco una "miniatura" exacta de la población. Las campanas de las muestras no son un calco entre sí; tampoco la contracción (fracción proporcional exacta si se prefiere) de la campana de la población. La muestra "ideal", la "miniatura" o "copia" a escala, en color rojo en el gráfico, es muy útil para captar algunas ideas que luego se expresarán en el "lenguaje" estadístico. Las localizaciones con pocos "habitantes" tienen menos probabilidades de obtener representantes en el muestreo; sin hacer cálculos de probabilidades, sólo observe las flechas punteadas en color rojo "buscando" representantes y en color celeste la frecuencia de aparición de ese valor en la población y en la muestra. No sólo eso, mirando el gráfico, reflexione sobre las chances de lograr "copia exacta" en la representación si las posibilidades de simplemente "aparecer" ya son escasas. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Tampoco es necesario un cálculo matemático complejo para percibir que cuanto menor proporción de la población sea incluída en la muestra (más pequeña la muestra), mayor será el Error en la Representación de la Población. Error por muestreo Comprendida la idea de que la muestra no es una representación "exacta" de la población, debemos asumir un Error en la representación, un Error por muestreo, en las proyecciones y en las inferencias que inducimos desde una muestra a su población. Si la mala noticia es que las muestras tienen ERROR, la buena noticia es que ese error puede ser calculado con notable precisión. En los párrafos y gráficos anteriores se explicó la idea de que hay una relación inversa entre tamaño de la muestra y Error por muestreo. El concepto "cuanto menor la muestra, mayor el Error" tiene una expresión matemática que la Estadística incluye en los cálculos de proyección e inferencias. Error promedio o error standard En nuestro conocida campana, dejamos la muestra ideal (miniatura) en color negro e incorporamos al gráfico las imágenes de dos muestras de diferente tamaño. La muestra mayor en color celeste y la muestra menor en color rojo. En la población y en cada una de las muestras incluímos la línea vertical que divide en dos fracciones iguales a cada campana. Es la línea que contiene a la medida de tendencia central ; la línea que en nuestro intentode comprensión, asumíamos como referencia de localización o "Km 0". El gráfico no es "caprichoso" al dibujar cada línea de referencia de localización, la referencia obtenida con la muestra ideal "miniatura" es coincidente con la medida de tendencia central verdadera, es decir la de la población. No tiene Error de Muestreo. Conforme a las ideas que se discutieron previamente, las muestras reales no tendrán la medida de tendencia central igual a la de la población de origen. En la realidad hay Error de Muestreo. La diferencia de la medida de tendencia central de la muestra con la referencia verdadera de la población dependerá inversamente del tamaño de la muestra. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology En el gráfico, la muestra celeste, más grande, tiene una referencia de localización más próxima a la verdadera, con menor Error, que la muestra roja, más pequeña. El Error de muestreo se expresa en el lenguaje estadístico agregando a la medida de tendencia central de la muestra un valor, calculado teniendo en cuenta el tamaño de la muestra, que informa cuan alejada está esa referencia de la real de la población. El valor del Error de la muestra se denomina Error Promedio o Error Standard. Cálculo del error standard Conocemos el número que figurará en el denominador de cualquier fórmula que calcule el Error Standard (ES), será el número de casos analizados, será el tamaño de la muestra en relación inversa al ES. Nos falta colocar un número en el numerador de la Ecuación que calcule el Error. En el caso de variables cuantitativas continuas , se utiliza como numerador al Desvío Standard obtenido en el muestreo. El Desvío Standard la estudiamos como una medida de distribución; para nosotros, legos, una expresión de la dispersión de las localizaciones, de la manera en que se ubican con respecto a la línea de referencia los valores de la variable. En nuestras humildes analogías, entendíamos al Desvío como el "domicilio" del valor de la variable. En esa idea, el Desvío Standard (DS) o Desvío Promedio, como valor agregado a la medida de tendencia central (media y/o mediana) informa con la expresión ± DS si las localizaciones en general están más o menos alejadas de la línea de referencia, del "Km 0" para nuestra traducción al lenguaje cotidiano. Una muestra con gran DS, con mucha dispersión de las localizaciones, con amplia distribución si se prefiere, será más difícil asumirla como representación homogénea (sin error de representación) de una población, más aún si las inclusiones son azarosas. Se comprende que para calcular el Error Standard de muestreo, el DS es directamente proporcional al ES ; DS y ES tienen relación directa ( mayor DS , mayor ES ). Así se llega a la expresión matemática, en la que "n" es el tamaño de la muestra. Las razones matemáticas para utilizar como denominador la raíz cuadrada del tamaño de la muestra escapan a la finalidad de este ensayo, nos basta con entender que tal artilugio aritmético no cambia la esencia de las ideas que hemos discutido. Para trabajar matemáticamente con variables cualitativas, la estadística apela al recurso simple de contar las apariciones (frecuencia de aparición) de cada opción de la variable, ya que contamos cualidades y no valores cuantitativos. Obtenidas las frecuencias de aparición en la muestra, la Estadística relaciona estas frecuencias entre sí de diversas maneras para trabajar con ellas (Riesgo, Odds , etc.) Estas relaciones o proporciones resultan de referir un número a otro. Ese otro número es el utilizado como referencia. Si de Riesgo o Prevalencia se trata, la relación o proporción se construye colocando en el numerador el número de Eventos contados y en el denominador el número total de referencia, el tamaño de la muestra . De esta manera se expresa, por ejemplo, que el Riesgo de muerte durante la internación por Infarto de miocardio (IAM) es de 0.1 o lo que es lo mismo 10% ó 10 / 100 . Con ello se dice que de cada 100 pacientes internados por IAM se mueren 10 pacientes. En realidad la muestra de estudio fue de 1040 pacientes y la cantidad de pacientes fallecidos fue de 104. El cálculo de 104/1040 arroja como 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology resultado 0.1 o sus expresiones porcentuales. En estos tratamientos matemáticos se capta rápidamente que cuanto mayor sea el tamaño de la muestra, cuanto más cercano el tamaño de la muestra al total de la población, mayor será la probabilidad de que la relación hallada sea verdadera, se percibe que el Error de muestreo, el error por "reclutamiento" azaroso sea menor. Se ratifica la idea previa, a mayor tamaño de la muestra, menor error. Estas relaciones proporcionales o, simplemente proporciones, aritméticamente, se calculan utilizando al tamaño de la muestra como denominador, como referente; luego la proporción hallada tiene relación inversa con el tamaño de la muestra. En un sentido aritmético estricto, se podría decir que a mayor tamaño de muestra, menor proporción; "Riesgo" si fuese esa la proporción estudiada. Esto carece de sentido porque es evidente que a mayor tamaño de la muestra, mayor número de eventos, mayor numerador; el resultado neto es una proporción más cercana a la verdadera. En la expresión Riesgo, es mejor como idea interpretar que a mayor tamaño de muestra, menor Error en la estimación del Riesgo. Por la construcción matemática del Riesgo, surge que el Error del Riesgo está en relación directa al valor calculado . En realidad se sigue vinculando al Error con el tamaño de la muestra y de manera inversa; mayor tamaño de muestra, menor error. Si "P " es la proporción hallada en la muestra, la ecuación para calcular el Error Estándar (ES) que utilizan los expertos en Estadística es: Si repasamos lo expuesto previamente, caemos en la cuenta que el tamaño de la muestra ( n ) aparece explícito en el denominador y está implícito en el numerador. Quizás lo único que debamos recordar de esta ecuación para nuestras expresiones idiomáticas estadísticas es que, para calcular el ES en las relaciones obtenidas con variables cualitativas, el número "llave" es el tamaño de la muestra; ratificando la idea de que a mayor tamaño de muestra, menor error de muestreo, menor ES. Index curso - Clase anterior - Clase siguiente Publicación: Septiembre 2005 Tope Preguntas, aportes y comentarios serán respondidos por el relator o por expertos en el tema a través de la lista de Bioingeniería e Informática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Nombre y apellido: País: Argentina Dirección de E-Mail: Enviar Borrar Dr. Diego Esandi Co-Presidente Comité Científico Correo electrónico Dra. Silvia Nanfara Co-Presidente Comité Científico Correo electrónico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico ©1994-2005 CETIFAC - Bioingeniería UNER Webmaster Actualización: 15-sep-05 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Clase Nº 5: Probabilidad de Pertenecer Raúl E. Ortego, Carlos R. Secotaro Index curso - Clase anterior - Clase siguiente En su hospital deciden probar un adminículo que determina la glucemia de manera incruenta en el lecho subungueal. El paciente sólo debe introducir en el mismo un dedo de la mano y en 3 segundos aparece en una pequeña pantalla el nivel de la glucemia en mg%. Se resuelve hacer un control con personas a los cuales se les determinará la glucemia por métodos tradicionales. Se planifica aparear para comparar, es decir cotejar el par de datos obtenidos en el mismo paciente, uno con el aparato de marras y otro suministrado por el laboratorio. En el laboratorio del hospital se realizan más de 300 glucemias
Compartir