Logo Studenta

Bioestadística

¡Estudia con miles de materiales!

Vista previa del material en texto

BIOESTADÍSTICA
VARIABLES
No todo en la Medicina es fijo, por ende hay que acostumbrarse a manejarse con VARIABLES, las cuales, más adelante, veremos cómo definirlas como normales o no. 
Dichas variables pueden dividirse en NUMÉRICAS (CUANTITATIVAS) y NO NUMÈRICAS (CUALITATIVAS)
Las variables NO Numéricas son aquellas que no podemos cuantificar, tales como el sexo, el color de piel, de ojos, la estructura general del cuerpo (longilíneo, robusto).
Las variables Numéricas, en cambio, sí se pueden cuantificar, es decir, las podemos contar. Éstas, a su vez, se pueden subdividir en variables DISCRETAS (que son aquellas que presentan sólo valores enteros, como por ejemplo: número de cromosomas, número de ojos, de hijos, de micciones diarias) y en variables CONTINUAS (que son aquellas que expresan valores decimales como la altura, peso, glucemia, hematocrito, colesterol en sangre)
 
Ahora, ¿cómo estudiamos dichas variables?
Podemos plantear para las variables no numéricas, una división en grupos:
Vamos a dividir a 100 pacientes según su color de pelo en
a) Rubios
b) Morochos/castaños
c) Pelirrojos
d) Otro color
e) 
Y obtenemos los siguientes resultados: a):25 b): 70 c)4 d)1 
Estos datos me hablan de valores ABSOLUTOS, es decir, el valor individual de cada grupo, sin compararlo con los demás
Ahora bien, puedo calcular los valores RELATIVOS, es decir, comparar el valor de cada grupo con el total
a): 25/100 = 0,25 b): 70/100 = 0,70 c): 4/100 = 0,04 d): 1/100 =0,01
Aunque también podemos expresarlos en Porcentajes (multiplicando el resultado relativo por 100) a) 25% b) 70% c) 4% d) 1%
Podemos decir entonces que la FRECUENCIA relativa fue de 25%, 70%, 4% y 1% respectivamente. Esto constituye una distribución de frecuencia para el caso analizado.
Supongamos que a estos 100 pacientes los dividimos en subgrupos, pero ahora de acorde a su edad, es decir, siguiendo una variable Numérica DISCRETA
I) Entre 15 y 20 años: 35 personas
II) Entre 20 y 30 años: 50 personas
III) Entre 30 y 40 años: 15 personas
De éstas, también podemos deducir valores absolutos (como detallamos recién) o valores relativos:
I)0,35 (35%) II) 0,55 (55%) III 0,15 (15%)
Y si a estos mismos los dividimos según su altura, podemos hacer un análisis de una variable Numérica CONTINUA
1) Menos de 1,55 m: 5 personas
2) Entre 1,55 y 1,60 m: 15 personas
3) Entre 1,60 y 1,65 m: 30 personas
4) Entre 1,65 y 1,70 m: 38 personas
5) Más de 1,70m: 12 personas
Las frecuencias y porcentajes relativos serían 1) 0,05 (5%), 2) 0,15 (15%) 3) 0,30 (30%) 4) 0,38 (38%) 5) 0,12 (12%)
Podríamos realizar un gráfico comparando dichas variables
PROBABILIDAD 
¿Cuál es la probabilidad de que al tirar por primera vez una moneda salga cara o cruz? Se puede responde que un 0,5 o 50%. Esto surge del hecho de que sólo hay dos resultados POSIBLES y que “a priori” la posibilidad de que se de uno u otro es la misma (50%). ¿Por qué es esto? Por el hecho de que la probabilidad se define cómo el número de casos favorables sobre el número de casos posibles, en este caso, la posibilidad de que salga cara (caso favorable) es de 1 sobre 2 (casos posibles: o sale cara o sale cruz), o sea, del 50%. A esto se lo conoce como Probabilidad TEÓRICA. Sin embargo, en la práctica médica, como toda ciencia experimental, muchas veces no podemos contar sólo con la probabilidad teórica, sino que las variables son menos estrictas. Por ejemplo: teóricamente podemos decir que la posibilidad de que un matrimonio tenga un hijo varón es de 50 % (puede ser varón o mujer), aunque si comparamos las tasas de natalidad de un estudio X que nos dice que de cada 1000 nacidos vivos, 544 son mujeres y 456 son varones, al calcular la probabilidad decimos que p varones = 456/1000 = 0,456 (45,6%), mientras que p mujeres: 544/1000= 0,544 (54,4%), y a ésta la llamamos Probabilidad EXPERIMENTAL (ya que se basa en estudios “a posteriori”, con datos que se obtienen luego de los resultados y no antes, como en la probabilidad teórica). 
La probabilidad que utilizamos en medicina es la experimental
POBLACIÓN Y MUESTRAS 
Supongamos que queremos conocer cuáles son los valores de la glucemia en ayuno de las personas que residen en la ciudad de Buenos Aires y la distribución de dichos valores según la normalidad establecida (ya llegaremos al concepto de normalidad). Dicho total de residentes representaría a la POBLACIÓN a investigar, lo cual se podría averiguar pero en la práctica sería muy difícil de realizar (no podemos censar los valores de glucemia de toooodos los porteños), por lo que debemos elegir ciertas personas que sean REPRESENTATIVAS de esa población, es decir, que elegimos una MUESTRA de la población a investigar. ¿Qué significa esto? Que todos los componentes de la población han tenido la misma probabilidad de ser elegidos. La mejor forma de elegir dicha muestra es AL AZAR, es decir, que cualquiera puede ser elegido, evitando lo que llamamos SESGO (error de selección, por ejemplo, elegir a todos los habitante de Recoleta y de Nuñez, sin tener en cuenta los demás barrios). 
Otro elemento importante a tener en cuenta de la muestra es el TAMAÑO de la misma, es decir, el número de paciente que incluye. Al aumentar el tamaño de la muestra, aumenta la representatividad
	Glucemia
	Total de Barrios analizados
	Muestra
	Menos de 65 mg/dL
	20
	60
	Entre 65 y 80 mg/dL
	20
	190
	Entre 80-109 mg/dL
	20
	820
	Entre 110 y 125 mg/dL
	20
	150
	Mayor a 126 mg/dL
	20
	100
	TOTAL
	20
	1350
 
ALGUNOS CONCEPTOS ESTADÍSTICOS: 
MEDIA: 
Es el promedio de todos los valores de una variable. Sólo es aplicable a variables cuantitativas. Se trata de la mejor medida de tendencia central, porque todas las variables tienen una sola media, y como medida de centralidad, es la base de muchos otros procedimientos. Tiene un problema fundamental: se ve afectada por los valores extremos de una distribución, pues en el cálculo de esta participan todos los valores de la variable. Bajo ciertas condiciones puede no ser representativa de la tendencia central.
Ejemplo: Tengo 20 pacientes, entre 20 y 40 años, pero la mayoría tiene 25 años, cuando calculamos el promedio, no necesariamente nos da la mitad, sino el promedio de la suma de las edades.
MEDIANA 
Es el valor central de la distribución de la variable. Es el valor que divide los valores de la variable en dos partes de igual frecuencia. Sólo se puede calcular en variables cuantitativas, y supuestamente sería el indicador de tendencia central que sustituiría a la media si ésta no fuera adecuada. Tiene una ventaja: no se ve afectada por los valores extremos, pero, como valor descriptivo, tiene desventajas:
 Puede no ser calculable.
 Puede ser un valor real, pero también hipotético.
No existe una fórmula para calcular la mediana. Hay que buscarla en la variable, para lo que se necesita tener los valores de la variable ordenados
Ejemplo: tengo 20 pacientes de entre 20 y 40 años, la mediana es de 30 años (la mitad justa)
MODA 
Es el valor más frecuente de la variable. Es una medida de tendencia central válida para cualquier tipo de variable. En las cualitativas se denomina “categoría modal”. La ventaja básica es que es fácil de hallar. La desventaja, que puede no ser muy útil. Puede haber más de una moda (1 moda - unimodal; 2 modas - bimodal; más de 2 modas - multimodal).
Ejemplo: si tenemos 20 pacientes entre 20 y 40 años, la moda sería aquella edad que más se repite (puede coincidir con la media o no, x ejemplo, hay 10 personas de 25 años, pero hay 6 con 38, 4 con 20 y 2 con 33, el promedio (la media )será de 29, 5 aunque la moda es de 25 (el que más se repite)
Ejemplo: 
	Edad
	20
	23
	25
	27
	31
	33
	35
	40
	n
	4
	3
	10
	1
	1
	0
	0
	1
Media: 25, Mediana: 30 Moda: 25
DISTRIBUCIÓN NORMAL. DESVIO STANDARD
Si analizamos el gráfico anterior, veremos que la mayor cantidad de personas entran dentro del rango de glucemia entre 80 – 109 mg/dL, es decir, si hacemos un promedio de las personas que fueron analizadas, veremosque el resultado del mismo caería también dentro de los valores 80 y 109. Ese valor promedio de la muestra se conoce como MEDIA (Ẋ) y nos va a determinar la NORMALIDAD de la muestra.
 Es decir, si definimos diabetes como el valor de la glucemia en ayunas mayor a 126 mg/dL, vamos a ver que la mayor parte de la población no entra en dichos valores, así como también al definir a hipoglucemia como valores menores a 65 mg/dL tampoco representan a la mayoría. O sea, que al ver que la mayoría de la población forma parte del grupo de 80-109, podemos decir que esos valores se considerar NORMALES y que a medida que nos alejamos de dichos valores, nos alejamos de lo normal y nos acercamos a lo patológico. Este tipo de distribución, donde hay un rango normal (la media) y hay valores que se alejan de la misma se la conoce como DISTRIBUCIÓN GAUSSIANA (o Campana de Gauss)
 
Qué significa SD?
Es el DESVÍO STANDARD, es decir cómo se distribuyen los valores individuales alrededor del valor medio Ẋ 
El símbolo NEGATIVO nos indica que esa población tiene un valor INFERIOR a la MEDIA mientras que el símbolo POSITIVO indica un valor SUPERIOR a la media.
El nro 1 o 2 nos determina que tan distante está la población de la media.
 La diferencia entre los extremos negativo del SD (SD-) y el positivo SD (SD+) nos da el intervalo en el que se encuentra el porcentaje de los valores individuales. 
Poniéndolo en números sería:
· 1 SD equivale al 68% de la población, es decir, que el 68% se encuentra entre el extremo del SD negativo y el extremo del SD positivo. Con nuestra muestra, podríamos decir que el 68 % de la población presenta glucemias entre 70 y 115
· 2 DS (como valor absoluto 2, es decir, tanto – como +) equivalen al 95 % de la población, es decir, que el 95% de la población estaría incluída entre el extremo del -2 SD y +2 SD, que en nuestra muestra sería entre 65 y 125 mg/dL
· 3DS (que no aparece en el gráfico) equivale al 99% de la población
Como vemos, cuánto mayor es el desvío standard, mayor es el porcentaje de población aceptada como “normal” según la curva de Gauss
El SD más utilizado en medicina es el 2SD (valor absoluto, o sea, tanto negativo como positivo), es decir, el 95% de la población.
Todo lo que quede por fuera de la curva de Gauss será considerado PATOLÓGICO en un 95 % de los casos (o sea, hay un 5 % de la población cuyos valores por fuera de la curva de Gauss serán normales. Ojo que ese 5% se reparte en dos, un 2,5% representa a los sanos que están a la izquierda – valores negativos- y un 2,5% considera a los sanos que están a la derecha – valores positivos- .
Cuál es la fórmula del SD?
El SD es igual a la raíz cuadrada de la sumatoria (∑) de las diferencias entre cada valor individual y el valor medio, elevadas al cuadrado, dividida por el nro de casos (n)
Ejemplo de cálculo de SD
Es decir, que si tomamos 2 SD, el valor sería de 26,12, o sea, que la población normal tendría valores de glucemia hasta 26,12 mg/dL menores o mayores a la media.
Generalmente el SD viene especificado y no hay que calcularlo (excede al contenido de la materia).
PARÁMETRO Z
Nos dice la distancia entre un valor individual y la media medida en desviaciones estándar. También se la conoce como desviación relativa Z
La fórmula para calcularlo es: 
Por ejemplo, tenemos un paciente con glucemia de 100, si lo comparamos con la media (supongamos Ẋ=95) y el SD es de 2,77 , el resultado sería de 1.8 (Z= (100-95)/2.77)
Dicho valor de Z es extrapolado a una TABLA de Distribución de valores Z, la cual nos permite estimar para cada valor de Z el porcentaje de casos comprendidos ENTRE el valor considerado y el valor medio, es decir, qué porcentaje de pacientes hay entre el valor medio y dicho nuevo valor. En este caso el valor es de 0.4641, es decir, el 46,41%.
(Es totalmente fuera del objetivo del apunte que sepan esta tabla, es sólo de carácter ilustrativo)
CONCEPTO DE NORMALIDAD
Ahora que sabemos el concepto de población y de muestra (y con ellos también el de representatividad) podemos inferir de qué hablamos cuando hablamos de normalidad
¿Cómo? A través de la comparación de los resultados en dicha muestra, expresados en valores de MEDIA y SD, con un paciente X que queramos estudiar
Esto significa que cuando analizo los datos de un paciente X, podemos saber si dicho valor se encuentra dentro de los valores declarados como normales a partir del estudio de las muestras representativas
Ejemplo: El Señor X viene con un resultado de laboratorio que informa que su glucemia en ayunas es de 130 mg/dL. A partir de ahí sacamos las siguientes conclusiones:
a- Su glucemia no está dentro de los valores de la media (80-109)
b- Si sabemos que tampoco entra dentro del SD +2 (hasta 125 mg/dL)
c- El 2SD incluye al 95 % de la población, por ende, hay un 5% que no está incluida, en este caso, sería un 2,5 a la derecha (valores mayores a 125), este señor podría tener una glucemia alterada sin llegar a desarrollar diabetes, por lo que deberíamos hacer otras pruebas para confirmarlo. Hay que tener en cuenta que la alteración de dichos valores pueden ser debidas a causas biológicas (el señor puede tener haber comido un caramelo antes de la prueba y eso alteró su glucemia) o a una patología de base que aumente su glucemia (diabetes). 
d- Los SD nos ayudan a delimitar a aquellos pacientes que no requieren mayores estudios a que son parte de la “normalidad” de los que sí los requieren, ya que pueden ser sanos (baja probabilidad) o enfermos (alta probabilidad)
También hay que tener en cuenta que los valores normales VARÍAN según la población a estudiar, ya sea, por su edad, sexo, raza o ubicación geográfica.
Si la probabilidad de encontrar valores normales por encima de cierto nivel es baja, podemos sospechar la existencia de una determinada patología. ¿Cuál es el límite? Cómo dijimos, por lo general se acepta que cuando un valor está por fuera de Ẋ ± 2SD (95%) es sospechoso de anormalidad.
ERROR STANDARD DE LA MEDIA
Cuando tomamos una población como muestra representativa de la población “universal” o total, podemos plantearnos por qué esa cantidad de personas tomada al azar (pongamos por ejemplo 1000 personas) son realmente representativas y no lo son otras 1000 distintas que no fueron incluidas, es decir, ¿en esa misma muestra volveríamos a tener los mismos resultados? La respuesta es claramente no, si podrían ser similares pero no iguales.
Esto implica que cuando tomamos la media (Ẋ) de la población a partir de la media (Ẋ) de la muestra cometemos cierto error y para evitarlo deberíamos tomar varias muestras para tratar de acercarnos a la verdad verdadera.
Es decir podemos tomar, 5 muestras distintas de 1000 personas cada una y calcular la media (Ẋ) de cada una para luego calcular la media de las medias (Ẋm) (algo así como la súper media) la cual va a estar mucho más próxima a la realidad (recordar que cuando más grande es la muestra, más representativa es). Cada media previa (es decir, cada Ẋ de cada muestra en particular (m1, m2, m3, etc) estará dentro de los valores normales (rondando a la media de las medias). 
Además, podríamos calcular el desvío estándar de los valores medios (el SD de la Ẋm), que se conoce como ERROR STANDARD DE LA MEDIA (SEM, en inglés standard error of the mean).
Ponerse a hacer muestras de tanta gente, cálculos las medias de las medias y analizar todos los datos en particular sería caro, poco práctico y bastante engorroso, por lo que hay una forma más “fácil” de calcular el SEM y es a partir de la fórmula:
Se divide el SD por la raíz cuadrada del número de casos estudiados.
INTERVALO DE CONFIANZA
Al intervalo obtenido entre Ẋ + SEM se lo conoce como INTERVALO DE CONFIANZA, y nos dice entre que valores de normalidad se manejan las poblaciones estudiadas.
Al igual que antes Ẋ ± 1 SEM equivale al 68% de la población, el Ẋ ± 2 SEM al 95 % de la población y el Ẋ ± 3 SEM al 99 % de la población
Estos valores se utilizan para GRANDES MUESTRAS, por lo que nos dice que la probabilidad de que alguien queesté por fuera de Ẋ + 2 SEM sea normal es del 5% (o expresado en decimales sería del 0,05)
Este concepto es de gran importancia: todos aquellos estudios que tengan una p < a 0,05 son significativos, es decir, son representativos de la población general y se dice que hay pocas chances de que esa muestra NO haya sido elegida al azar (es decir, la mayoría de las personas fueron elegidas aleatoriamente y no bajo algún criterio específico de asignación que influya en la investigación)
Volviendo a las glucemias, si tenemos una muestra de 4000 pacientes que nos viene de un hospital H de la ciudad de Buenos Aires y nos dice que el 95% de la población tuvo glucemias entre 65 y 126 mg/dL, un 5 % de los pacientes que tengan más de 126 mg/dL o menos de 65 mg/dL serán considerados normales, o en otras palabras, hay un 0,05 de probabilidad de que dicho paciente sea sano.
COMPARACIÓN DE VALORES MEDIOS. ERROR STANDARD DE LA DIFERENCIA
Supongamos que las glucemias obtenidas anteriormente correspondían a una población entre 20 y 40 años. Ahora bien, nos podemos preguntar qué va a pasar si dichas glucemias son censadas en pacientes entre 40 y 60 años. ¿Los valores de normalidad serán los mismos? ¿La población que se incluirá en dichos valores será la misma?
Para responder a esto deberíamos tener en cuenta un par de variables:
La diferencia entre las medias (Ẋ) entre ambas muestras que se llama Ẋdiff y se calcula como
 
También nos interesa saber si los valores medios de dichas muestras pertenecen al mismo “universo estadístico”, es decir, si son representativas entre sí
Para compararlos podemos calcular el ERROR STANDARD DE LA DIFERENCIA (SEM Diff), que se realiza según la ecuación 
El SEM1 es el error standard de la media 1 y el SEM2 el error estándar de la media 2 (que a su vez, representar los SD de las muestras de las muestras, uff!)
Otra fórmula más es la que involucra al INTERVALO en el que fluctúa la diferencia entre los valores medios (, es decir que nos habla de la Probabilidad de que las dos muestras permanezcan al mismo universo estadístico. De vuelta a los números mágicos, si es 1 SEMdiff, hablamos del 68%, si es de 2 SEMdiff del 95 % y si es de 3 SEMdiff del 99%.
Una vuelta de rosca más para saber si realmente cuál es la probabilidad de que dos muestras permanezcan a dicho universo estadístico es el valor Z diff, que se calcula según
Pongámoslo en práctica:
	Pacientes
	
	S.D
	n
	SEM (S.D/√n)
	20-40 años
	94
	8
	1000
	(8/√1000)= 0.25
	40-60 años
	102
	9
	1000
	(9/√1000)= 
0.28
Ẋ Ẋ diff= 102 – 94 Ẋ= 8
SEM diff= √[(SEM1)2 + (SEM2)2] EM diff= √(0.25)2 + (0.28)2 SEM diff= √0.0625 + 0.0784 
 SEM diff= √0.141 SEM diff = 0.375
Z Zdiff= Zdiff= 21.33
Cuando tomamos como Intervalo de confianza a ± 2 SEM, esperamos que resultado de Z diff sea menor de 2, es decir, los desvíos que consideramos normales.
 Cuando esos valores son mayores, la probabilidad de que las dos muestran pertenezcan al mismo universo estadístico es menor al 5 % (ya que el intervalo de confianza elegido es de +2 SEM, o sea, el 95 % de la población incluida). 
Concluimos en que el SEM diff nos habla de la probabilidad de que una muestra sea significativa y por ende, que correspondan a dos poblaciones distintas (universos estadísticos distintos)
Si extrapolamos el resultado de Zdiff que acabamos de obtener a una tabla específica, vamos a ver que el valor de p es aún mucho menor (nadie en su vida les va a tomar esto en medicina).
ESTUDIO CON MUESTRAS PEQUEÑAS: PARÁMETRO t
El parámetro t se calcula de manera similar al parámetro Z, con la única y gran diferencia de que t se usa para MUESTRAS MENORES A 30 CASOS.
Como la muestra es pequeña, la probabilidad ya no depende sólo de la media y del SD sino también del número de casos, es cómo si la campana de Gauss tuviera en los extremos varias colas que se hacen cada vez más altas al disminuir el número de casos
Si bien el concepto de SD es el mismo, la fórmula varía ligeramente:
 
El valor de t también es extrapolado a una tabla de probabilidades.
Mientras que la tabla de probabilidades de Z da el valor de p para valor comprendidos entre el dato y la media, la tabla t nos da los valores de p para valores tan o más alejados que el dado de la media.
VARIABLES
NUMÉRICAS
CONTINUAS
DISCRETAS
NO NUMÉRICAS
Personas	Menos de 1,55m	1,55 - 1,60 m	1,60 - 1,65 m	1,65 - 1,70 m	Más de 1,70 m	5	15	30	38	12	Columna1	Menos de 1,55m	1,55 - 1,60 m	1,60 - 1,65 m	1,65 - 1,70 m	Más de 1,70 m	Columna2	Menos de 1,55m	1,55 - 1,60 m	1,60 - 1,65 m	1,65 - 1,70 m	Más de 1,70 m	Población	Menos de 65	65- 80	80-109	110-125	Mayor a 126	60	90	820	150	100	 Fernando Di Fermo
 Ayudante 2da R2 Fisiología UA II UBA

Continuar navegando