Logo Studenta

BIOESTADISTICA

¡Estudia con miles de materiales!

Vista previa del material en texto

morenita <3 
1 
 
Bioestadística 
Se pueden distinguir dos tipos de estadísticas: 
• Descriptiva: La parte de la estadística que trata solamente de describir y analizar un grupo dado sin hacer 
inferencia a un grupo mayor. 
• Inductivo-Deductiva: establece la probabilidad de que las diferencias se deban al azar, es decir si los 
datos variaron por casualidad o tuvieron relación con el ejercicio. 
Debemos recordar los conceptos de población y muestra. 
• Población: son los datos obtenidos del conjunto de individuos o cosas que representan la característica 
de estudio. 
• Muestra: como generalmente es imposible estudiar el total de la población, se toma una muestra de la 
misma constituida por un número limitado de datos. Esencialmente una muestra debe ser 
REPRESENTATIVA de la población a la que pertenece. Para ello la muestra se debe obtener por AZAR. 
Los datos obtenidos de la muestra se denominan ESTADÍSTICOS (x ej Término medio  μ - Desviación 
estándar  σ). A través de los estadísticos muestrales se estima el valor real de la población que se 
denomina PARAMETRO, y con ello conocemos a la población objeto de estudio. 
Variables y datos 
Las propiedades de un sistema pueden ser constantes y variables. Estas últimas se pueden clasificar en no 
numéricas y numéricas. Estas últimas a su vez pueden ser divididas en continuas y discretas. Del análisis de la variable 
obtenemos datos. El dato obtenido de una variable no numérica nos informa de la presencia o ausencia de un 
determinado atributo, mientras que el dato obtenido de la variable numérica informa acerca de la intensidad con que 
se presenta la variable analizada. 
Los datos cuantitativos o numéricos pueden ser discretos o continuos. Los valores discretos son aquellos que 
pueden ser contados o medidos sólo como valores enteros, sin ningún valor intermedio. Por el contrario, las variables 
continuas pueden tomar cualquier valor. Se las expresa con un número entero y una fracción. En general las 
variables continuas se obtienen por mediciones y las variables discretas por recuentos. 
MEDIDAS DE POSICIÓN, DE TENDENCIA CENTRAL O DE LOCALIZACIÓN 
Son cifras que resumen una serie de datos individuales y que se ubican en el centro de una distribución de 
mediciones numéricas. Una distribución es una curva hecha en un eje cartesiano, en donde en el eje X pondremos los 
valores de una determinada variable continua, y en el eje Y pondremos la frecuencia. 
DISTRIBUCIÓN NORMAL En una población con distribución normal (o de Gauss 
o simétrica), la letra griega μ es un parámetro que indica donde está localizado el 
centro de la curva a lo largo del eje horizontal. En este punto, y en este tipo de 
distribuciones coinciden los valores del término medio, mediana y moda. 
DISTRIBUCIÓN NO NORMAL las curvas son 
asimétricas. Ellas se denominan sesgadas. Pueden ser sesgadas hacia la derecha (el término 
medio es mayor que la mediana) o hacia la izquierda (el término medio es menor que la 
mediana). 
morenita <3 
2 
 
 
MEDIDAS DE POSICIÓN 
(SON TRES término medio –media-, mediana, moda o modo) Las variables se representan en general con 
las últimas letras del alfabeto (X, Y, Z). Por otro lado, las contantes se representan con primeras letras del alfabeto (a, 
b, c). Representamos a la sumatoria de x con el símbolo Σ (Σx). 
Media, término medio o Promedio (μ o 𝑿𝑿�): sumatoria de los valores de x (Σx) obtenidos divididos por el 
número de casos (n). La media es el valor más aconsejable para una distribución simétrica (normal). Se utiliza cuando 
las cifras pueden sumarse. 𝑋𝑋� = Σx
𝑛𝑛
 
Mediana (Md): valor central de la serie de datos, una vez ordenados los valores en forma creciente de menor 
a mayor. Cuando el número de casos es par, se toman los dos valores centrales, se divide sus valores por dos, y el 
valor resultante es la mediana. La mediana divide a los datos en dos partes iguales: 50 % por encima de la mediana y 
el otro 50 % por debajo de la mediana. 
Moda o Modo: es el valor que se repite con mayor frecuencia. Weno también coincide con los otros valores si 
la distribución es normal. Se utiliza sólo en variables cualitativas y en las distribuciones bimodales. No tiene importancia 
estadística en las variables cuantitativas. 
 
MEDIDAS DE DISPERSIÓN 
 Son aquellas que miden la dispersión de los valores individuales alrededor de la media. SON 4: desvío 
estándar, varianza, rango y coeficiente de variación. 
Desviación estándar: es una medida de dispersión de los valores individuales alrededor del término medio de 
la población en estudio (σ). S es el símbolo de la desviación estándar de la muestra (estadístico muestral). Los valores 
obtenidos empleando los métodos más exactos para medir cualquier variable, varían de un individuo normal a otro 
debido a la variabilidad biológica. La desviación estándar es una medida de esa variabilidad. Se la calcula con la 
siguiente fórmula: 𝑆𝑆 = ±√Σ(x−X)
2
𝑛𝑛−1
 
n número de casos de la muestra. N número total de casos de todas las muestras estudiadas. n – 1  cuando se 
calcula la desviación estándar de una muestra pequeña (menor de 30 casos). 
Si el grupo de individuos estudiados es homogéneo, la curva de distribución de frecuencia es simétrica, 
correspondiendo la frecuencia mayor al término medio. Dentro de una curva ideal de distribución de frecuencias 
simétrica, acotar el desvío estándar de la población (σ) a la media 
de la población (μ), es trazar dos verticales, una en menos (-) con 
respeto a la media, y otra en más (+). La desviación estándar nunca 
es negativa. El signo negativo significa que el valor está a la 
izquierda del centro de la curva (término medio), y el signo positivo 
significa que está a la derecha del término medio. O SEA EL SIGNO 
SOLO TIENE VALOR GEOMÉTRICO, NO ESTADÍSTICO. Los 
porcentajes más usados están en la imagen. 
El término medio ±2 σ determina el intervalo normal desde el punto de vista estadístico, quiere decir que se le 
suma o resta dos desviaciones estándar, y se genera un intervalo dentro del cual estarán comprendidos los valores del 
morenita <3 
3 
 
95% de los casos (si se ve bien la imagen, las flechitas del 95% comprenden el ±2). ESTOS SON LOS LÍMITES DE 
NORMALIDAD USADOS EN MEDICINA!! 
Rango: Es la diferencia entre los valores extremos de los datos ordenados de mayor a menor. 
Coeficiente de Variación: cuando se quieren comparar dos estadísticos distintos y se desea saber cuál de los 
dos tiene una distribución más dispersa, se calcula el coeficiente de variación. Este nos indica que porcentaje es la 
desviación estándar con relación a su término medio. Fórmula: CV = (S / X) . 100 El resultado se expresa en porcentaje. 
A mayor CV mayor variabilidad de la muestra. 
CV = coeficiente de variación S = desviación estándar muestral X = término medio muestral 
Probabilidad (p): relación entre el número de casos favorables y casos posibles. Sirve para calcular la 
probabilidad sirve para describir el comportamiento de fenómenos aleatorios. Estos se caracterizan por: 1) aunque se 
repitan las mismas condiciones no se dan siempre los mismos resultados, lo que hace impredecible el resultado de 
una experiencia aislada, y 2) En una larga serie de observaciones, la frecuencia de un resultado dado se puede 
comprobar que se puede mantener aproximadamente constante. 
p = nº de casos favorables / nº de casos posibles  A este cociente se le denomina frecuencia relativa. 
La probabilidad es un número que oscila entre cero y uno. La definición moderna objetiva de probabilidad es: 
la relación entre nº de casos favorables / nº de experiencias realizadas. Con ella estimamos la probabilidad de que 
un hecho ocurra en la población de la cual fue extraída la muestra estudiada. 
 
CALCULO DE PROBABILIDADES DE VALORES DISTRIBUÍDOS NORMALMENTE. EL PARAMETRO Z. DESVIACIÓN 
RELATIVA 
En una curva de distribución normal podemos poner en el eje de las Y la probabilidaden vez de la frecuencia 
;)) entonces la curva de distribución normal se transformó en una de probabilidad omg, donde la superficie total de la 
curva corresponde a p = 1, media curva a p = 0,5. Como es una distribución simétrica, la mitad del área está a la 
derecha y la otra mitad a la izquierda. Por otra parte, recordemos que la distribución normal o de Gauss es continua, 
de modo que puede tomar un valor cualquiera (no sólo números enteros). 
Pero hay numerosas curvas normales diferentes, una para cada valor de 
μ, de σ y de n. Debido a este inconveniente, se emplea otra curva denominada 
de distribución normal estándar (z), que tiene una media = 0 y una desviación 
estándar de 1, como se puede observar en la figura. O sea literal es LO MISMO 
solo que en vez de tener los signos raros tiene números GRACIAS. ¿Qué 
significa término medio igual a cero?  Si sumamos todo lo de la izquierda y todo lo de la derecha y el resultado es 
cero entonces es una z. Dicho lindo si sumamos todas las diferencias entre cada valor individual de x y el 
término medio de la muestra, y el resultado es cero, estamos en presencia de una curva normal estándar (z). 
PEEEERO cuando la media de una distribución gausiana no es 0 y la desviación no es uno, debe efectuarse una 
transformación llamada z de modo que se pueda utilizar la tabla normal estándar para el cálculo de probabilidades. 
La transformación z da una idea de la distancia que existe entre un dato individual de la muestra estudiada (x) 
y la media de dicha muestra, expresada en unidades de desviación estándar. La transformación z genera una 
superficie, y en base a esa superficie la tabla nos da directamente una probabilidad. La fórmula que se hace es: 
morenita <3 
4 
 
𝑧𝑧 = (𝑥𝑥− 𝜇𝜇)
𝜎𝜎
 x  desviación de un dato individual de una variable dada μ  media poblacional σ 
desviación estándar de la población 
Error estándar del término medio: Si tenes una población donde extraes al azar 
muestras grandes (o sea más de 30), sacas los términos medios de cada muestra, calculas 
el término medio de los términos medios, los términos medios de las muestras obtenidas 
por azar se van a distribuir normalmente alrededor del término medio de la población, sin importar el tipo de 
distribución de la población (teorema del límite central). 
Por otra parte, los diversos términos medios de las muestras individuales antes obtenidos van 
a distribuirse normalmente alrededor de la media de la población. A esa desviación de los valores de 
los términos medios individuales alrededor de la media de la población se la denomina error estándar 
del término medio. Cuando estimamos la media de la población a partir de la media de la muestra cometemos 
forzosamente un error, ya que para conocer el término medio de la población habría que haber estudiado a todos los 
integrantes de esa población. 
IC 95%: es un intervalo de confianza (IC) que se determina si sumamos o restamos dos errores estándar al 
término medio (con más exactitud 1.96). En ése intervalo, se encuentra el término medio real de la población, con 0.95 
(95%) de probabilidad. 
Error estándar de la diferencia de términos medios: sirve para 
calcular las diferencias entre los términos medios de diferentes pares de 
muestras extraídas de una misma población. Se calcula con la siguiente 
fórmula: Si tomamos un par de muestras pertenecientes a la misma población, los valores observados en cada una de 
ellas no siempre serán iguales. En algunos casos las diferencias entre las medias será positiva, y en otros casos 
negativa. Se puede decir que las diferencias entre los términos medios de diferentes pares de muestras extraídas de 
una misma población se distribuyen normalmente alrededor de cero, con una desviación a ambos lados de la media 
que está dada por el por el error estándar de la diferencia de términos medios. 
HIPOTESIS NULA (H0) - HIPOTESIS ALTERNATIVA (H1) 
Hipótesis nula (H0) 
La hipótesis nula es la afirmación de que dos (o más) parámetros de una población no tienen relación entre 
sí. La hipótesis nula indica que un parámetro de población (tal como la media, la desviación estándar, etc.) es igual a 
un valor hipotético. Formulita: H0 = (𝑋𝑋� - 𝑋𝑋�) = 0 LA X CON RAYITA ES EL PROMEDIOOO OK 
Hipótesis alternativa (H1) 
Bueno como esto es un quilombo vamo de nuevo 
1) Los valores individuales de una muestra se distribuyen normalmente alrededor del término medio. 
2) Los términos medios de un grupo de muestras grandes tomados de una misma población, también se 
distribuyen normalmente alrededor de la media poblacional. 
3) Las diferencias de pares de términos medios tomados de una misma población se distribuyen 
normalmente alrededor de cero. 
En el primer caso se determina la desviación estándar, en el segundo caso el error estándar y en el tercer 
caso el error estándar de la diferencia de términos medios. 
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀 𝑋𝑋� =
Σ X�
𝑛𝑛
≅ 𝜇𝜇 
𝐸𝐸𝐸𝐸𝑋𝑋� =
𝑠𝑠
√𝑛𝑛
 
𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑𝑋𝑋� = �(𝐸𝐸𝐸𝐸𝑋𝑋�1)2 + (𝐸𝐸𝐸𝐸𝑋𝑋�2)2 
morenita <3 
5 
 
Si los resultados de nuestra muestra no respaldan la hipótesis nula, y se afirma que existe alguna relación entre 
las muestras, estamos ante una hipótesis alternativa H1. La hipótesis alternativa indica que un parámetro de población 
es más pequeño, más grande o diferente del valor hipotético de la hipótesis nula. La hipótesis alternativa es lo que 
usted podría pensar que es cierto o espera probar que es cierto. Formulita: H1 = (𝑋𝑋� - 𝑋𝑋�) ≠ 0 
Para optar por una de esas dos hipótesis debemos utilizar una prueba estadística específica según los datos 
obtenidos (para probar la hipótesis planteada) y calcular el valor de p, y en base a este valor sacar las conclusiones 
del trabajo de investigación. Si el valor de P es ≥ de 0.05, la diferencia de términos medios no es estadísticamente 
significativa. En este caso la diferencia entre términos medios es atribuida al azar. Si el valor de p < 0.05 decimos que 
la diferencia es estadísticamente significativa, con una participación de azar menor al 5%. 
Pero la obtención de un valor de p < 0.05 no nos da siempre una seguridad absoluta en las conclusiones. 
Puede haber factores de confusión. Entre ellos mencionaremos por ejemplo la subjetividad. Ese factor puede 
neutralizarse mediante ciegos o doble ciegos. 
PRUEBA (z) para MUESTRAS GRANDES y (t) para MUESTRAS PEQUEÑAS 
Para hallar el valor de p cuando se comparan 2 términos medios, si la muestra es de 30 o más casos se utiliza 
la prueba z, en tanto que para muestras pequeñas, con menos de 30 casos, se utiliza la prueba t. Pero con muestras 
grandes, es indiferente utilizar la prueba z o t, (las distribuciones son prácticamente iguales). La distribución “t” toma 
en cuenta el tamaño de la muestra para evaluar la probabilidad de que un valor determinado tenga una desviación por 
azar. La diferencia estriba en que z corresponde a una distribución normal, y en cambio t corresponde a una distribución 
levemente inferior a lo normal. La distribución t se diferencia también de la z en las colas de la curva (las colas de t 
incluyen un área mayor que las z). 
TEST T (STUDENT) 
Las condiciones para realizar el test “son: normalidad, homogeneidad de las muestras (desviaciones estándar 
o varianza semejantes), independencia (grupos independientes). Los pasos son un QUILOMBO, pero en resumen se 
obtiene la t con la fórmula de al costado. Para poder obtener la media de las muestras, ya sabemos que hay que sumar 
todos los valores y dividirlo por el número de casos. Y para poder obtener la EEdifX primero hay que obtener el desvío 
estándar, después el error estándar y por último la EEdifX (ya se explicó). Pasos: 
LOS PASOS PARA COMPARAR DOS MEDIAS DE GRUPOS PEQUEÑOS SON: 
𝑋𝑋�= Σ x/n 𝑋𝑋�1: desvío estándar 𝑋𝑋�2: desvío estándar 
 S1: Error estándar para X1 S2:error estándar para X2 
 
 
 ERROR ESTÁNDAR DE LA DIFERENCIA DE LOS TÈRMINOS MEDIOS 
 
 Punto crítico tabla t valor de p 
 
𝐸𝐸𝐸𝐸𝑋𝑋� =
𝑠𝑠
√𝑛𝑛
 
 
𝑆𝑆 = ±√
Σ(x − X)2
𝑛𝑛 − 1
 
𝑡𝑡 =
𝑋𝑋�1 − 𝑋𝑋�2
𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑𝑋𝑋�
 
𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑𝑋𝑋� = �(𝐸𝐸𝐸𝐸𝑋𝑋�1)2 + (𝐸𝐸𝐸𝐸𝑋𝑋�2)2 
 
morenita <3 
6 
 
DESPUÉS DE TOOOODO ESTO SE OBTIENE EL PUNTO CRITICO. Luego vamos a la tabla de distribución 
t para calcular el valor de p. 
La columna de la izquierda corresponde a n (número de casos). La fila superior de la tabla a los valores de p. 
el PUNTO CRITICO correspondiente al test estadístico utilizado en la investigación siempre tiene que ser MAYOR que 
los valores consignados en la columna correspondiente a p = 0.05 de la tabla, para considerar la diferencia de términos 
medios estadísticamente significativa. Por el contrario, si el valor crítico encontrado en nuestro trabajo es IGUAL o 
MENOR que el asentado en la columna p = 0,05 de la tabla, decimos que la diferencia no es estadísticamente 
significativa. Si en nuestra investigación vamos a utilizar muestras grandes (más de 30 casos) los valores obtenidos 
usando el test “t” concuerdan con los del test z. 
PRUEBA “t “PARA MUESTRAS DE DATOS APAREADOS CON DISTRIBUCION NORMAL 
En medicina es muy frecuente observar estadística realizada en base al estudio de los resultados antes de un 
tratamiento y después del mismo, realizado en un mismo individuo. Con este método, cada paciente es su propio 
control. En este tipo de estudio (datos apareados o antes-después) se trabaja con la diferencia entre el valor antes del 
tratamiento y después del tratamiento en cada sujeto en particular. 
�̅�𝑀= se lo expresa como diferencia media, y es equivalente al término medio para datos independientes. 
Los pasos a seguir para un estudio de datos apareados son: 
1) Cálculo de la diferencia media (fórmula de término medio). Es el término medio de las 
diferencias entre los valores anteriores y posteriores al tratamiento. 
2) Calculo de la desviación estándar. 
3) Cálculo del error estándar de la diferencia. Se usa la fórmula del error estándar y no la de 
EEdif porque las diferencias son apareadas (pertenecen al mismo grupo). 
4) Cálculo del valor del punto crítico correspondiente a “t”. después tabla y valor p 
O sea serían los mismos pasos de antes pero en vez de X se usa d 
REGRESIÓN Y CORRELACIÓN 
Este estudio sirve para saber si dos variables que se quieren estudiar están asociadas y que grado de 
asociación tienen. Lo primero que se realiza es un par de ejes cartesianos (x, y), que representan a las variables en 
estudio. “x” se denomina variable independiente o explicatoria. “y” es la variable dependiente, que representa el 
resultado o respuesta a la variación de x. 
Supongamos que queremos conocer el grado de asociación entre la superficie 
corporal de un sujeto y la concentración de proteínas plasmáticas. Cada sujeto estudiado 
está representado por un punto. Cada punto es un paciente con un determinado valor de 
x e y. Al conjunto de puntos se denomina diagrama de dispersión. Una vez obtenido 
el diagrama se calcula con un programa estadístico una recta representativa de todos los 
puntos del diagrama de dispersión, que se denomina recta de regresión. 
REGRESIÓN 
Es para ver si dos variables están relacionadas o no. En estadística es el cálculo del valor de (y) conociendo el 
valor de (x). La recta de regresión se calcula con la ecuación general de la recta: y= α + βx  α es el valor de y cuando 
x vale cero, β representa la pendiente de la recta y a su valor se lo denomina coeficiente de regresión. 
�̅�𝑀 =
Σd�
𝑛𝑛
 
𝑆𝑆 = ±√
Σ(d − d�)2
𝑛𝑛 − 1
 
 
𝐸𝐸𝐸𝐸�̅�𝑀 =
𝑠𝑠
√𝑛𝑛
 
 
𝑡𝑡 =
�̅�𝑀
𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑�̅�𝑀
 
 
morenita <3 
7 
 
Los puntos no caen siempre sobre una misma recta, aunque hay una tendencia lineal. Se puede observar que 
para un mismo valor de x, existen diferencias entre los valores reales de y, y los valores de y’ correspondientes a la 
recta calculada. Esta diferencia puede ser: positiva o negativa. 
CORRELACIÓN 
Es para ver el grado de asociación entre las variables en estudio. La 
correlación nos permite hallar una asociación entre las variables, pero no 
necesariamente una relación causa-efecto. Si cuando la variable x aumenta, la 
variable y tiende también a aumentar, se dice que la correlación es directa o positiva. Si cuando la variable x aumenta, 
la variable y disminuye, estamos en presencia de una correlación inversa o negativa. 
ERRORES DE MEDICIÓN CON EL INSTRUMENTAL MÉDICO 
De apreciación: este error está dado por la precisión o la sensibilidad del aparato de medición. En general, 
cuanto más preciso es el método utilizado, menor será el error de apreciación. 
Accidental: siempre que se realiza una medición, hay una serie de factores que influyen en el valor que se 
obtiene. Las fluctuaciones al azar se distribuyen en forma normal. Cuál es el valor más probable? se lo obtiene sumando 
o restando 2 errores estándar al término medio de las mediciones realizadas a cada factor de error en estudio. Dentro 
de este intervalo se supone que se encuentra el valor real con una probabilidad del 95%. 
Sistemático: es un error que se repite en cada medición. Al cometer un error de medición se comete un sesgo, 
y la muestra no es representativa de la población que se desea estudiar. Ese error en la medición hace que la inferencia 
estadística sea falsa, con la probabilidad de graves consecuencias a corto, mediano o largo plazo. 
 
 
 
 
𝑟𝑟 =
𝛴𝛴(𝑥𝑥 − 𝑋𝑋�)(𝑦𝑦 − 𝑌𝑌�)
�𝛴𝛴(𝑥𝑥 − 𝑋𝑋�)2�𝛴𝛴(𝑦𝑦 − 𝑌𝑌�)2

Continuar navegando