Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
morenita <3 1 Bioestadística Se pueden distinguir dos tipos de estadísticas: • Descriptiva: La parte de la estadística que trata solamente de describir y analizar un grupo dado sin hacer inferencia a un grupo mayor. • Inductivo-Deductiva: establece la probabilidad de que las diferencias se deban al azar, es decir si los datos variaron por casualidad o tuvieron relación con el ejercicio. Debemos recordar los conceptos de población y muestra. • Población: son los datos obtenidos del conjunto de individuos o cosas que representan la característica de estudio. • Muestra: como generalmente es imposible estudiar el total de la población, se toma una muestra de la misma constituida por un número limitado de datos. Esencialmente una muestra debe ser REPRESENTATIVA de la población a la que pertenece. Para ello la muestra se debe obtener por AZAR. Los datos obtenidos de la muestra se denominan ESTADÍSTICOS (x ej Término medio μ - Desviación estándar σ). A través de los estadísticos muestrales se estima el valor real de la población que se denomina PARAMETRO, y con ello conocemos a la población objeto de estudio. Variables y datos Las propiedades de un sistema pueden ser constantes y variables. Estas últimas se pueden clasificar en no numéricas y numéricas. Estas últimas a su vez pueden ser divididas en continuas y discretas. Del análisis de la variable obtenemos datos. El dato obtenido de una variable no numérica nos informa de la presencia o ausencia de un determinado atributo, mientras que el dato obtenido de la variable numérica informa acerca de la intensidad con que se presenta la variable analizada. Los datos cuantitativos o numéricos pueden ser discretos o continuos. Los valores discretos son aquellos que pueden ser contados o medidos sólo como valores enteros, sin ningún valor intermedio. Por el contrario, las variables continuas pueden tomar cualquier valor. Se las expresa con un número entero y una fracción. En general las variables continuas se obtienen por mediciones y las variables discretas por recuentos. MEDIDAS DE POSICIÓN, DE TENDENCIA CENTRAL O DE LOCALIZACIÓN Son cifras que resumen una serie de datos individuales y que se ubican en el centro de una distribución de mediciones numéricas. Una distribución es una curva hecha en un eje cartesiano, en donde en el eje X pondremos los valores de una determinada variable continua, y en el eje Y pondremos la frecuencia. DISTRIBUCIÓN NORMAL En una población con distribución normal (o de Gauss o simétrica), la letra griega μ es un parámetro que indica donde está localizado el centro de la curva a lo largo del eje horizontal. En este punto, y en este tipo de distribuciones coinciden los valores del término medio, mediana y moda. DISTRIBUCIÓN NO NORMAL las curvas son asimétricas. Ellas se denominan sesgadas. Pueden ser sesgadas hacia la derecha (el término medio es mayor que la mediana) o hacia la izquierda (el término medio es menor que la mediana). morenita <3 2 MEDIDAS DE POSICIÓN (SON TRES término medio –media-, mediana, moda o modo) Las variables se representan en general con las últimas letras del alfabeto (X, Y, Z). Por otro lado, las contantes se representan con primeras letras del alfabeto (a, b, c). Representamos a la sumatoria de x con el símbolo Σ (Σx). Media, término medio o Promedio (μ o 𝑿𝑿�): sumatoria de los valores de x (Σx) obtenidos divididos por el número de casos (n). La media es el valor más aconsejable para una distribución simétrica (normal). Se utiliza cuando las cifras pueden sumarse. 𝑋𝑋� = Σx 𝑛𝑛 Mediana (Md): valor central de la serie de datos, una vez ordenados los valores en forma creciente de menor a mayor. Cuando el número de casos es par, se toman los dos valores centrales, se divide sus valores por dos, y el valor resultante es la mediana. La mediana divide a los datos en dos partes iguales: 50 % por encima de la mediana y el otro 50 % por debajo de la mediana. Moda o Modo: es el valor que se repite con mayor frecuencia. Weno también coincide con los otros valores si la distribución es normal. Se utiliza sólo en variables cualitativas y en las distribuciones bimodales. No tiene importancia estadística en las variables cuantitativas. MEDIDAS DE DISPERSIÓN Son aquellas que miden la dispersión de los valores individuales alrededor de la media. SON 4: desvío estándar, varianza, rango y coeficiente de variación. Desviación estándar: es una medida de dispersión de los valores individuales alrededor del término medio de la población en estudio (σ). S es el símbolo de la desviación estándar de la muestra (estadístico muestral). Los valores obtenidos empleando los métodos más exactos para medir cualquier variable, varían de un individuo normal a otro debido a la variabilidad biológica. La desviación estándar es una medida de esa variabilidad. Se la calcula con la siguiente fórmula: 𝑆𝑆 = ±√Σ(x−X) 2 𝑛𝑛−1 n número de casos de la muestra. N número total de casos de todas las muestras estudiadas. n – 1 cuando se calcula la desviación estándar de una muestra pequeña (menor de 30 casos). Si el grupo de individuos estudiados es homogéneo, la curva de distribución de frecuencia es simétrica, correspondiendo la frecuencia mayor al término medio. Dentro de una curva ideal de distribución de frecuencias simétrica, acotar el desvío estándar de la población (σ) a la media de la población (μ), es trazar dos verticales, una en menos (-) con respeto a la media, y otra en más (+). La desviación estándar nunca es negativa. El signo negativo significa que el valor está a la izquierda del centro de la curva (término medio), y el signo positivo significa que está a la derecha del término medio. O SEA EL SIGNO SOLO TIENE VALOR GEOMÉTRICO, NO ESTADÍSTICO. Los porcentajes más usados están en la imagen. El término medio ±2 σ determina el intervalo normal desde el punto de vista estadístico, quiere decir que se le suma o resta dos desviaciones estándar, y se genera un intervalo dentro del cual estarán comprendidos los valores del morenita <3 3 95% de los casos (si se ve bien la imagen, las flechitas del 95% comprenden el ±2). ESTOS SON LOS LÍMITES DE NORMALIDAD USADOS EN MEDICINA!! Rango: Es la diferencia entre los valores extremos de los datos ordenados de mayor a menor. Coeficiente de Variación: cuando se quieren comparar dos estadísticos distintos y se desea saber cuál de los dos tiene una distribución más dispersa, se calcula el coeficiente de variación. Este nos indica que porcentaje es la desviación estándar con relación a su término medio. Fórmula: CV = (S / X) . 100 El resultado se expresa en porcentaje. A mayor CV mayor variabilidad de la muestra. CV = coeficiente de variación S = desviación estándar muestral X = término medio muestral Probabilidad (p): relación entre el número de casos favorables y casos posibles. Sirve para calcular la probabilidad sirve para describir el comportamiento de fenómenos aleatorios. Estos se caracterizan por: 1) aunque se repitan las mismas condiciones no se dan siempre los mismos resultados, lo que hace impredecible el resultado de una experiencia aislada, y 2) En una larga serie de observaciones, la frecuencia de un resultado dado se puede comprobar que se puede mantener aproximadamente constante. p = nº de casos favorables / nº de casos posibles A este cociente se le denomina frecuencia relativa. La probabilidad es un número que oscila entre cero y uno. La definición moderna objetiva de probabilidad es: la relación entre nº de casos favorables / nº de experiencias realizadas. Con ella estimamos la probabilidad de que un hecho ocurra en la población de la cual fue extraída la muestra estudiada. CALCULO DE PROBABILIDADES DE VALORES DISTRIBUÍDOS NORMALMENTE. EL PARAMETRO Z. DESVIACIÓN RELATIVA En una curva de distribución normal podemos poner en el eje de las Y la probabilidaden vez de la frecuencia ;)) entonces la curva de distribución normal se transformó en una de probabilidad omg, donde la superficie total de la curva corresponde a p = 1, media curva a p = 0,5. Como es una distribución simétrica, la mitad del área está a la derecha y la otra mitad a la izquierda. Por otra parte, recordemos que la distribución normal o de Gauss es continua, de modo que puede tomar un valor cualquiera (no sólo números enteros). Pero hay numerosas curvas normales diferentes, una para cada valor de μ, de σ y de n. Debido a este inconveniente, se emplea otra curva denominada de distribución normal estándar (z), que tiene una media = 0 y una desviación estándar de 1, como se puede observar en la figura. O sea literal es LO MISMO solo que en vez de tener los signos raros tiene números GRACIAS. ¿Qué significa término medio igual a cero? Si sumamos todo lo de la izquierda y todo lo de la derecha y el resultado es cero entonces es una z. Dicho lindo si sumamos todas las diferencias entre cada valor individual de x y el término medio de la muestra, y el resultado es cero, estamos en presencia de una curva normal estándar (z). PEEEERO cuando la media de una distribución gausiana no es 0 y la desviación no es uno, debe efectuarse una transformación llamada z de modo que se pueda utilizar la tabla normal estándar para el cálculo de probabilidades. La transformación z da una idea de la distancia que existe entre un dato individual de la muestra estudiada (x) y la media de dicha muestra, expresada en unidades de desviación estándar. La transformación z genera una superficie, y en base a esa superficie la tabla nos da directamente una probabilidad. La fórmula que se hace es: morenita <3 4 𝑧𝑧 = (𝑥𝑥− 𝜇𝜇) 𝜎𝜎 x desviación de un dato individual de una variable dada μ media poblacional σ desviación estándar de la población Error estándar del término medio: Si tenes una población donde extraes al azar muestras grandes (o sea más de 30), sacas los términos medios de cada muestra, calculas el término medio de los términos medios, los términos medios de las muestras obtenidas por azar se van a distribuir normalmente alrededor del término medio de la población, sin importar el tipo de distribución de la población (teorema del límite central). Por otra parte, los diversos términos medios de las muestras individuales antes obtenidos van a distribuirse normalmente alrededor de la media de la población. A esa desviación de los valores de los términos medios individuales alrededor de la media de la población se la denomina error estándar del término medio. Cuando estimamos la media de la población a partir de la media de la muestra cometemos forzosamente un error, ya que para conocer el término medio de la población habría que haber estudiado a todos los integrantes de esa población. IC 95%: es un intervalo de confianza (IC) que se determina si sumamos o restamos dos errores estándar al término medio (con más exactitud 1.96). En ése intervalo, se encuentra el término medio real de la población, con 0.95 (95%) de probabilidad. Error estándar de la diferencia de términos medios: sirve para calcular las diferencias entre los términos medios de diferentes pares de muestras extraídas de una misma población. Se calcula con la siguiente fórmula: Si tomamos un par de muestras pertenecientes a la misma población, los valores observados en cada una de ellas no siempre serán iguales. En algunos casos las diferencias entre las medias será positiva, y en otros casos negativa. Se puede decir que las diferencias entre los términos medios de diferentes pares de muestras extraídas de una misma población se distribuyen normalmente alrededor de cero, con una desviación a ambos lados de la media que está dada por el por el error estándar de la diferencia de términos medios. HIPOTESIS NULA (H0) - HIPOTESIS ALTERNATIVA (H1) Hipótesis nula (H0) La hipótesis nula es la afirmación de que dos (o más) parámetros de una población no tienen relación entre sí. La hipótesis nula indica que un parámetro de población (tal como la media, la desviación estándar, etc.) es igual a un valor hipotético. Formulita: H0 = (𝑋𝑋� - 𝑋𝑋�) = 0 LA X CON RAYITA ES EL PROMEDIOOO OK Hipótesis alternativa (H1) Bueno como esto es un quilombo vamo de nuevo 1) Los valores individuales de una muestra se distribuyen normalmente alrededor del término medio. 2) Los términos medios de un grupo de muestras grandes tomados de una misma población, también se distribuyen normalmente alrededor de la media poblacional. 3) Las diferencias de pares de términos medios tomados de una misma población se distribuyen normalmente alrededor de cero. En el primer caso se determina la desviación estándar, en el segundo caso el error estándar y en el tercer caso el error estándar de la diferencia de términos medios. 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑀𝑀𝑀𝑀 𝑋𝑋� = Σ X� 𝑛𝑛 ≅ 𝜇𝜇 𝐸𝐸𝐸𝐸𝑋𝑋� = 𝑠𝑠 √𝑛𝑛 𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑𝑋𝑋� = �(𝐸𝐸𝐸𝐸𝑋𝑋�1)2 + (𝐸𝐸𝐸𝐸𝑋𝑋�2)2 morenita <3 5 Si los resultados de nuestra muestra no respaldan la hipótesis nula, y se afirma que existe alguna relación entre las muestras, estamos ante una hipótesis alternativa H1. La hipótesis alternativa indica que un parámetro de población es más pequeño, más grande o diferente del valor hipotético de la hipótesis nula. La hipótesis alternativa es lo que usted podría pensar que es cierto o espera probar que es cierto. Formulita: H1 = (𝑋𝑋� - 𝑋𝑋�) ≠ 0 Para optar por una de esas dos hipótesis debemos utilizar una prueba estadística específica según los datos obtenidos (para probar la hipótesis planteada) y calcular el valor de p, y en base a este valor sacar las conclusiones del trabajo de investigación. Si el valor de P es ≥ de 0.05, la diferencia de términos medios no es estadísticamente significativa. En este caso la diferencia entre términos medios es atribuida al azar. Si el valor de p < 0.05 decimos que la diferencia es estadísticamente significativa, con una participación de azar menor al 5%. Pero la obtención de un valor de p < 0.05 no nos da siempre una seguridad absoluta en las conclusiones. Puede haber factores de confusión. Entre ellos mencionaremos por ejemplo la subjetividad. Ese factor puede neutralizarse mediante ciegos o doble ciegos. PRUEBA (z) para MUESTRAS GRANDES y (t) para MUESTRAS PEQUEÑAS Para hallar el valor de p cuando se comparan 2 términos medios, si la muestra es de 30 o más casos se utiliza la prueba z, en tanto que para muestras pequeñas, con menos de 30 casos, se utiliza la prueba t. Pero con muestras grandes, es indiferente utilizar la prueba z o t, (las distribuciones son prácticamente iguales). La distribución “t” toma en cuenta el tamaño de la muestra para evaluar la probabilidad de que un valor determinado tenga una desviación por azar. La diferencia estriba en que z corresponde a una distribución normal, y en cambio t corresponde a una distribución levemente inferior a lo normal. La distribución t se diferencia también de la z en las colas de la curva (las colas de t incluyen un área mayor que las z). TEST T (STUDENT) Las condiciones para realizar el test “son: normalidad, homogeneidad de las muestras (desviaciones estándar o varianza semejantes), independencia (grupos independientes). Los pasos son un QUILOMBO, pero en resumen se obtiene la t con la fórmula de al costado. Para poder obtener la media de las muestras, ya sabemos que hay que sumar todos los valores y dividirlo por el número de casos. Y para poder obtener la EEdifX primero hay que obtener el desvío estándar, después el error estándar y por último la EEdifX (ya se explicó). Pasos: LOS PASOS PARA COMPARAR DOS MEDIAS DE GRUPOS PEQUEÑOS SON: 𝑋𝑋�= Σ x/n 𝑋𝑋�1: desvío estándar 𝑋𝑋�2: desvío estándar S1: Error estándar para X1 S2:error estándar para X2 ERROR ESTÁNDAR DE LA DIFERENCIA DE LOS TÈRMINOS MEDIOS Punto crítico tabla t valor de p 𝐸𝐸𝐸𝐸𝑋𝑋� = 𝑠𝑠 √𝑛𝑛 𝑆𝑆 = ±√ Σ(x − X)2 𝑛𝑛 − 1 𝑡𝑡 = 𝑋𝑋�1 − 𝑋𝑋�2 𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑𝑋𝑋� 𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑𝑋𝑋� = �(𝐸𝐸𝐸𝐸𝑋𝑋�1)2 + (𝐸𝐸𝐸𝐸𝑋𝑋�2)2 morenita <3 6 DESPUÉS DE TOOOODO ESTO SE OBTIENE EL PUNTO CRITICO. Luego vamos a la tabla de distribución t para calcular el valor de p. La columna de la izquierda corresponde a n (número de casos). La fila superior de la tabla a los valores de p. el PUNTO CRITICO correspondiente al test estadístico utilizado en la investigación siempre tiene que ser MAYOR que los valores consignados en la columna correspondiente a p = 0.05 de la tabla, para considerar la diferencia de términos medios estadísticamente significativa. Por el contrario, si el valor crítico encontrado en nuestro trabajo es IGUAL o MENOR que el asentado en la columna p = 0,05 de la tabla, decimos que la diferencia no es estadísticamente significativa. Si en nuestra investigación vamos a utilizar muestras grandes (más de 30 casos) los valores obtenidos usando el test “t” concuerdan con los del test z. PRUEBA “t “PARA MUESTRAS DE DATOS APAREADOS CON DISTRIBUCION NORMAL En medicina es muy frecuente observar estadística realizada en base al estudio de los resultados antes de un tratamiento y después del mismo, realizado en un mismo individuo. Con este método, cada paciente es su propio control. En este tipo de estudio (datos apareados o antes-después) se trabaja con la diferencia entre el valor antes del tratamiento y después del tratamiento en cada sujeto en particular. �̅�𝑀= se lo expresa como diferencia media, y es equivalente al término medio para datos independientes. Los pasos a seguir para un estudio de datos apareados son: 1) Cálculo de la diferencia media (fórmula de término medio). Es el término medio de las diferencias entre los valores anteriores y posteriores al tratamiento. 2) Calculo de la desviación estándar. 3) Cálculo del error estándar de la diferencia. Se usa la fórmula del error estándar y no la de EEdif porque las diferencias son apareadas (pertenecen al mismo grupo). 4) Cálculo del valor del punto crítico correspondiente a “t”. después tabla y valor p O sea serían los mismos pasos de antes pero en vez de X se usa d REGRESIÓN Y CORRELACIÓN Este estudio sirve para saber si dos variables que se quieren estudiar están asociadas y que grado de asociación tienen. Lo primero que se realiza es un par de ejes cartesianos (x, y), que representan a las variables en estudio. “x” se denomina variable independiente o explicatoria. “y” es la variable dependiente, que representa el resultado o respuesta a la variación de x. Supongamos que queremos conocer el grado de asociación entre la superficie corporal de un sujeto y la concentración de proteínas plasmáticas. Cada sujeto estudiado está representado por un punto. Cada punto es un paciente con un determinado valor de x e y. Al conjunto de puntos se denomina diagrama de dispersión. Una vez obtenido el diagrama se calcula con un programa estadístico una recta representativa de todos los puntos del diagrama de dispersión, que se denomina recta de regresión. REGRESIÓN Es para ver si dos variables están relacionadas o no. En estadística es el cálculo del valor de (y) conociendo el valor de (x). La recta de regresión se calcula con la ecuación general de la recta: y= α + βx α es el valor de y cuando x vale cero, β representa la pendiente de la recta y a su valor se lo denomina coeficiente de regresión. �̅�𝑀 = Σd� 𝑛𝑛 𝑆𝑆 = ±√ Σ(d − d�)2 𝑛𝑛 − 1 𝐸𝐸𝐸𝐸�̅�𝑀 = 𝑠𝑠 √𝑛𝑛 𝑡𝑡 = �̅�𝑀 𝐸𝐸𝐸𝐸𝑀𝑀𝑀𝑀𝑑𝑑�̅�𝑀 morenita <3 7 Los puntos no caen siempre sobre una misma recta, aunque hay una tendencia lineal. Se puede observar que para un mismo valor de x, existen diferencias entre los valores reales de y, y los valores de y’ correspondientes a la recta calculada. Esta diferencia puede ser: positiva o negativa. CORRELACIÓN Es para ver el grado de asociación entre las variables en estudio. La correlación nos permite hallar una asociación entre las variables, pero no necesariamente una relación causa-efecto. Si cuando la variable x aumenta, la variable y tiende también a aumentar, se dice que la correlación es directa o positiva. Si cuando la variable x aumenta, la variable y disminuye, estamos en presencia de una correlación inversa o negativa. ERRORES DE MEDICIÓN CON EL INSTRUMENTAL MÉDICO De apreciación: este error está dado por la precisión o la sensibilidad del aparato de medición. En general, cuanto más preciso es el método utilizado, menor será el error de apreciación. Accidental: siempre que se realiza una medición, hay una serie de factores que influyen en el valor que se obtiene. Las fluctuaciones al azar se distribuyen en forma normal. Cuál es el valor más probable? se lo obtiene sumando o restando 2 errores estándar al término medio de las mediciones realizadas a cada factor de error en estudio. Dentro de este intervalo se supone que se encuentra el valor real con una probabilidad del 95%. Sistemático: es un error que se repite en cada medición. Al cometer un error de medición se comete un sesgo, y la muestra no es representativa de la población que se desea estudiar. Ese error en la medición hace que la inferencia estadística sea falsa, con la probabilidad de graves consecuencias a corto, mediano o largo plazo. 𝑟𝑟 = 𝛴𝛴(𝑥𝑥 − 𝑋𝑋�)(𝑦𝑦 − 𝑌𝑌�) �𝛴𝛴(𝑥𝑥 − 𝑋𝑋�)2�𝛴𝛴(𝑦𝑦 − 𝑌𝑌�)2
Compartir