Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
6. Estad́ısitica Bivariada Ahora, supongamos que queremos estudiar el comportamiento de la variable de clasificación bidimensional (X, Y ), asociada a dos variables de clasificación unidimensionales X e Y , respectiva- mente, en una muestra de tamaño n de la población. Entonces dividimos la muestra en r clases Ai, según la variable X, y en s clases Bj, según Y . Llamamos nij al número de elementos de la muestra que pertenecen simultáneamente a la clase Ai y la clase Bj. Podemos luego considerar una clase o modalidad AiBj formada por elementos de la muestra que pertenecen simultáneamente a Ai y a Bj. Se observa que hay r ·s modalidades AiBj. 6.1. Frecuencia Absoluta y Frecuencia Relativa Definiciones de interés: nij: frecuencia absoluta del número de elementos pertenecientes a Ai ∩Bj fij: frecuencia relativa del número de elementos en Ai ∩Bj con respecto al total n, donde fij = nij n , ∀ i = 1, . . . , r; ∀ j = 1, . . . , s 6.2. Tablas de Contingencia Cuadro de doble entrada donde se puede resumir la información acerca de las frecuencias, ya sean absolutas o relativas, como se muestra a continuación: Y B1 B2 . . . Bs X A1 n11 n12 . . . n1s n1+ A2 n21 n22 . . . n2s n2+ ... ... ... ... ... ... Ar nr1 nr2 . . . nrs nr+ n+1 n+2 . . . n+s n 6.3. Distribuciones Marginales ni+: es el número de elementos de la muestra que pertenecen a la clase Ai, sin importar la clase Bj a la que estén asociados (suma de los valores de la fila i-ésima de la tabla de contingencia de frecuencias) ni+ = s∑ j=1 nij, ∀ i = 1, . . . , r n+j: es el número de elementos de la muestra que pertenecen a la clase Bj según Y, sin importar la clase Ai a la que estén asociados (suma de los valores de la columna j-ésima de la tabla de contin-gencia de frecuencias) n+j = r∑ i=1 nij, ∀ j = 1, . . . , s 15 fi+: frecuencia relativa de las clases Ai sin importar las clases Bj. fi+ = ni+ n , ∀ i = 1, . . . , r f+j: frecuencia relativa de las clases Bj sin importar las clases Ai. f+j = n+j n , ∀ j = 1, . . . , s 6.4. Distribuciones Condicionales La distribución condicional consiste en estudiar las frecuencias asociadas a las clases de una variable cuando nos restringimos a los elementos de una clase dada según la otra variable, esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra. Para calcular la proporción de individuos muestrales que según Y caen en B, conociendo que según X ya pertenećıan a A, se debe evaluar: fB/A = nB/A n donde fB/A es la frecuencia relativa condicional del subconjunto B de Y dado que X pertenece al subconjunto A. La distribución de X condicionada a Y se define como fi/j = fi/j f+j = nij n+j ∀ i = 1, . . . , r y r∑ i=1 fi/j = 1 La distribución de Y condicionada a X se define como fj/i = fj/i fi+ = nij ni+ ∀ j = 1, . . . , s y s∑ j=1 fj/i = 1 Ejemplo 6.1 Sea X la edad e Y la categoŕıa correspondiente al puesto de trabajo. Dada la siguiente tabla de contingencia, calcular la distribución condicional de Y, dado que X es 25-30 y 35-45. X\Y I II III ni+ 15-20 20 20 5 45 20-25 15 12 8 35 25-30 10 15 10 35 30-35 5 20 25 50 35-40 5 10 30 45 n+j 55 77 78 210 16 6.5. Independencia Dada una información en una Tabla de Contingencia, se dice que las variables X e Y son independientes, śı y solo śı, la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales. fij = fi+ · f+j ∀i = 1, . . . , r ∀ j = 1, . . . , s Si las variables X e Y no son independientes entre śı, se dice que existe una asociación entre ellas. De modo que el conocimiento de una de las variables presente alguna información respecto de la otra. Nuestro objetivo es medir de alguna forma ésta relación existente y poder además describir de que forma (lineal, exponencial, potencial, etc.) están relacionadas. 6.6. Asociación, Dependencia o Correlación En estad́ıstica Descriptiva se dice que dos variables cuantitativas “están asociadas”, “son depen- dientes”, o “están correlacionadas” si cuando se aumentan los valores de una variable, los valores de la otra tienden a: i) o bien a aumentar (y se dice que la asociación dependencia es directa o que la correlación es positiva) ii) o bien a disminuir (y se dice que la asociación o dependencia es inversa o que la correlación es negativa) Cuando no se presenta esta tendencia se dice que las variables no están asociadas o no son depen- dientes o no están correlacionadas. La asociación, correlación o dependencia en Estad́ıstica Descriptiva, no implica relación causa- efecto. En otras palabras, si cuando una variable aumenta la otra tiende a aumentar (o a disminuir) no es posible afirmar que esta última aumenta (o disminuye) PORQUE la primera variable aumenta. 6.6.1. Indicadores de Asociación: Covarianza La covarianza entre dos variables, X e Y está dada por: cov(X, Y ) = n∑ i=1 (xi − x̄)(yi − ȳ) n o equvalentemente cov(X, Y ) = 1 n n∑ i=1 xiyi − x̄ȳ La covarianza es una medida de asociación lineal, pero tiene la desventaja que su interpretación depende de las unidades de medición. Si cov(X,Y)> 0, la asociación o correlación es directa o positiva. Si cov(X,Y)< 0, la asociación o correlación es inversa o negativa. Si cov(X,Y)≈ 0, no hay asociación o correlación lineal. 17 6.6.2. Indicadores de Asociación: Correlación La correlación lineal entre dos variables se define como corr(X, Y ) = n∑ i=1 (xi − x̄)(yi − ȳ)√√√√ n∑ i=1 (xi − x̄)2 n∑ i=1 (yi − ȳ)2 Si corr(X, Y ) = 1, la correlación es la máxima correlación positiva o directa. Si corr(X, Y ) = −1, la correlación es la máxima correlación negativa o inversa. Si corr(X, Y ) ≈ 0, no existe correlación o dependencia. Una fórmula alternativa para calcular ρX,Y es corr(X, Y ) = sXY sXsY donde sX y sY son las desviaciones estándar de X e Y , respectivamente, y donde sXY es la covarianza entre X e Y . Otra fórmula alternativa es ρ(X, Y ) = ∑ xiyi − (∑ xi )(∑ yi ) /n√∑ x2i − (∑ xi )2 /n √∑ y2i − (∑ yi )2 /n Si bien no existe una regla general para decir si una correlación es alta media o baja, en este curso podemos adoptar el siguiente criterio: 18 Ejemplo 6.2 . 1. Consideremos los siguientes datos, donde X indica la temperatura media diaria en grados Farenheit e Y , el consumo diario correspondiente de gas natural en pies cúbicos. X,F◦ 50 45 40 38 32 40 55 Y,ft3 2.5 5.0 6.2 7.4 8.3 4.7 1.8 Realice un diagrama de dispersión y calcule el coeficiente de correlación ρX,Y , si además cuenta con las siguientes medidas de resumen:∑ xi = 300; ∑ yi = 35,9; ∑ xi 2 = 13218; ∑ y2i = 218,67; ∑ xiyi = 1431,8 2. Considere los siguientes datos donde X, representa el número de sucursales que 10 bancos di- ferentes tienen en un área metropolitana, e Y es la correspondiente cuota del total de depósitos mantenidos por los bancos. X 198 186 116 89 120 109 28 58 34 31 Y 22.7 16.6 15.9 12.5 10.2 6.8 6.8 4.0 2.7 2.8 a) Construya un diagrama de dispersión entre X e Y. b) Calcule covarianza y correlación. 19 6.7. Ajuste de Curvas En el problema de ajuste a curvas se desea que dado un par de variables (X, Y ) encontrar una curva que se ajuste de la mejor manera a los datos. La curva está definida en forma paramétrica, y se deben encontrar los valores de sus parámetros para hacer que alguna medida de error se minimice. 6.7.1. Regresión Lineal Simple Con la regresión lineal simple se pretende ir más allá de ver la asociación entre dos variables. En concreto se quiere: (i) Investigar la naturaleza de la asociación. (ii) Construir un modelo que describa la relación entre ambas variables. (iii) Predecir Supongamos que un diagrama de dispersión de los datos de los puntos (xi, yi) indica una relación lineal entre las variables X eY o, alternativamente, que el coeficiente de correlación es cercano a 1 o -1. Entonces el siguiente paso es encontrar la recta L que en lagúnsentido ajuste los datos. En general, el modelo de regresión linealsimple lo podemos plantear como la recta : yi = a+ bxi, i = 1, . . . , n. (1) donde yi: es la variable respuesta o dependiente para el individuo i; xi: es la variable esplicativa o independiente para el individuo i, i = 1, . . ., n. a: representa el intercepto con el eje Y, y se interpreta como el valor que toma y cuando x=0. b: representa la pendiente de la recta, y se interpreta como la cantidad que aumenta(disminuye) y cuando x aumenta(disminuye) en una unidad. La pendiente y el intercepto pueden calcularse de la siguiente manera: b = rsy sx = cov(X, Y ) s2X y a = ȳ − bx̄ Ejemplo 6.3 Considere los datos de los ejemplo 6.2 y 6.3, y encuentre la recta que se ajusta a los datos. Algunas veces el diagrama de puntos no indica una relación lineal entre las variables X e Y pero se podrá observar alguna otra curva t́ıpica y bien conocida Y = f(X) que puede aproximar los datos; se le llama curva de aproximación. Algunas de esas curvas t́ıpicas son las siguientes analizamos la relación entres X e Y y determinamos que esta no se ajusta auna recta podemos analizar, entre otros, los dos siguientes casos: 20 6.7.2. Ajuste Exponencial Si entre log(y) y x observamos una relación lineal, usaremos la curva exponencial: yi = ae bxi , i = 1, . . . , n. Este ajuste se puede reducir a una regresión lineal de la siguiente forma log(yi) = a ′ + b′xi, i = 1, . . . , n. donde a′ =log(a) b′ =b 6.7.3. Ajuste Polinomial En este caso lo que hacemos es ajustar la relación entre x e y a través de un polinomio de grado p: yi = β0 + β1xi + β2x 2 i + β3x 3 i , . . . , βpx p i i = 1, . . . , n. Al incluir potencias de X logramos mayor flexibilidad en el modelo. Si p=1, estamos en el caso de regresión lineal. Si p=2, la regresión se llama cuadrática. 6.7.4. Otros Ajustes Hipérbola Si entre 1/y y x observamos un relación lineal usaremos la hiperbola: y = 1 a+ bx o 1 y = a+ bx Curva Geométrica Si entre log(y) y log(x) observamos una relación lineal usaremos la curva potencial: y = axb o log(y) = log(a) + b · log(x) 21 Página en blanco
Compartir