Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. CONTRASTES DE HIPÓTESIS I.- Conceptos Básicos: HIPÓTESIS: De acuerdo al diccionario el concepto de hipótesis es “ Suposición imaginada, sin pruebas o con pruebas insuficientes, para deducir de ella ciertas conclusiones que están de acuerdo con los hechos reales, mientras que una HIPÓTESIS DE TRABAJO, es la que se formula, no con el fin de elaborar una teoría, sino para servir de guía en una investigación científica”.(1) La definición anterior, permite establecer que una hipótesis es una posible explicación respecto de un determinado fenómeno. HIPÓTESIS ESTADÍSTICA: Es una posible explicación respecto del efecto que tiene sobre una población un factor o tratamiento específico, efecto que se refleja en el comportamiento probabilístico de ésta. Considerando que el comportamiento probabilístico de una población es descrito a través de una ley de probabilidades y que las leyes de probabilidades se identifican por los parámetros, se tiene que las hipótesis estadísticas se reducen a asignaciones numéricas o relaciones entre parámetros poblacionales. Obs.: En este contexto se llama factor o tratamiento a cualquier fenómeno que pueda ser la causa atribuible a los cambios experimentados por la población. CONTRASTE DE HIPÓTESIS: Es la confrontación entre dos afirmaciones que tratan de explicar a la población de manera contrapuesta. La realización de un contraste requiere de los elementos de prueba que permitan establecer cual de las explicaciones ( hipótesis) es la que mejor se ajusta a la realidad, estos elementos de prueba se constituyen con la información que proporciona una muestra aleatoria de la población objetivo. Las hipótesis que participan en un contraste se denominan genéricamente Hipótesis Nula e Hipótesis alternativa. HIPÓTESIS NULA (H0): Es la explicación formulada en base que el tratamiento no tiene efectos significativos sobre la población, por lo que se plantea basándose en los antecedentes conocidos ésta, de ahí que la hipótesis nula tiene la connotación de “NO CAMBIO”. El rol de H0 en el contraste es permitir la identificación de la distribución de probabilidades sobre la cual se evaluará la información muestral. HIPÓTESIS ALTERNATIVA (H1): Es la afirmación que conlleva el cambio, es decir, la que establece el efecto del tratamiento sobre la población. En general, puede asociarse con la idea de hipótesis de trabajo. Su rol en el contraste es identificarlo y orientar la construcción de la regla de decisión. ESTADÍSTICA DE PRUEBA (T): Es la medida que resume la información proporcionada por la muestra aleatoria, con base a la cual se tomará la decisión. Ésta medida está dada por la mejor estimación del parámetro considerado para explicar a la población. ( )n21 X,...,X,XgˆT =θ= Para efectos operativos, la estadística de prueba puede ser trabajada directamente sobre la base de su distribución de muestreo construida bajo H0, o bien estandarizada de acuerdo a esta misma distribución. (1) Microsoft Bookshelf en Español – Diccionario de la Lengua Española UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. REGIÓN CRÍTICA (R.C. o R.R.): Conjunto de valores del parámetro que favorecen lo establecido por la hipótesis alternativa, es decir, conjunto de valores posibles para la estadística de prueba que conducen a la decisión de rechazar H0. Dado el carácter de número real que tienen los parámetros poblacionales, la región crítica o región de rechazo tiene la forma de un intervalo real, cuyo(s) punto(s) frontera(s), se denomina(n) PUNTO(S) CRÍTICO(S). NIVEL DE SIGNIFICACIÓN (α) : Es la probabilidad asociada al hecho de que la estadística de prueba se encuentre en la región crítica, probabilidad que se obtiene de acuerdo a la distribución de muestreo construida bajo H0. Considerando la naturaleza de esta probabilidad “evaluar la posible pertenencia de la estadística a la R.C.”, o sea evaluar la opción de rechazar H0, que se realiza de acuerdo a lo que establece esta misma hipótesis, se puede asociar al nivel de significación como una medida del riesgo dado por tomar una decisión equivocada, cual es, “Rechazar H0 teniendo como base que H0 es cierta”. α = P(Τ ∈ R.C. / H0 ) Dado el carácter de medida de riesgo que tiene el nivel de significación, ésta puede ser fijado a priori por el administrador (presupuesto), de acuerdo a los aspectos particulares en los que se circunscribe la situación que le interesa conocer. p-VALUE (p ∨ α*): Es el mínimo valor asociado al nivel de significación., es decir, la menor probabilidad para el rechazo de H0 , cuando H0 es cierta. Esta probabilidad depende exclusivamente del contraste y de la información proporcionada por la muestra de trabajo (estadística de prueba), por lo que puede asociarse a la idea de costo que debe asumirse por la equivocación. α* = mín{α /α =P(Τ∈R.C./H0)} El p-value o simplemente probabilidad para la mayoría de los software especializados, se utiliza de acuerdo al siguiente criterio: Si α* < 0,01 ⇒ Se rechaza H0 Si α* > 0,1 ⇒ No se rechaza H0 Si 0,01 ≤ α* ≤ 0,1 ⇒ Se rechaza H0 ⇔ α ≥ α* Una esquematización de los conceptos anteriores: NO RECHAZAR H0 Θ0 Θ1 RECHAZAR H0 α Conjunto de valores de la estadística que favorecen lo establecido por H0 Conjunto de valores de la estadística que favorecen lo establecido por H1 R.C ( )n21 X,...,X,XgˆT =θ= Estadística de prueba proporcionada por {X1, X2, . . . Xn} H0 V/S H1 UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. Ejemplo: El gerente de personal de una empresa piensa que la productividad de sus trabajadores no es adecuada a los requerimientos del mercado ni a la tecnología en uso, por lo que considera la alternativa de diseñar un plan de capacitación y estímulo económico para los trabajadores. Resulta evidente que los costos asociados a este plan deben ser cubiertos por los ingresos que produzca la aplicación de la misma política, por lo que su aplicación exige una certeza respecto de la efectividad del plan. Según los registros de producción, la producción semanal media por trabajador se encuentra en torno a las 250 unidades, con una desviación estándar de 32 unidades. a) De acuerdo a la situación descrita ¿Cuál es el contraste de interés y la estadística de prueba? b) El gerente implementará el plan diseñado en la empresa, sólo si puede comprobar que éste es eficiente, para lo cual decide aplicarlo de manera experimental en un grupo de 20 trabajadores. ¿Cuál debe ser el rendimiento mínimo que muestren los trabajadores para convencerlo de aplicar el plan a todos los trabajadores, si el riesgo de implementarlo cuando no es eficiente, no puede ocurrir con una probabilidad mayor al 1%? Según la situación descrita, la decisión de implementar el plan diseñado, depende fundamentalmente del rendimiento de los trabajadores, por lo tanto las opciones son dejar la situación tal como está o bien implementarlo, así: H0 : El plan diseñado por el gerente no produce cambios relevantes en la productividad de los trabajadores. H1 : El plan diseñado por el gerente produce cambiosrelevantes en la productividad de los trabajadores. Luego, si X = Nº de unidades producidas semanalmente por trabajador, es lógico pensar que si el plan diseñado es efectivo, el rendimiento tiene que incrementarse y por lo tanto debe incrementarse la producción media por trabajador, lo que conduce a que el contraste pueda formularse de la siguiente manera: H0 : µ = 250 H1 : µ > 250 Dado que el parámetro considerado en el contraste el rendimiento semanal medio de los trabajadores, entonces la estadística de prueba es el rendimiento promedio en una muestra de trabajadores. Dada las características del experimento y las condiciones fijadas por el gerente, la implementación del plan se realizará sólo si la producción observada en los trabajadores que participen en el plan piloto es significativamente superior a la registrada con anterioridad y teniendo en cuenta que la probabilidad de equivocarse en su decisión es del 1%, esto nos indica que la región crítica se ubica a la derecha de la distribución, consignando un área de probabilidad igual al 1% es esa zona. Graficando la situación en la distribución normal estándar, se tiene que la región crítica comienza a partir de 2,33 (2,33 = punto crítico). UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFE Además, si se tiene presente que en este caso la variable aleatoria Z está dada por la estandarización del promedio, es decir: 0,01 0 2,33 n XZ σ µ− = y teniendo en cuenta que su valor numérico es 2,33; entonces al igualar y despejar al promedio, se obtiene: n 33,2X σ⋅+µ= expresión que al reemplazar los datos: 672,266 20 3233,2250X =⋅+= Es decir, el plan diseñado por el gerente será aplicado a todos los trabajadores, sólo si los resultados obtenidos de la aplicación en carácter de experimental sobre los 20 trabajadores que formarán parte de la prueba, arroja una producción semanal promedio por trabajador de a lo menos 266,672 unidades. Este es el valor mínimo para calificar al plan como eficiente. Gráficamente: Lo que nos permite establecer formalmente que la región crítica e 0,01 0 { 672,266X.C.R ≥= Si la estadística es utilizada directamente, o bien { 33,2Z.C.R ≥= Si la estadística es estandarizada, según la distribución de acuerdo a lo establecido por H0 266,672 25 SOR HUGO GONZÁLEZ A. stá dada por: muestreo caracterizada de UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. II.- Clasificación De Contrastes Los contrastes se clasifican de acuerdo a lo establecido por la hipótesis alternativa, de acuerdo a ésta, un contraste puede ser: EXACTO: Este tipo de contraste se presenta toda vez que la hipótesis alternativa cuantifica la magnitud del cambio. Por ejemplo: En la situación descrita anteriormente, el gerente considerará efectivo el plan diseñado, si logra incrementar la producción en un promedio de 25 unidades semanales por trabajador. En este caso el contraste a considerar es: H0 : µ = 250 H1 : µ = 275 INEXACTO: Contraste que se presenta cuando la hipótesis alternativa establece la ocurrencia de un cambio, sin especificar la magnitud de éste. Por ejemplo: El contraste formulado en la situación descrita originalmente, donde la política se implementará sólo si esta produce un incremento significativo, no especificando la magnitud del cambio: H0 : µ = 250 H1 : µ > 250 Los contraste no exactos, admiten además una subclasificación de acuerdo al tipo de cambio establecido, distinguiéndose los contraste Unilaterales y Bilaterales. CONTRASTE UNILATERAL: “El cambio” indicado por la hipótesis alternativa se produce en un sólo sentido, ya sea por incremento en el parámetro – CONTRASTE UNILATERAL DERECHO - o por decrecimiento de éste – CONTRASTE UNILATERAL IZQUIERDO. En la práctica muchos lo conocen como prueba de “una cola” CONTRASTE BILATERAL : “El cambio” indicado por la hipótesis alternativa se puede producir en cualquier sentido, ya sea por incremento o decrecimiento en el parámetro. En la práctica se les denomina prueba de “dos colas”. Así los diferentes contraste que pueden formularse respecto del parámetro θ son: CONTRASTE UNILATERAL DERECHO H0 : θ = k v/s H1 : θ > k CONTRASTE UNILATERAL IZQUIERDO H0 : θ = k v/s H1 : θ < k CONTRASTE BILATERAL H0 : θ = k v/s H1 : θ ≠ k CONTRASTE EXACTO H0 : θ = k v/s H1 : θ = r III.- Construcción de la regla de decisión (R.C.) Si T = g(X1 , X2 , X3 , . . . Xn) es la estadística de prueba en base a la cual se tomará la decisión y α es el nivel de significación establecido, entonces la regla de decisión se construye de acuerdo al tipo de contraste. Así la correspondiente región crítica de tamaño α (regla de decisión), según el tipo de contraste, se define de la siguiente manera. UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. CONTRASTE REGIÓN CRÍTICA Unilateral Derecho H0 : θ = k v/s H1 : θ > k Si H1 es cierta y teniendo presente que T es un buen estimador puntual de θ, entonces es lógico esperar que el valor de T sea grande respecto del consignado por H0, por lo que éste debería ubicarse en el extremo derecho de la distribución de muestreo de T. R.C. = { T ≥ C donde P(T ≥ C) = α Representación CONTRASTE REGIÓN CRÍTICA Unilateral Izquierdo H0 : θ = k v/s H1 : θ < k De manera análoga, si H1 es cierta, entonces es lógico esperar que el valor de T sea pequeño respecto de lo establecido en H0, por lo que éste debería ubicarse en el extremo derecho de la distribución de muestreo de T. R.C. = { T ≤ C donde P(T ≤ C) = α Representación CONTRASTE REGIÓN CRÍTICA Bilateral H0 : θ = k v/s H1 : θ ≠ k De manera análoga, si H1 es cierta, entonces es lógico esperar que el valor de T sea muy pequeño respecto de lo establecido en H0, o bien muy grande, por lo que éste debería ubicarse en alguno de los extremos de la distribución de muestreo de T. ⎪ ⎩ ⎪ ⎨ ⎧ ≥ ∨ ≤ 2 1 CT CT .C.R donde P(T ≤ C1) = P(T ≥ C2) = α/2 Representación: R.C. α C R.C. α C R.C. α/2 R.C. α/2 C2 C1 UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. CONTRASTE REGIÓN CRÍTICA EXACTO: H0 : θ = k v/s H1 : θ = r En un contraste exacto, la región de rechazo para H0 depende de la posición de “r” respecto de “k”, procediendo de acuerdo a un contraste unilateral derecho si r > k o izquierdo si r < k. R.C. = { T ≥ C si r > k O bien R.C. = { T ≤ C si r < k IV.- Contrastes más frecuentes: C O N T R A S T E S D E H I P O T É S I S PARÁMETRO HIPÓTESIS NULA ESTADÍSTICA DE PRUEBA ESTANDARIZACIÓN (Bajo H0) MEDIA H0 : µ = k X X n i i n = ∑ =1 ZOBS = X k n − σ ~ N(0,1) TOBS = X k S n − ~ t(n-1) PROPORCIÓN H0 : p = k p X n ^ = ZOBS = p k k k n ∧ − −*( )1 ~ N(0,1) VARIANZA H0 : σ2 = k ( ) S X X n i in 2 2 1 1 = −∑ − = ( ) χOBS n S k 2 21 = − * ~ χ2 (n-1) DIFERENCIA DE MEDIAS (m.a. indep) H0 : µ1 = µ2 + k ⇕ H0 : µ1 - µ2 = k X X1 2− ZOBS = ( )X X k n n 1 2 1 2 1 2 2 2 − − + σ σ ~ N(0,1) TOBS = ( ) * X X k S n nc 1 2 1 2 1 1 − − + ~ t(n1+n2-2) TOBS= ( )X X k S n S n 1 2 1 2 1 2 2 2 − − + ~ t(ν) DIFERENCIA DE MEDIAS (m.a. pareada) H0 : µ1 = µ2 +k ⇕ H0 : µ1 - µ2 = k ⇕ H0 : µD = k n d d n 1i i∑ == di = xi - yi TOBS = d k S n D − ~ t(n-1) UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. DIFERENCIA DE PROPORCIO- NES H0 : p1 = p2 + k ⇕ H0 : p1 - p2 = k (**) p p ∧ ∧ −1 2 ZOBS = p p k p q n p q n ∧ ∧ ∧ ∧ ∧ ∧ − ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ − • + • 1 2 1 1 1 2 2 2 ~ (0,1) RAZÓN DE VARIANZAS H0 : σ σ 1 2 2 2= ⇕ H0: σ σ 1 2 2 2 = k S S 1 2 2 2 FOBS = S S k 1 2 2 2 1* ~ f (n1 –1,n2 –1) (**) Si k = 0 , entonces H0: p1 = p2 , la estadística de prueba es : p p p q n nc c ∧ ∧ ∧ ∧ −⎛⎝⎜ ⎞ ⎠⎟ + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 1 2 1 2 1 1* Z = ~ N(0,1) con p X X n n n p n p n nc ∧ ∧ ∧ = + + = + + 1 2 1 2 1 1 2 2 1 2 ( ) ( ) Además: ν = + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ + + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ + − S n S n S n n S n n 1 2 1 2 2 2 2 1 2 1 2 1 2 2 2 2 21 1 2S n S n S n nc 2 1 1 2 2 2 2 1 2 1 1 2 = − + − + − * * y Las regiones críticas en cada caso, se construyen de acuerdo al criterio de decisión construidos en III, teniendo en cuenta la distribución muestral asociada a la estadística de prueba, así por ejemplo: a) Prueba de hipótesis para la media poblacional con varianza conocida: Contraste Formulación R.C. Estadística Estandarizada R.C. Estadística sin estandarizar U. Derecho H0: θ = k v/s H1: θ > k ZOBS ≥ z 1-α nkX -1 σ +≥ αz U. Izquierdo H0: θ = k v/s H1: θ < k ZOBS ≤ -z 1-α nkX -1 σ −≤ αz Bilateral H0: θ = k v/s H1: θ ≠ k ZOBS ≤ -z 1-α/2 ∨ ZOBS ≥ z 1-α/2 n kX 2/-1 σ −≤ αz ∨ n kX 2/-1 σ +≥ αz UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. b) De manera análoga para una prueba de hipótesis para la varianza poblacional, se tiene: Contraste Formulación R.C. Estadística Estandarizada R.C. Estadística sin estandarizar U. Derecho H0: σ2 = k v/s H1: σ2 > k 2 )1n(;1 2 OBS −α−χ≥χ 1n S 22 )1n(;12 − σ⋅χ ≥ −α− U. Izquierdo H0: σ2 = k v/s H1: σ2 < k 2 )1n(; 2 OBS −αχ≤χ 1n S 22 )1n(;2 − σ⋅χ ≤ −α Bilateral H0: σ2 = k v/s H1: σ2 ≠ k 2 )1n(;2/ 2 OBS −αχ≤χ ∨ 2 )1n(;2/1 2 OBS −α−χ≥χ 1n S 22 )1n(;2/2 − σ⋅χ ≤ −α ∨ 1n S 22 )1n(;2/12 − σ⋅χ ≥ −α− c) Y para la comparación de varianzas: Contraste Formulación R.C. Estadística Estandarizada R.C. Estadística sin estandarizar U. Derecho kk:H 2 2 2 12 2 2 10 =σ σ ⇔σ=σ v/s kk:H 2 2 2 12 2 2 11 >σ σ ⇔σ>σ ( )1n,1n;12 2 2 1 21 f k 1 S S −−α−≥⋅ ( )1n,1n;12 2 2 1 21 fk S S −−α−⋅≥ U. Izquierdo kk:H 2 2 2 12 2 2 10 =σ σ ⇔σ=σ v/s kk:H 2 2 2 12 2 2 11 <σ σ ⇔σ<σ ( )1n,1n;2 2 2 1 21 f k 1 S S −−α≤⋅ ( )1n,1n;2 2 2 1 21 fk S S −−α⋅≤ Bilateral kk:H 2 2 2 12 2 2 10 =σ σ ⇔σ=σ v/s kk:H 2 2 2 12 2 2 11 ≠σ σ ⇔σ≠σ ( )1n,1n;2/2 2 2 1 21 f k 1 S S −−α≤⋅ ∨ ( )1n,1n;2/12 2 2 1 21 f k 1 S S −−α−≥⋅ ( )1n,1n;2/2 2 2 1 21 fk S S −−α⋅≤ ∨ ( )1n,1n;2/12 2 2 1 21 fk S S −−α−⋅≥ Ejercicio: Establezca la región crítica para los contrastes referidos a diferencias de medias y diferencias de proporciones. V.- El Concepto de Significancia: En un contraste, la decisión depende exclusivamente de la información muestral, la que puede conducir a rechazar o no la hipótesis nula. El rechazo de la Hipótesis nula se produce cuando la diferencia entre lo que esta establece y la estadística de prueba obtenida a partir de la muestra de trabajo es SIGNIFICATIVA. Que esta diferencia sea significativa, quiere decir que ésta no es atribuible a la casualidad, es decir, no es a consecuencia de los efectos de los factores aleatorios. Si se tiene presente que los factores aleatorios son la causa de la variabilidad; también se puede afirmar que la diferencia es significativa cuando ésta se encuentra fuera de los márgenes permitidos por la variabilidad. UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. Lo anterior, permite establecer que la significancia de una diferencia, dice relación con el nivel de variabilidad de la población, o sea, diferencias pequeñas son significativas sólo si la varianza es pequeña. Por ejemplo, Si consideramos el contraste en el que H0 : µ = 80 y de la muestra aleatoria, se obtiene un promedio de 90, la significancia de esta diferencia entre 80 y 90, depende exclusivamente de σ2, así gráficamente: Se puede observar que de acuerdo a la curva B, la diferencia no es significativa, mientras que en la curva D, la diferencia sí lo es. Lo anterior, se puede conceptuar también como sigue. Una diferencia significativa, es muy poco probable de obtener, por lo que se infiere que si esta se ha obtenido, es por que ha habido un cambio notorio en la población. Obs: Nótese en la figura, que mientras más significativa es la diferencia, menor es el área (probabilidad) que queda en “la cola”. VII.- La decisión y sus consecuencias: a) Tipos de Errores: Como ya se estableció en el punto anterior, la decisión de rechazar o no H0, depende exclusivamente de la información proporcionada por la muestra de trabajo, la que no considera absolutamente en nada el verdadero estado de H0 , de ahí que la decisión final puede ser correcta a incorrecta. Lo anterior, se visualiza en la siguiente tabla: ESTADO DE H0 DECISIÓN H0 es Verdadera H0 es Falsa Rechazar H0 Decisión Errónea Decisión Correcta No rechazar H0 Decisión Correcta Decisión Errónea Las decisiones erróneas se presentan toda vez que se rechaza H0 siendo esta verdadera, lo que constituye un ERROR DE TIPO I o bien cuando no se rechaza H0 siendo ésta falsa, lo que constituye un ERROR DE TIPO II. Un buen contraste se caracteriza por que la ocurrencia de los errores tengan una muy baja frecuencia, es decir, sus probabilidades de ocurrencia sean pequeñas. Si se tiene presente que los errores se producen por rechazar o no H0 y que el rechazo se produce cuando la estadística de prueba (T), se encuentra en la Región Crítica, tales probabilidades están dadas por: UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. α = P(Error Tipo I) = P(Rechazar H0 / H0 es verdadero) = P(T ∈ R.C./ H0 es verdadero) β = P(Error Tipo II) = P(No rechazar H0 / H0 es falso) = P(T ∉ R.C./ H0 es falso) Probabilidades que tienen el carácter de probabilidades condicionales (dependen del verdadero estado de H0 ) Obs.: Nótese que la probabilidad de ocurrencia de un error de tipo I está dada por α y que α es el nivel de significación del contraste, además, según se estableció en el punto I, éste puede ser determinado con antelaciónpor el investigador; lo anterior, conlleva el hecho que la prioridad en “el control” en la ocurrencia de los errores está puesta en el error de tipo I, lo anterior se puede fundamentar de la siguiente manera: “El error que se produce al asumir un cambio cuando en realidad no ha ocurrido, es más difícil de revertir que aquel que se produce cuando no se asume el cambio que ocurrió”. Desde una perspectiva económica, con el error de tipo I se tiene pérdidas efectivas, mientras que con el error de tipo II se tiene pérdida de oportunidad. Sin embargo ambos errores, están relacionados entre sí a través del punto crítico, gráficamente para el contraste: H0 : θ = k v/s H1 : θ = r con r > k, se puede establecer observar que: b) El concepto de potencia: La potencia de un contraste dice relación con la bondad de éste para detectar la falsedad de H0. Lo anterior permite establecer que si a través del contraste se puede detectar fácilmente la falsedad de H0, entonces, la decisión evidente es rechazar H0, por lo que la potencia se mide a través de 1-β, donde: 1 - β = P(Rechazar H0 / H0 es falso) = P (T ∈ R.C./ H0 es falso) Obs.: Es en el contexto de la falsedad de H0, donde cobra importancia el que un contraste sea exacto o no, es decir, en la evaluación de β y 1−β, puesto que en contraste exacto, estas medidas son específicas, mientras que en los contrastes inexactos pasan a ser funciones que dependen exclusivamente de los distintos valores que pueda tomar el parámetro, las que se denominan Función de Potencia (1−β) y Función Característica (β). Así, la función de potencia para los diferentes tipos de contrastes son: UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. a) Contraste Unilateral Derecho: H0 : θ = k v/s H1 : θ > k b) Contraste Unilateral Izquierdo: H0 : θ = k v/s H1 : θ < k c) Contraste Bilateral H0 : θ = k v/s H1 : θ ≠ k UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. VIII.- Respecto de los tamaños muestrales: En el contexto de los contrastes de hipótesis y de manera análoga a la estimación, debe tenerse presente que el tamaño muestral se relaciona: • Directamente con la variabilidad de la población (σ2) • Inversamente con la magnitud de los errores (α y β) • Inversamente con la magnitud de la diferencia entre lo establecido por H0 y H1 (θ0 - θ1) Así, para el contraste: H0 : µ = k v/s H1: µ = r (con r > k) se tiene: R.C. = { X C≥ P chazar H H(Re /0 0 es Verdadera) P No chazar H H( Re /0 0 es Falsa) donde: α = β = es decir: α µ= ≥ =P X C k( / ) β µ= < =P X C r( / ) Estandarizando en cada caso se tiene: α σ = ≥ − ⎛ ⎝ ⎜ ⎜⎜ ⎞ ⎠ ⎟ ⎟⎟ P Z C k n ⇒ C k n − σ = z 1−α β σ = < − ⎛ ⎝ ⎜ ⎜⎜ ⎞ ⎠ ⎟ ⎟⎟ P Z C r n C r n − σ ⇒ = z β = - z 1−β Ordenando términos, se tiene: C - k = z 1−α σ n C - r = -z 1−β σ n /(-1) (r - k) = σ n ( z 1 + z 1 ) −α −β Despejando n, se obtiene: ( ) ( ) n z z r k = + − − −σ α β 2 1 1 2 2 UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. IX.- Aplicaciones de EXCEL: EXCEL, es un software utilitario y como tal contiene algunas herramientas de análisis estadístico, estas se encuentran ingresando en la barrra de menú HERRAMIENTAS ↵ ANÁLISIS DE DATOS↵ . Generalmente esta opción no está activada. Para activarla debe seguirse la siguiente secuencia: 1.- Barrra de menú → HERRAMIENTAS → COMPLEMENTOS ↵ 2.- Al ingresar a esta opción, se despliega la ventana complementos, en esta se debe marcar con un clic la opción HERRAMIENTAS PARA ANÁLISIS ↵ 3.- Al dar la instrucción ACEPTAR o simplemente ↵, se activa la herramienta ANÁLISIS DE DATOS, por lo tanto, al repetir el ingreso a la barra de menú HERRAMIENTAS, ésta incluye ahora la opción ANÁLISIS DE DATOS, tal como se muestra a continuación: UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. 4.- Ahora con la opción activada, al ingresar a ella, se despliega la ventana que se muestra a continuación, en la que se muestran todas las herramientas de análisis estadístico que incluye el EXCEL, Su denominación en algunos casos es bastante particular, lamentablemente sólo incluye las más comunes. USOS Consideremos una aplicación específica: El gerente general de una tienda de departamentos, está considerando la posibilidad de reforzar el Staff de vendedores durante el período previo a las fiestas de fin de año en los departamentos de mayor movimiento que son los de vestuario de hombres y de mujeres. Dado que la situación económica no permite el reforzamiento de ambos departamentos, éste lo hará sólo en aquel que presente un mayor nivel de ventas diarias, para lo cual registra las ventas diarias (en millones) en el Departamento de Hombres durante 10 días y en el Departamento de Mujeres durante 12 días, la información obtenida la consigna en la siguiente planilla de excel: UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. Para comparar las ventas medias diarias entre estos departamentos, primero se debe determinar la relación entre las varianzas poblacionales, por lo que se requiere este análisis, para ejecutarlo la secuencia es: Barra de Menú → HERRAMIENTAS → ANÁLISIS DE DATOS ↵ PRUEBA F PARA VARIANZAS DE DOS MUESTRAS ↵ Se despliega la ventana correspondiente, en la que se deben consignar los datos requeridos: a) Rango de la 1ª variable = Esta se ubica desde la celda A1 a la celda A11 b) Rango de la 2ª variable = Esta se ubica desde la celda B1 a la celda B13 c) Rótulos = Se refiere a si la primera celda en cada columna identifica a la variable, es decir, si esta celda contiene un nombre. En este caso, cada variable está identificada, por lo que la celdilla asociada a rótulo está marcada. (Si existe rótulo y no se indica, excel arroja error, pues la primera observación de la variable no es numérica). d) Nivel de significación = α que en este caso se consignó como 5%, o sea 0,05. e) Especificación de salida = Esta puede consignarse en la misma hoja de trabajo o en una hoja nueva. Sugerencia: como generalmente no sabe cuanto espacio utilizará la salida, utilice la opción En una hoja Nueva. Lo anterior se muestra en la siguiente ventana: UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. Al aceptar todas estas especificaciones, se procesa la información, arrojando la siguiente salida: Ahora con todos los cálculoshechos, su rol es analizar los resultados, Nótese que la prueba F sólo se realiza en un sentido; el sentido en el que EXCEL realiza la prueba está dado por los datos bajo análisis, a saber para la prueba presente, las varianzas. Si la varianza de la primera variable es menor que la de la segunda, la dirección del contraste es hacia la izquierda, en caso contrario a la derecha. En este caso, el contraste se formula a la derecha: 1:H 2 2 2 12 2 2 10 =σ σ ⇔σ=σ 1:H 2 2 2 12 2 2 11 >σ σ ⇔σ>σ v/s La salida incluye: a) Media: Promedio de cada una de las muestras. b) Varianza: Varianza observada en cada muestra c) Observaciones: Corresponde al tamaño de cada muestra d) Grados de libertad: Corresponde a los grados de libertad del numerador (9) y a los grados de libertad del denominador (11). e) F : Corresponde a la estadística de prueba, en este caso 0,73733333/0,624242 f) P(F < f) una cola: Corresponde al p-value asociado al contraste, en este caso: P(F(9,11) ≥ ) = 0,3908, es decir, la mínima probabilidad de cometer un error de Tipo I es del 39,08%, lo cual a simple vista es muy alto, por lo que no se rechaza H0. g) Valor crítico para F (una cola): Corresponde al punto crítico para la prueba, dado por la distribución de muestreo para F. Según el nivel de significación especificado para la prueba (α = 0,05), se tiene f0,05;(9,11) = 2,8962, valor a partir del cual se determina la Región Crítica ( en este caso, a la derecha de la distribución). Por lo tanto y teniendo presente que el F obtenido no pertenece a la R.C., entonces no se rechaza H0, lo que permite concluir que las varianzas son iguales. UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. Gráficamente: p-value = 0,3908 1,181165 R.C. 0.05 2,8962 Obs.: Nótese que si la prueba, se hubiese realizado al revés, es decir, considerando en primer lugar las ventas diarias del Departamento Mujeres, los cambios estarían dados por: a) El valor de la estadística F y b) El valor del punto crítico, que ahora sería un percentil inferior, pues el contraste que daría direccionado a la izquierda. Sin embargo, el valor del p-value sigue siendo el mismo (vea la tabla adjunta). Por la tanto la decisión se mantiene. Ejercicio: Formule el contraste que representa la salida anterior y represente gráficamente la región crítica y el p-value. Ahora veamos que ocurre con la comparación de las ventas medias, la que de acuerdo al resultado de la comparación de varianzas debe hacerse considerando varianzas iguales. Así entonces, siguiendo la misma secuencia anterior: Barra de Menú → HERRAMIENTAS → ANÁLISIS DE DATOS ↵ PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES ↵ Procediendo a ingresar los datos tal como en el caso anterior, se tiene: a) Rango de la 1ª variable = Esta se ubica desde la celda A1 a la celda A11 b) Rango de la 2ª variable = Esta se ubica desde la celda B1 a la celda B13 UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. c) Diferencia hipotética entre las medias = Corresponde al valor en que supuestamente difieren las medias, éste valor no puede ser negativo, por lo tanto, si la diferencia es una magnitud negativa y dado que la planilla direcciona al contraste en el sentido de los datos, éstos deben ingresarse en orden inverso con el objeto de que la diferencia hipotética sea positiva. En el caso del problema en cuestión se consigna una diferencia cero. d) Rótulos = Se refiere a si la primera celda en cada variable la identifica (nomina o no), en este caso, cada variable está identificada, por lo que la celdilla asociada a rótulo está marcada. (Si existe rótulo y no se indica, excel arroja error, pues la primera observación de la variable no es numérica). e) Nivel de significación = α que en este caso se consignó como 5%, o sea 0,05. f) Especificación de salida = Esta puede consignarse en la misma hoja de trabajo o en una hoja nueva. Sugerencia: como generalmente no sabe cuanto espacio utilizará la salida, utilice la opción En una hoja Nueva. Lo anterior se muestra en la siguiente ventana: Al aceptar todas estas especificaciones, se procesa la información, arrojando la siguiente salida: Análisis de la salida excel: La salida incluye en primer lugar un resumen de los datos: a) Media : Promedio de cada una de las muestras. UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA ÁLEZ A. b) Varianza: Varianza observada en cada muestra. c) Observaciones: Corresponde al tamaño de cada muestra. d) Varianza Agrupada: Corresponde a la varianza ponderada, lo que en desarrollo del curso se ha denominado S2c. ( ) ( ) 6751333,0 21210 624242,011737333,09 2nn S1nS1n S 21 2 22 2 112 c =−+ ⋅+⋅ = −+ −+− = UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZ e) La diferencia hipotética entre las medias: Para la prueba propuesta, ésta es cero, lo que permite establecer que la hipótesis nula considerada para el contraste es H0: µ1 − µ2 = 0, hipótesis que es equivalente a H0: µ1 = µ2, donde: X1 = Ventas diarias (en millones de pesos) en el Departamento Hombres y X2 = Ventas diarias (en millones de pesos) en el Departamento Mujeres. f) Grados de libertad: Cuando las varianzas desconocidas se consideran iguales, los grados de libertad para la t-Student están dados por n1 + n2 − 2 = 20. g) Estadístico t : Corresponde a la estandarización de la diferencia de promedios según lo establecido por H0 1748568,1 12 1 10 16751333,0 2333,582,4T n 1 n 1S XXT OBS 21 c 21 OBS −= + − =⇒ + − = h) P(T ≤ t) una cola: Corresponde al p-value para el contraste unilateral. Recuerde que el sentido del contraste lo direcciona el software de acuerdo a los datos, para este caso, la venta promedio diaria en el Depto. Hombres (1ª variable) es menor que la venta diaria promedio en el Depto. Mujeres (2ª variable). Por lo tanto el contraste es unilateral izquierdo: H0: µ1 = µ2 v/s H0: µ1 < µ2; por lo que 0,1269 representa P(T820) ≤ -1,1748568) i) Valor crítico t (una cola): Representa el punto crítico dado por la distribución t- Student con 20 grados de libertad. Debe notar que el valor es positivo, esto no significa que sea un percentil superior, sino que excel no admite valores negativos para esta distribución, si así fuere debe considerarse el simétrico. Por lo tanto t0,05;20 = -1,7247 j) P(T ≤ t) dos cola: Corresponde al p-value para el contraste bilateral, es decir: H0: µ1 = µ2 v/s H0: µ1 ≠ µ2, donde para un contraste bilateral el p-value está dado por el doble de la probabilidad contenida en “la cola más corta” respecto del estadístico de prueba. Para la prueba en cuestión α* = 2⋅ P(T820) ≤ -1,1748568) = 0,25385. k) Valor crítico t (dos colas): Representa los puntos críticos dado por la distribución t-Student con 20 grados de libertad. Teniendo presente la simetría de la distribución respecto del cero, los puntos críticos son ± 1,7247, que corresponde a ± t0,975;20. Analizando los resultados para ambos contrastes, se observa que la estadística T no está incluida en la región crítica. Para el contraste unilateral: H0: µ1 = µ2 v/s H0: µ1 < µ2 La región crítica está dada por: R.C. = { T ≤ t0,05;20 = -t0,95;20 = -1,7247 Gráficamente: UNIVERSIDADTECNOLÓGICA METROPOLITANA FACULTAD DE ADMINISTRACIÓN Y ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA Y ECONOMETRÍA UNIDAD IV: Inferencia Estadística PROFESOR HUGO GONZÁLEZ A. Así entonces, es evidente que –1,1749 no se encuentra en dicha zona. Por lo tanto, la evidencia proporcionada por las muestras no es suficiente para rechazar H0. Para el contraste bilateral: H0: µ1 = µ2 v/s H0: µ1 ≠ µ2 La región crítica está dada por: R.C. = { T ≤ -t0,975;20 ∨ T ≥ t0,975;20, con t0,975;20 = 2,08596 Gráficamente: De la comparación entre la estadística T y los puntos críticos se observa que la estadís inalmente: Se puede concluir que si el gerente quiere mantener su decisión de proveer de ota: La opción análisis de datos, contiene otras alternativas de aplicación, tales como: • en • onstituye la prueba • encia de dos medias (muestras emparejadas): Corresponde a la • s la prueba para diferencia de medias • esponde a la prueba ANOVA que permite • egresión lineal simple y múltiple, esta tica no está en la región crítica, por lo tanto se mantiene la decisión. Lo mismo ocurre si para decidir se considera el p-value. F personal adicional para fin de año a sólo de uno de departamentos, deberá considerar otro criterio de decisión, puesto que las ventas diarias (en millones de pesos) realizadas en éstos, no presentan diferencias relevantes. N Estadística Descriptiva : Opción que proporciona todas las medidas de resum para un conjunto o varios conjuntos de datos simultáneamente. Prueba t para dos medias suponiendo varianzas desiguales: C para diferencia de medias con varianzas desconocidas, las que presentan diferencias relevantes entre si. Prueba t para difer diferencia de medias para muestras pareadas. Prueba Z para diferencia entre dos medias: E cuando las varianzas son desconocidas. Análisis de varianza de un factor: Corr comparar varias medias simultáneamente. Regresión: Corresponde al análisis de r proporciona todas las medidas asociadas a la regresión, las pruebas para establecer su calidad, los parámetros del modelo, su estandarización y correspondiente probabilidad (p-value) obtenidas todas respecto del valor hipotético 0 para cada uno, además de los límites de confianza al nivel especificado y al 95% por defecto.
Compartir