Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística Aplicada 2 (MA145), ciclo 2013-1 Item Type info:eu-repo/semantics/learningObject Authors Cuadros, Gonzalo; Tarazona, Enver; Cárdenas Solís, Celia; Ramírez Infante, Raúl Publisher Universidad Peruana de Ciencias Aplicadas (UPC) Rights info:eu-repo/semantics/closedAccess Download date 25/02/2024 09:01:18 Link to Item http://hdl.handle.net/10757/271215 http://hdl.handle.net/10757/271215 PRE GRADO AUTOR : GONZALO CUADROS ENVER TARAZONA CELIA CARDENAS RAUL RAMIREZ DOCENTES : CELIA CÁRDENAS RAUL RAMIREZ MERCEDES TORIBIO ANA VARGAS TÍTULO : GUÍA DEL ALUMNO FECHA : MARZO 2013 CURSO : ESTADÍSTICA APLICADA 2 CÓDIGO : MA145 ÁREA : CIENCIAS CICLO : 2013 -1 1 INDICE 1. Muestreo Conceptos y definiciones básicas 3 Ventajas y desventajas del muestreo frente al censo 4 Encuesta por muestreo: Diseño 5 El cliente 6 Problema específico de investigación 7 Los objetivos, variables, información disponible, análisis cualitativo y cuestionario 8 Diseño de muestreo 16 Definición de la población meta 16 Determinación del marco de muestreo 16 Selección de la técnica del muestreo 16 Determinación del tamaño de muestra 24 Diseño del trabajo de campo 24 Elección de la muestra 24 Recogida de datos 25 Preparación y análisis de los datos 25 Preparación y presentación del reporte 25 2. Prueba de hipótesis Conceptos generales 29 Prueba de hipótesis para una media poblacional 31 Prueba de hipótesis para una varianza poblacional 32 Prueba de hipótesis para una proporción poblacional 34 Prueba de hipótesis para dos varianzas poblacionales 36 Prueba de hipótesis para dos medias poblacionales 37 Prueba de hipótesis para dos proporciones poblacionales 39 3. Uso de la distribución Ji cuadrada Prueba de independencia 44 Prueba de homogeneidad de proporciones 47 Prueba de bondad de ajuste 49 Otras pruebas 55 4. Diseños Experimentales Introducción 60 Diseño completamente aleatorizado 62 Prueba para la diferencia de medias 66 Diseño con Bloques Completos Aleatorizados 70 Experimento Factorial axb 74 Tipos de modelos 74 Diseño factorial de dos factores 75 Pruebas de hipótesis 76 Descomposición de la suma de cuadrados 77 Ejercicios 81 5. Análisis de Regresión Lineal Simple Análisis de regresión lineal simple y de Correlación 90 El diagrama de dispersión 90 El método de mínimos cuadrados 92 2 La línea recta estimada 93 Descomposición de la varianza total 94 Supuestos de la Regresión 95 Coeficiente de determinación y de no determinación 95 Error estándar de la estimación 95 Coeficiente de correlación 96 Inferencia sobre los coeficientes de regresión 96 Inferencia sobre el coeficiente de correlación 97 Pronósticos 97 Regresión no lineal 107 Ejercicios 112 6. Regresión Múltiple 6.1 Elección de las variables de predicción 132 6.2 El modelo de regresión múltiple 132 6.3 Supuestos del análisis de regresión múltiple 132 6.4 Ecuación de regresión muestral 132 6.5 Coeficiente de regresión 133 6.6 El error estándar de la estimación 134 6.7 Coeficiente de determinación múltiple 134 6.8 Pruebas de hipótesis 135 6.8.1 Pruebas individuales 135 6.8.2 Prueba conjunta 135 6.9 Intervalo de confianza para los coeficientes poblacionales 136 6.10 Multicolinealidad 136 Ejercicios 153 7. Series de Tiempo Modelo Multiplicativo 177 Tendencia 177 Componente Cíclica 178 Componente estacional 178 Componente irregular 179 Estudio de una serie de tiempo 179 Modelo de tendencia 179 Descomposición de una serie de tiempo 181 Ejercicios 191 8. Método de Atenuación Exponencial Tipos de Pronósticos 195 Definición de la Atenuación Exponencial 195 Características de la Atenuación Exponencial 196 Señal de Rastreo 196 Medición del Error de Pronóstico 197 Ejercicios 208 MISCELANEA 212 SÍLABO 204 PLAN CALENDARIO 3 1. Muestreo 1.1. Conceptos y definiciones básicas. La población es el conjunto de todos los elementos que tienen una o más características comunes. Por ejemplo: la población de todos estudiantes de ingeniería industrial matriculados el 2013 0 en las universidades de Lima, la población de computadoras del Pabellón D de la UPC en Enero de 2013, la población de vehículos vendidos en el Motor Show Nov-Dic 2012 llevado a cabo en el Jockey Club, etc. Esta definición, en todos los casos, debe considerar: Elemento:: es la unidad acerca de la cual se está solicitando información. Unidad de muestreo: Es el elemento o elementos que se encuentran disponibles para su selección en alguna de las etapas de muestreo. En los procedimientos más simple, la unidad de muestreo puede ser lo mismo que el elemento. Alcance y tiempo El marco muestral es una lista de todas las unidades de muestreo que conforman la población y están disponibles para su elección en la etapa correspondiente del procedimiento de muestreo. El censo. es la medición de cada elemento de la población que deseamos describir. Ejemplo. Los censos nacionales que lleva a cabo el INEI cada cierto período de tiempo. Los censos se remontan a las primeras civilizaciones conocidas (5000 años a. de J.C). Por ejemplo los censos romanos que se realizaban cada 5 años. La muestra es un subconjunto de elementos que han sido extraídos de una población. El muestreo es el procedimiento mediante el cual se extraen algunos elementos de una población y sólo de esa parte de la población se obtiene información de seguridad mensurable, para a través de ella estimar las características importantes de la población. 4 1.2. Ventajas y desventajas del muestreo frente al censo Ventajas que brinda el muestreo: a) Ahorro de dinero debido a que el costo por unidad medida u observada es fijo y se ahorra si se consideran menos unidades al trabajar únicamente con una muestra. b) Ahorro de tiempo, como el número de mediciones es menor, se requiere menos tiempo para completar éste proceso. c) Mayor precisión, la muestra puede ser más precisa porque: Se reduce la magnitud de los errores no muestrales. Menos personal necesario para hacer las mediciones (u observaciones) Personal con mejor preparación. Puede variar las condiciones del estudio si se demora su ejecución. d) Conveniencia; es conveniente el uso de una muestra si el estudio ocasiona, por ejemplo, la destrucción de la unidad estudiada o el sesgo en mediciones futuras. Ejemplo. Para verificar la letalidad de cierto veneno para ratas se experimentará con una muestra de estos animales. Desventajas del muestreo: a) Las estimaciones resultantes del muestreo están afectas del inevitable error de muestreo. b) La información proveniente de una muestra no proporciona información tipo inventario para cada uno de los elementos de la población. c) Las estimaciones no pueden subdividirse para pequeños dominios de análisis, considerando que no todos ellos pueden estar representados debidamente en la muestra. 5 d) Requiere de personal especializado y experimentado. Ejercicios 1)Defina la población, muestra, unidad de muestreo, elemento y variables; en cada uno de los siguientes casos: a) Cuando se desea determinar el porcentaje de estudiantes de la UPC que aprobaron al menos un curso en el ciclo de verano extraordinario. b) Se quiere determinar cuál es el tiempo promedio que tarda un alumno en desarrollar una práctica calificada del curso matemática básica. c) SISTEMAS S.A. desea estudiar la confiabilidad de su sistema de cómputo. Se sabe que la confiabilidad de un sistema de cómputo se mide en términos de la vida de un componente de hardware específico, por ejemplo, la unidad de disco. Con objeto de estimar la confiabilidad del sistema de SISTEMAS S.A., se prueban 100 componentes de computadora hasta que fallen, y se registra el tiempo de vida. 2) ¿Cuál es la diferencia entre censo y muestreo? Tarea de investigación 3) ¿Qué tipo de información brindan los censos realizados por el INEI? Liste la información que proporciona por rubros de investigación. 4) Investigue las características de la Encuesta de Hogares que realiza el INEI en cuanto a: a) Población. b) Muestra c) Elemento. d) Periodicidad. e) Información recolectada. 1.3. Encuesta por muestreo: Diseño La encuesta por muestreo, es el conjunto de procesos, actividades y operaciones a realizar con la finalidad de investigar sobre una problemática de interés. El gráfico siguiente muestra los pasos a seguir en una encuesta por muestreo: 6 1.3.1. El cliente ¿Quién es?, ¿dispone de medios?, ¿tiene exigencias?, ¿tiene objetivos claros?, etc. 7 1.3.2. Problema específico de investigación Ausencia total o parcial de investigaciones sobre un objeto, sobre la existencia de un fenómeno y las condiciones en las cuales se produce. Incertidumbre respecto a la posibilidad de reproducir las observaciones de una investigación anterior. Imposibilidad de generalizar conclusiones de una investigación a causa de problemas metodológicos. Contradicción aparente entre diversas observaciones. Falta de verificación total o parcial de modelos, de interpretaciones, de teorías. Estancamiento en el progreso de los conocimientos sobre una realidad dada. NNeecceessiiddaadd ddee ssaabbeerr cciieerrttaass ccoossaass eessppeeccííffiiccaass HHiippóótteessiiss UUssoo ddee mmééttooddooss ddee iinnvveessttiiggaacciióónn Realidad: Objeto, fenómeno o situación Obstáculo a la intervención o a la acción sobre lo real Obstáculo a la comprensión de la realidad Necesidad de describir la realidad Necesidad de explicar la realidad Necesidad de producir o crear algo real Necesidad de elegir o seleccionar algo real Tema de investigación Problema general Pregunta general Problema específico Pregunta específico 8 1.3.3. Los objetivos, variables, información disponible, análisis cualitativo y cuestionario A. Objetivos La definición de los objetivos de un estudio reposa sobre tres etapas importantes: Etapa 1. Elección / Identificación de un problema general de investigación (un tema, una pregunta general) Etapa 2. Establecimiento de la problemática: Definición de los conceptos Identificación de las variables Delimitación del campo de estudio Identificación de las variables y sus relaciones. Esta etapa se basa en la formulación de hipótesis. Etapa 3. Definición del problema específico de investigación. Formulación de preguntas específicas. Ubicación de esas preguntas en la problemática. Aquí también es importante la formulación de hipótesis. B. Las variables Son las características que se desea medir en la población. Clasificación Variable directa: Ejemplo: facultad, edad, peso, etc. Indicador: Variable que identifica a un concepto. Ejemplo: Calidad en el servicio de cafetería de la universidad. Medición de variables Medición significa asignar números u otros símbolos a las características de los objetos de acuerdo con ciertas reglas especificadas con anterioridad. La medición de las variables se realiza a través de las escalas. La escala de medición de una variable tiene gran influencia en la manera de utilizarlas en el análisis. Escala de medición primarias Escala nominal: Si los datos observados se clasifican en diversas categorías distintas en las que no se identifica ningún orden. Ejemplo Variable categórica Categoría Profesión Administrador Economista Ingeniero Medico Profesor Otra 9 ¿Tiene celular de CLARO? Nacionalidad 1: Sí 2: No Argentino Boliviano Chileno Peruano Escala ordinal: Cuando los datos observados se clasifican en distintas categorías en las que se establece algún orden. Ejemplo Variable categórica Categoría Ciclo académico Primero Segundo ... Grado académico Bachiller Magíster Doctor Escala de intervalos: Es una escala ordenada en la que la diferencia entre las mediciones es una cantidad significativa. Existe un cero relativo. Ejemplo: Temperatura : 0 grados Centigrados Escala de razón: Cuando además de establecer diferencias significativas entre las mediciones, es posible establecer cocientes significativos. Existe un cero absoluto. Ejemplo: Variable cuantitativa Nivel de medición Temperatura Talla de una persona Peso de una bolsa de arroz Intervalo Razón Razón 10 Otras escalas de medición Escala Características básicas Ejemplos Ventajas Desventajas Escala de Likert Grado de acuerdo con base en una escala de 1 (por completo en desacuerdo) a 5 (por completo de acuerdo) Medición de las acitudes Fácil de elaborar, aplicar y aprender Se lleva más tiempo Diferencial semántico Escala de siete puntos con etiquetas bipolares Imagen de marcas, productos y empresas Versátil Controversias sobre si los datos son de intervalos Escala de clasificación continua Colocar una marca en una línea continua Reacción a los comerciales de televisión Fácil de elaborar La calificación puede ser confusa a menos de que sea por computadora Ejemplos: 1. Escala de Likert Instrucciones A continuación, presentamos diversas opiniones sobre la tienda SAGA. Favor de indicar si está de acuerdo o en desacuerdo con cada una, marcando con X su elección en la escala siguiente: 1 = por completo en desacuerdo 2 = en desacuerdo 3 = no estoy de acuerdo ni en desacuerdo 4 = de acuerdo 5 = por completo de acuerdo Alternativas Vende mercancía de alta calidad Tiene un servicio deficiente en sus tiendas Me gusta comprar en Saga. Las políticas de crédito de Saga son terribles Cuenta con tiendas en todo Estados Unidos No me gusta la publicidad que usa Vende una extensa variedad de mercancía Carga precios adecuadas Por completo de acuerdo 5 5 5 5 5 5 5 5 De acuerdo 4 4 4 4 4 4 4 4 No estoy de acuerdo ni en desacuerdo 3 3 3 3 3 3 3 3 En desacuerdo 2 2 2 2 2 2 2 2 Total desacuerdo 1 1 1 1 1 1 1 1 11 2. Escala de diferencial semántico Para medir el concepto de sí mismo, los conceptos personales y los conceptos del producto. Tosco :---: ---:---: ---:---: ---:--: ---: Delicado Incómodo :---: ---:---: ---:---: ---:--: ---: Cómodo Dominante :---: ---:---: ---:---: ---:--: ---: Sumiso Agradable :---: ---:---: ---:---: ---:--: ---: Desagradable Contemporáneo :---: ---:---: ---:---: ---:--: ---: Anticuado Racional :---: ---:---: ---:---: ---:--: ---: Emocional Formal :---: ---:---: ---:---: ---:--: ---: Informal Modesto :---: ---:---: ---:---: ---:--: ---: Vanidoso 3. Escala de clasificación continua Entre las producciones nacionales,la serie “Al fondo hay sitio” puede calificarse como: Quizá la peor Quizá la mejor 0 10 20 30 40 50 60 70 80 90 100 Colocar una marca en una línea continua que represente su opinión. C. La información disponible Una de las primeras etapas que precede al estudio de un problema específico consiste en buscar la información disponible: Fuente interna (en el cliente) o Fuente externa (de otras instituciones). Esta información es secundaria, en la medida en que no es obtenida o construida específicamente para el estudio. Los principales medios para obtenerla son: La investigación documental (obras específicas, revistas científicas, prensa especializada, etc) La consulta de expertos El análisis de estudios similares Internet D. El análisis cualitativo El análisis cualitativo tiene por objeto contribuir a la definición de la problemática y al planteamiento de las preguntas específicas. Puede, en particular, facilitar la selección de los indicadores (variables) que deben ser medidos en el transcurso de la encuesta. Se pueden utilizar varios métodos, entre los que tenemos: Discusiones de grupo Entrevistas individuales 12 E. Elaboración del formato de recolección de datos. El cuestionario Un cuestionario, ya sea que se trate de un programa, una forma de entrevista o un instrumento de medición, es un conjunto formal de preguntas para obtener información por parte de los entrevistados. Por lo general el cuestionario es parte del paquete de recopilación de datos que también puede incluir: Los procedimientos del trabajo de campo (instrucciones para seleccionar, acercarse e interrogar a los entrevistados) Alguna recompensa, regalo o pago que se ofrece a los entrevistados. Apoyo para la comunicación, como mapas, fotografías, anuncios, productos y tarjetas de respuestas. El siguiente diagrama esquematiza el proceso de diseño de cuestionarios: Especificar la información necesaria Especificar el tipo de modelo de entrevista Determinar el contenido de las preguntas individuales Diseñar las preguntas para superar la incapacidad y la falta de disposición del entrevistado para responder Decidir sobre la estructura de las preguntas Determinar la redacción de las preguntas Acomodar las preguntas en el orden apropiado Identificar la forma y disposición Reproducir el cuestionario Eliminar los problemas mediante la prueba previa 13 Ejemplo de cuestionario Encuesta Alumnos UPC (*) Código: __________________ Facultad: ___________________ Ciclo (considere el de mayor número de cursos que esta matriculado): ____________ 1. Promedio ponderado del ciclo anterior: _____________ 2. Cuantas semanas antes del finalizar el ciclo considera que debe ser la pre matricula para el siguiente ciclo ______________________________ 3. En el proceso de matricula 2006-2, tuviste algún problema. a. SI b. NO 4. ¿Cuántos problemas tuviste? _____________________ 5. ¿Cuántos de los problemas que tuviste se pudieron resolver?_______________ 6. Cual piensas que puede ser la causa más importante para que secretaría académica no pueda brindar un servicio de matricula optimo. a. Falta de personal para la atención al alumno. b. Falta de una infraestructura adecuada. c. Eficiencia en su personal. d. Falta de coordinación entre secretaria académica y las áreas y/o carreras. e. Fallas en el reglamento de matricula. f. Fallas en el sistema de matricula en línea. 7. Como calificas dentro de la matricula lo siguiente: Alternativa Servicio Trato recibido Proceso Muy bueno 5 5 5 Bueno 4 4 4 Regular 3 3 3 Malo 2 2 2 Muy Malo 1 1 1 8. Si tuviste que acercar a la oficina de secretaria académica para resolver algún problema relacionado con la matricula ¿Cuántos MINUTOS se demoraron para atenderte? ________________________ MINUTOS 14 9. ¿Qué porcentaje de los cursos que te prematriculas finalmente te matriculas?_______________ 10. ¿Has hecho alguna vez matricula complementaria? a. SI b. NO. 11. Cómo calificas este proceso a. Muy bueno b. Bueno c. Regular d. Deficiente 12. Con la matricula complementaria en que rubros encontraste mayor problemática. a. Permiso para dispersión de niveles. b. Permiso para llevar cursos de otra carrera. c. Extensión de vacantes en algún curso. d. Muy poca oferta de horarios. e. Atención para la matricula complementaria. 13. Cuantos cursos que pensabas matricularte no pudiste hacerlo con la matricula complementaria. ___________________________ 14. Cual de estos problemas te gustaría cambiar a. La duda en la prematricula acerca de los cursos. b. Las largas colas para ser atendido c. Los pocos salones para elegir d. La poca información acerca de las fechas para cada parte del proceso de matricula. ¡Gracias por tu colaboración! (*) Tomado del trabajo de investigación: Matricula. Ciclo 2006-2 15 Ejercicios 1) Especifique si cada una de las siguientes variables es cualitativa o cuantitativa. Por cada variable, identifique la escala de medición: a) Precio de una bolsa de arroz. b) La calificación de un examen. c) El año de nacimiento. d) Indicadores macroeconómicos de un país. e) Grupos organizados feministas. f) Empresas del sector industrial. g) La temperatura ambiente (ºC) h) Opinión sobre la nueva ley del libro en una escala de 1 a 5 puntos. 2) ¿Cuáles son los pasos a seguir en una encuesta por muestreo? 3) ¿Por qué es importante definir los objetivos de la investigación? 4) ¿Cuáles son las fuentes de información primaria? 5) ¿En qué consiste la información disponible? 6) ¿Cómo se clasifica las variables? Cite dos ejemplos. 7) ¿Qué diferencias existen entre la escala nominal y la ordinal? 8) Cite dos ejemplos de variables medidas en escala de intervalos. 9) Cite dos ejemplos de variables medidas en escala de razón. 10) Cite un ejemplo de escala de diferencial semántico. 11) Cite dos ejemplos de escala Likert. 12) Cite dos ejemplos de escala de clasificación continua. 13) ¿Qué es un cuestionario? 14) ¿Qué involucra el tratamiento de un cuestionario? 15) ¿Qué procesos son posibles de resolver en el tratamiento, análisis e interpretación de resultados? 16) Diseñe un cuestionario para recolectar información referente a la opinión que tienen los alumnos de la UPC sobre la calidad de atención de la nueva cafetería. Un cambio a la conciencia “Un número cada vez mayor de gente en todo el mundo está llegando a la conclusión de que la conciencia es fundamental, que la mente o el espíritu tienen una realidad, comparable a los objetos materiales (Harman 1988: Renesch 1991, Cook 1991; Rothschild 1991). Muchos tuvieron experiencias transformadoras (sueños que cambiaron sus vidas, viajes interiores que revelaron nuevas visiones, experiencias cercanas a la muerte, una serie de conocimientos intuitivos [Porter, s/fecha] que los llevó a darse cuenta de que son más que su cuerpo físico y su mente lógica, que existen categorías de realidad más allá de lo que se puede ver, tocar, saborear y oler. Al reexaminar las conjeturas, los valores y las orientaciones de sus vidas, la gente está comenzando a considerarse a sí mismas como la creadora de sus realidades. Pone énfasis en la interconexión y la totalidad –de todos y de todo- y subraya el papel fundamental de la sabiduría interior y la autoridad interior (Harman 1988, 1992). En general, se compromete a efectuar un cambio diferente en el mundo ” Tomado de: La Cuarta Ola El mundo de los negocios en el siglo XXI.Herman Bryant Maynard, Jr y Susan E. Mehrtens. pg. 53 16 1.3.4. Diseño de muestreo Involucra definir la población meta y el marco de muestreo, cálculo del tamaño de muestra y la elección de la técnica de muestreo a utilizar. 1.3.4.1. Definición de lapoblación meta La población meta es el conjunto de elementos que tienen características de interés para el investigador. Es muy importante definir claramente la población, porque de esto dependerá el éxito del trabajo de investigación (explicitar tiempo y espacio, por ejemplo Nacimientos registrados en Lima, durante Agosto del 2012). Ejemplo Se desea conocer qué porcentaje de los estudiantes de la UPC practican deporte. Entonces la población meta está constituida por los estudiantes que están matriculados en el ciclo 2012-2. 1.3.4.2. Determinación del marco de muestreo. El marco de muestreo consiste en una lista o grupo de indicaciones para identificar la población meta. Ejemplo Listado de los estudiantes matriculados en el ciclo 2012-2 proporcionada por secretaría académica. 1.3.4.3. Selección de la técnica de muestreo. En esta etapa se decidirá si se emplea una técnica probabilística o no probabilística para la selección de la muestra elegida. 1.3.4.3.1. Muestreo no probabilístico. Cuando la selección de un elemento que formará parte de la muestra se basa en el criterio del investigador. No todos los elementos de la población tienen una probabilidad conocida de pertenecer a la muestra. Algunos de estos procedimientos son: Muestreo de conveniencia.- En este tipo de muestreo, los elementos se seleccionan, como su nombre lo indica, de acuerdo a la conveniencia del investigador. Ejemplo. En el estudio sobre los beneficios de utilizar un celular de la marca CLARO, se puede entrevistar a los estudiantes que están en el área de la cafetería. Como puede notarse no se especifica la población total de la que fue extraída la muestra ni todos los miembros de dichas poblaciones tuvieron oportunidad de ser seleccionados. No es posible medir cuan adecuadas son las inferencias que podamos hacer a partir de estas muestras. 17 Muestreo de comparación.- En este tipo de muestreo se selecciona la muestra de acuerdo con lo que un experto piensa acerca de la contribución de los diferentes elementos de la población a la cuestión particular que se esta investigando. Ejemplo. La declaración de expertos como testigos en la corte; la selección de un supermercado para probar presentación de un producto; etc. En todos los casos se desconoce la magnitud y la dirección del error. Muestreo por grupos.- Es este muestreo se busca obtener una muestra que sea similar en composición a la población de acuerdo con algunas características de control. Debe de tenerse en cuenta una descripción de aquellas características de control y además conocer la distribución de éstas en toda la población. Con esta información se forman subgrupos de la población que son muestreados por algún procedimiento no probabilístico. 1.3.4.3.2. Muestreo probabilístico: En el muestreo probabilístico, la selección de cada elemento de la muestra se hace siguiendo reglas matemáticas de decisión. Todos los elementos de la población tienen una probabilidad real y conocida de ser seleccionados. A. Muestreo aleatorio simple. Es el procedimiento de seleccionar muestras en el que al seleccionar en forma aleatoria y sin reemplazo a “n” unidades de muestreo de una población que contiene un total de N unidades, se garantiza que cada uno de los elementos tiene la misma probabilidad de ser elegida. N n Pasos a seguir para seleccionar una muestra aleatoria simple Se enumeran las unidades del marco muestral con números sucesivos. Con un generador de números aleatorios, se seleccionan tantos elementos del marco muestral como sea el tamaño requerido de la muestra. 18 B. Muestreo aleatorio estratificado. Estratificar significa dividir a la población en varias partes de acuerdo con ciertas características de sus elementos. El objetivo de estratificar la población es buscar homogeneidad entre los estratos, a fin de reducir el error estándar de los estimadores. Pasos a seguir para seleccionar una muestra estratificada 1. Se divide a la población en estratos que sean mmuuttuuaammeennttee eexxcclluuyyeenntteess yy ccoolleeccttiivvaammeennttee eexxhhaauussttiivvooss. Esto es, que incluyan a todos los elementos de la población y que cada elemento pertenezca solamente a un estrato. 2. Para cada uno de los estratos, se seleccionan muestras aleatorias simples Recomendaciones para el uso de muestras estratificadas Si se tiene que usar más de una variable para formar los estratos, cuidar que estas no estén relacionadas entre sí. No se deben considerar la formación de muchos estratos, generalmente se usan entre 3 y 8 estratos. Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto pueden no ser considerados. C. Muestreo sistemático. En el muestreo sistemático, se debe elegir un elemento del marco muestral cada cierto intervalo. Este muestreo supone que se cuenta con una enumeración completa de los elementos de la población. El tamaño del intervalo (K), es el recíproco de la fracción de muestreo. K debe ser un número entero, redondeado por truncamiento. n N f 1 K Procedimiento para seleccionar una muestra sistemática: El procedimiento consiste en seleccionar aleatoriamente un número entero entre 1 y k, llamado arranque aleatorio (A), y a partir de este número elegido seleccionar el siguiente que ocupa la posición A + K del listado del marco muestral, y así sucesivamente hasta completar la muestra necesaria. N1 N3 N2 n1 n3 n2 19 Ejemplo 1 (N = 12, n = 4, K = 3) 1.- 12 6.- 37 11.- 90 2.- 23 7.- 40 12.- 97 3.- 35 8.- 54 4.- 23 9.- 74 5.- 35 10.-86 Ejercicio (N = 15, n = 6, K = 2.5 = 2) 1.- 45 6.- 87 11.- 90 2.- 33 7.- 43 12.- 99 3.- 55 8.- 59 13.- 35 4.- 45 9.- 63 14.- 32 5.- 39 10.-82 15.- 83 D. Muestreo por conglomerados. Este muestreo es útil cuando las unidades de análisis en la población se consideran agrupadas en conglomerados. Cada conglomerado constituirá una unidad de muestreo. Muestreo por conglomerados en una etapa Se selecciona una muestra aleatoria de conglomerados y el análisis se realizará considerado todas las unidades de análisis que conforman dichos conglomerados elegidos. Muestreo por conglomerado en dos etapas. En los conglomerados seleccionados al azar, se podría seleccionar una submuestra de unidades y enumerar únicamente esa submuestra de unidades (muestreo polietápico). 1° 4° 2° 3° 7° 6° 5° 8° n 1° 4° 2° 3° 7° 6° 5° 8° 1° 4° 2° 3° 7° 6° 5° 8° n N ¿Cuál es el arranque aleatorio para este ejemplo? Use la columna C4 .............. _ _ _ _ _ _ ¿Cuál es el arranque aleatorio para este ejemplo? Use la columna C3 ............. _ _ _ _ _ _ 20 EJEMPLOS DESARROLLADOS Muestreo aleatorio simple Utilice los datos de la Tabla Nº 1 para estimar el costo promedio de reparación, mediante una muestra de 10 elementos seleccionados aleatoriamente. Utilice como columna de arranque la C1; C7; C15 de la tabla de números aleatorios. Muestra X021 X131 X003 X053 X137 X019 X012 X014 X093 X092 Costo Reparación 571 244 438 116 107 386 365 434 283 134 8,307 10 134...571 x Muestreo estratificado Seleccione una muestra aleatoria estratificada de 12 fallas con asignación proporcional al tamaño del estrato (tipo de falla) y estime cuál es el costo promedio gastado en la reparación para cada uno de los estratos y para la muestra total, indique además el error muestral si se sabe que el costo de reparación promedio poblacional es de 257.8067 dólares.Estrato1: utilice las columnas C1, C3, C5 de la tabla de números aleatorios. Estrato2: utilice las columnas C7, C9, C10, C11 de la tabla de números aleatorios Estrato 3: utilice las columnas C1, C3, C5 de la tabla de números aleatorios. Estrato 4: utilice las columnas C7, C9, C10, C12 de la tabla de números aleatorios 1° 4° 2° 3° 7° 6° 5° 8° N n 1° 4° 2° 3° 7° 6° 5° 8° N 1° 4° 2° 3° 7° 6° 5° 8° 1° 4° 2° 3° 7° 6° 5° 8° N n n 21 SOLUCIÓN Estrato Ni Proporción ni Electrónico 33 0.2200 2.64 3 Eléctrico 49 0.3267 3.92 4 Mecánico 38 0.2533 3.04 3 Montaje 30 0.2000 2.4 2 Total 150 12 Estrato 1: Electrónico Estrato 2: Eléctrico Estrato 3: Mecánico Estrato 4: Montaje X02 = 593 X35 = 573 X083=182 X 135= 253 X16= 358 X 41= 242 X 098= 135 X126 = 231 X29=232 X66=231 X 109= 279 X40=278 Media estrato 1= 394.33 Media estrato 2 = 331 Media estrato 3 = 198.66 Media estrato 4 = 242 Media de toda la muestra = 298.9166 Error muestral = 41.1099 Muestreo sistemático Utilice la tabla de números aleatorios y a partir de la primera fila de la columna C5 seleccione una muestra de tamaño 12 de los datos contenidos en la Tabla 2. Aplique un muestreo sistemático. Elabore un listado con el número del dato seleccionado y su valor respectivo SOLUCIÓN N=_________ K= _________ A=__________ Nº X1 X5 X9 X13 X17 X21 X25 X29 X33 X37 X41 X45 Kilometraje en miles 153 89 28 34 20 24 126 57 66 68 56 56 Promedio Muestral : 64.75 Promedio Poblacional: 61.02 Error Muestral: _______ 22 Tabla No 1 N° Tipo de Falla Costo de reparación (dólares) Turno de la Falla In te n s i d a d N° Tipo de Falla Costo de reparación (dólares) Turno de la Falla In te n s i d a d N° Tipo de Falla Costo de reparación (dólares) Turno de la Falla In te n s i d a d 1 Electrónico 458 Día Grave 51 Eléctrico 353 Noche Leve 101 Mecánico 300 Día Leve 2 Electrónico 593 Día Grave 52 Eléctrico 196 Noche Leve 102 Mecánico 113 Día Leve 3 Electrónico 438 Día Grave 53 Eléctrico 116 Noche Leve 103 Mecánico 165 Día Leve 4 Electrónico 570 Día Grave 54 Eléctrico 224 Noche Leve 104 Mecánico 102 Día Leve 5 Electrónico 442 Día Grave 55 Eléctrico 269 Noche Leve 105 Mecánico 222 Día Leve 6 Electrónico 220 Día Grave 56 Eléctrico 297 Noche Leve 106 Mecánico 260 Día Leve 7 Electrónico 533 Día Grave 57 Eléctrico 261 Noche Leve 107 Mecánico 208 Día Leve 8 Electrónico 326 Día Grave 58 Eléctrico 136 Noche Leve 108 Mecánico 175 Noche Leve 9 Electrónico 285 Día Grave 59 Eléctrico 317 Noche Leve 109 Mecánico 279 Noche Leve 10 Electrónico 510 Día Grave 60 Eléctrico 134 Noche Leve 110 Mecánico 111 Noche Leve 11 Electrónico 436 Día Grave 61 Eléctrico 113 Noche Leve 111 Mecánico 114 Noche Grave 12 Electrónico 365 Noche Grave 62 Eléctrico 237 Noche Leve 112 Mecánico 138 Noche Grave 13 Electrónico 222 Noche Grave 63 Eléctrico 283 Noche Leve 113 Mecánico 171 Noche Grave 14 Electrónico 434 Noche Grave 64 Eléctrico 277 Noche Leve 114 Mecánico 97 Noche Grave 15 Electrónico 424 Noche Trivial 65 Eléctrico 123 Noche Leve 115 Mecánico 146 Noche Grave 16 Electrónico 358 Noche Trivial 66 Eléctrico 231 Noche Leve 116 Mecánico 190 Noche Grave 17 Electrónico 222 Noche Trivial 67 Eléctrico 129 Noche Leve 117 Mecánico 168 Noche Grave 18 Electrónico 280 Noche Trivial 68 Eléctrico 241 Noche Leve 118 Mecánico 258 Noche Grave 19 Electrónico 386 Noche Trivial 69 Eléctrico 159 Noche Leve 119 Mecánico 115 Noche Grave 20 Electrónico 346 Noche Trivial 70 Eléctrico 387 Noche Leve 120 Mecánico 127 Noche Grave 21 Electrónico 571 Noche Trivial 71 Eléctrico 311 Noche Leve 121 Montaje 91 Noche Grave 22 Electrónico 222 Noche Trivial 72 Eléctrico 318 Día Leve 122 Montaje 120 Noche Grave 23 Electrónico 293 Noche Trivial 73 Eléctrico 376 Día Leve 123 Montaje 108 Noche Grave 24 Electrónico 488 Noche Trivial 74 Eléctrico 292 Día Leve 124 Montaje 159 Noche Grave 25 Electrónico 449 Noche Trivial 75 Eléctrico 389 Día Leve 125 Montaje 129 Noche Grave 26 Electrónico 600 Noche Grave 76 Eléctrico 146 Día Leve 126 Montaje 231 Noche Grave 27 Electrónico 410 Día Grave 77 Eléctrico 334 Día Leve 127 Montaje 268 Noche Grave 28 Electrónico 271 Día Grave 78 Eléctrico 274 Día Leve 128 Montaje 298 Noche Grave 29 Electrónico 232 Día Grave 79 Eléctrico 113 Día Trivial 129 Montaje 177 Noche Grave 30 Electrónico 252 Día Grave 80 Eléctrico 190 Día Trivial 130 Montaje 230 Noche Grave 31 Electrónico 336 Día Grave 81 Eléctrico 163 Día Trivial 131 Montaje 244 Noche Grave 32 Electrónico 465 Día Grave 82 Eléctrico 115 Día Trivial 132 Montaje 141 Noche Grave 33 Electrónico 374 Día Grave 83 Mecánico 182 Día Trivial 133 Montaje 80 Noche Trivial 34 Eléctrico 374 Día Grave 84 Mecánico 225 Día Trivial 134 Montaje 288 Noche Trivial 35 Eléctrico 573 Día Grave 85 Mecánico 219 Día Trivial 135 Montaje 253 Noche Trivial 36 Eléctrico 346 Día Grave 86 Mecánico 288 Día Trivial 136 Montaje 185 Día Trivial 37 Eléctrico 451 Día Grave 87 Mecánico 166 Día Trivial 137 Montaje 107 Día Trivial 38 Eléctrico 567 Día Grave 88 Mecánico 123 Día Trivial 138 Montaje 260 Día Trivial 39 Eléctrico 545 Noche Grave 89 Mecánico 207 Día Trivial 139 Montaje 245 Día Trivial 40 Eléctrico 278 Noche Grave 90 Mecánico 220 Día Trivial 140 Montaje 131 Día Trivial 41 Eléctrico 242 Noche Grave 91 Mecánico 260 Día Trivial 141 Montaje 113 Día Trivial 42 Eléctrico 242 Noche Grave 92 Mecánico 134 Día Trivial 142 Montaje 261 Día Trivial 43 Eléctrico 247 Noche Grave 93 Mecánico 283 Día Trivial 143 Montaje 118 Día Trivial 44 Eléctrico 262 Noche Trivial 94 Mecánico 325 Día Trivial 144 Montaje 93 Día Trivial 45 Eléctrico 265 Noche Trivial 95 Mecánico 218 Día Trivial 145 Montaje 169 Día Trivial 46 Eléctrico 282 Noche Trivial 96 Mecánico 197 Día Trivial 146 Montaje 289 Día Trivial 47 Eléctrico 283 Noche Trivial 97 Mecánico 250 Día Trivial 147 Montaje 145 Día Trivial 48 Eléctrico 285 Noche Trivial 98 Mecánico 135 Día Trivial 148 Montaje 117 Día Trivial 49 Eléctrico 286 Día Trivial 99 Mecánico 290 Día Trivial 149 Montaje 89 Día Trivial 50 Eléctrico 286 Día Trivial 100 Mecánico 303 Día Trivial 150 Montaje 155 Día Trivial 23 Tabla No 2 Nº Origen Kilometraje (miles) Precio del componente Categoría del componente 1 Nacional 153 $75+ Lujo 2 Nacional 23 menos de $25 Económico 3 Importado 76 $75+ Lujo 4 Nacional 24 menos de $25 Económico 5 Importado 89 $75+ Lujo 6 Nacional 24 menos de $25 Económico 7 Nacional 137 $75+ Lujo 8 Importado 159 $75+ Lujo 9 Nacional 28 $25 - $49 Económico 10 Nacional 23 menos de $25 Económico 11 Nacional 21 menos de $25 Económico 12 Importado 17 menos de $25 Económico 13 Importado 34 $25 - $49 Estándar 14 Importado 47 $25 - $49 Estándar 15 Importado 33 $25 - $49 Estándar 16 Importado 41 $25 - $49 Estándar 17 Nacional 20 menos de $25 Económico 18 Importado 22 menos de $25 Económico 19 Importado 21 menos de $25 Económico 20 Nacional 13 menos de $25 Económico 21 Nacional 24 menos de $25 Económico 22 Nacional 32 $25 - $49 Estándar 23 Nacional 109 $75+ Lujo 24 Importado 89 $75+ Lujo 25 Nacional 126 $75+ Lujo 26 Importado 82 $75+ Lujo 27 Nacional 105 $75+ Lujo 28 Nacional 178 $75+ Lujo 29 Nacional 57 $50 - $74 Estándar 30 Importado 50 $50 - $74 Estándar 31 Importado 55 $50 - $74 Estándar 32 Importado 52 $50 - $74 Estándar 33 Importado 66 $50 - $74 Lujo 34 Importado 62 $50 - $74 Lujo 35 Importado 61 $50 - $74 Lujo 36 Importado 59 $50 - $74 Estándar 37 Nacional 68 $50 - $74 Lujo 38 Nacional 62 $50 - $74 Lujo 39 Nacional 57 $50 - $74 Estándar 40 Nacional 65 $50 - $74 Lujo 41 Importado 56 $50 - $74 Estándar 42 Nacional 59 $50 - $74 Lujo 43 Importado 66 $50 - $74 Lujo 44 Nacional 65 $50 - $74Lujo 45 Importado 56 $50 - $74 Estándar 46 Importado 54 $50 - $74 Estándar 47 Importado 51 $50 - $74 Estándar 48 Nacional 60 $50 - $74 Estándar 49 Nacional 61 $50 - $74 Estándar 50 Nacional 59 $50 - $74 Estándar 24 1.3.4.4. Determinación del tamaño de muestra El tamaño de muestra constituye el número de elementos que deberán ser seleccionados de la población meta, ya sea utilizando una técnica probabilística o no probabilística. Para el cálculo del tamaño de muestra es necesario tener en cuenta algunas consideraciones previas que se desarrollarán en el capítulo de inferencia. 1.3.4.5. Diseño del trabajo de campo El trabajo de campo comprende los siguientes aspectos: la selección, capacitación y supervisión de las personas que recolectarán los datos; asimismo la validación del trabajo de campo y la evaluación de los encuestadores. Es importante que los entrevistadores reúnan ciertas características, como gozar de buena salud, ser sociables, comunicativos, agradables, educados y tener experiencia. En la capacitación de los entrevistadores deberá considerarse los aspectos importantes del trabajo de campo, incluyendo el establecimiento del contacto inicial, modo de hacer las preguntas, indagar sobre las mismas, la manera de registrar las respuestas y la forma de terminar la entrevista. La supervisión de los entrevistadores comprende la edición y control de calidad (verificación de que tanto los procedimientos de control de la muestra y el control del trabajo de campo se realicen apropiadamente), control de la falsificación y control de la oficina central (incluye la tabulación de la variables, las características demográficas y las respuestas claves) La validación del trabajo de campo permite verificar si realmente los encuestadores realizaron las entrevistas. Para esto el supervisor puede realizar llamadas telefónicas o una reencuesta entre el 10 a 25% de los entrevistados para confirmar si la entrevista se llevó a cabo y si se respetó las indicaciones para el levantamiento de la información. En la evaluación de los encuestadores se tomará en cuenta los criterios de costo y tiempo, índices de respuestas, calidad de la entrevista y calidad de los datos. 1.3.4.6. Elección de la muestra Se seleccionará los elementos del marco de muestreo que conformarán la muestra aplicando la técnica de muestreo apropiada para el estudio que se desea llevar a cabo. 25 1.3.4.7. Recogida de datos Llegado el momento previsto para el levantamiento de los datos se procederá utilizando según sea el caso alguno de los siguientes medios: A. De observación, cuando se registra sistemáticamente un acontecimiento, un comportamiento no verbal, una situación, etc. Por ejemplo, Ambiente natural o artificial. Recolección a escondidas. Observación mecánica o humana. B. De comunicación, se busca que la información sea proporcionada por los individuos. Tal es el caso Entrevista personal. Cuestionario por correo. Entrevista telefónica. 1.3.4.8. Preparación y análisis estadísticos de los datos Cuando se preparan los datos para su respectivo análisis se llevan acabo las siguientes actividades: Verificación de los cuestionarios. Edición. Codificación. Trascripción (llenado de la base de datos) Depuración de la base de datos. Ajuste de los datos en forma estadística. Selección de la estrategia para el análisis de los datos. Para realizar el análisis estadístico de los datos se empleará convenientemente alguna técnica univariada o multivariada según sea el objetivo de la investigación. 1.3.4.9. Preparación y presentación del reporte Este proceso empieza con la interpretación de los resultados del análisis de datos y lleva a conclusiones y recomendaciones. Después, se describe, el reporte formal y se realiza la presentación oral. Luego que la gerencia lea el reporte es importante que el investigador lleve acabo un seguimiento, ayudando a la gerencia y realizando una evaluación detallada del proyecto de investigación. 26 Ejercicios 1) ¿Qué diferencias existen entre los muestreos no probabilísticos de conveniencia, comparación y por grupos? 2) ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo probabilístico? 3) Seleccione una muestra aleatoria simple de tamaño 10 de los primeros 100 números naturales. 4) Seleccione una muestra aleatoria simple de tamaño 20 de los 200 primeros números impares. 5) Seleccione una muestra sistemática de 10 alumnos de la clase. Considere el total de alumnos de la clase. 6) Seleccione una muestra de 10 distritos de Lima Metropolitana, utilizando el muestreo por conglomerados (Utilice el mapa de Lima- Metropolitana) 7) Práctica de técnicas de muestreo El siguiente listado corresponde a una población de 50 trabajadores de la empresa textiles SA. Seleccione una muestra aleatoria de tamaño 8. Utilice los muestreos probabilísticos estudiados en clase, para estimar : La experiencia laboral promedio. La experiencia laboral promedio por sexo. La edad promedio para los que tienen una opinión buena del curso de capacitación. etc. 27 RELACIÓN DE LOS EMPLEADOS DE LA EMPRESA TEXTILES S.A. N° Sección Edad Sexo Experiencia laboral (meses) Opinión sobre el curso de capacitación 1 S001 18 F 2 Bueno 2 S001 20 F 4 Bueno 3 S001 25 M 10 Bueno 4 S001 20 F 4 Bueno 5 S001 22 F 5 Bueno 6 S001 23 M 5 Bueno 7 S001 20 F 2 Bueno 8 S001 35 M 13 Bueno 9 S001 35 M 14 Bueno 10 S001 32 M 100 Bueno 11 S001 31 F 20 Bueno 12 S001 33 M 10 Bueno 13 S002 30 F 20 Bueno 14 S002 30 F 20 Malo 15 S002 31 F 100 Malo 16 S002 32 M 110 Malo 17 S002 35 M 15 Malo 18 S002 35 M 15 Malo 19 S002 25 M 12 Malo 20 S002 28 F 45 Malo 21 S002 29 F 50 Malo 22 S002 27 F 40 Malo 23 S002 26 M 20 Malo 24 S003 24 M 10 Malo 25 S003 26 M 25 Malo 26 S003 23 M 5 Malo 27 S003 20 F 2 Malo 28 S003 20 F 2 Malo 29 S003 20 F 4 Malo 30 S003 35 F 15 Malo 31 S003 35 F 15 Malo 32 S003 32 M 9 Bueno 33 S003 31 F 80 Bueno 34 S003 33 M 12 Bueno 35 S003 30 F 20 Bueno 36 S003 30 F 20 Bueno 37 S004 31 M 95 Bueno 38 S004 32 M 6 Bueno 39 S004 35 F 50 Bueno 40 S004 35 F 60 Bueno 41 S004 25 M 20 Bueno 42 S004 26 M 30 Bueno 43 S004 24 M 12 Bueno 44 S004 26 F 35 Bueno 45 S004 23 M 10 Bueno 46 S004 20 F 4 Bueno 47 S004 38 F 20 Bueno 48 S004 39 F 120 Bueno 49 S004 40 F 150 Bueno 50 S004 45 F 100 Malo 28 “Estados Unidos suele ser el país adonde primero llega el futuro, y si sufrimos el derrumbamiento de nuestras antiguas instituciones, también somos los precursores de una nueva civilización. Esto significa vivir con una gran incertidumbre. Significa esperar desequilibrios y trastornos. E implica que nadie posea la verdad plena y definitiva acerca del lugar al que nos dirigimos o siquiera sobre el rumbo que deberíamos seguir. Necesitamos percibir por dónde vamos, sin dejar atrás ningún grupo, mientras creamos el futuro en nuestra esfera. Estos cuantos criterios pueden ayudarnos a distinguir unas políticas arraigadas en el pasado de la segunda ola de las que tal vez contribuyan a facilitar nuestro camino hacia el futuro de la tercera ola. El peligro de cualquier lista de criterios estriba, sin embargo, en que algunas personas sientan la tentación de aplicarlos literal, mecánica e incluso fanáticamente. Y eso es lo contrario de lo que se requiere. La tolerancia ante el error, la ambigüedad y sobre todo la diversidad, respaldadas por un sentido de humor y de las proporciones son herramientas imprescindibles para disponer nuestro equipo de supervivencia en el asombroso viaje del próximo milenio. Hemos de prepararnos para la incursión quizá más apasionante de la historia” Tomado de: La Creación de unaNueva Civilización. Alvin y Heidi Toflfler. Pg. 112-113. Los estudiantes califican a los maestros “Muchas universidades equiparan las buenas calificaciones de los estudiantes con una buena enseñanza, y una razón es la facilidad para administrar y medir evaluaciones de los estudiantes. No obstante, un estudio que comparó evaluaciones de los maestros hechas por los estudiantes con la cantidad de material aprendido encontró una marcada correlación negativa entre los dos factores. Los maestros a los que los estudiantes daban calificaciones altas al parecer inducían menos aprendizaje. En un estudio relacionado, un público dio una calificación alta a un conferencista que comunicó muy poca información pero que era interesante y entretenido. Tomado de: Estadística Elemental. Mario Triola. Pg 48. 29 2. Prueba de hipótesis 2.1. Conceptos generales. La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la población. A partir de la información proporcionada por la muestra se verificará la suposición sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (Ho). Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra estimación inicial del parámetro poblacional podría ser correcto. El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la hipótesis nula. Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la información muestral. La hipótesis alternativa se especifica como opción posible si se rechaza la nula. Tipos de errores Información muestral Aceptar H0 Rechazar H0 La realidad H0 es cierta No hay error Error I H0 es falsa Error II No hay error Error Tipo I Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I viene a ser la probabilidad de rechazar H0 cuando ésta es cierta. )IError(P El valor es fijado por la persona que realiza la investigación (por lo general varía entre 1% -10%) Error Tipo II Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la probabilidad de aceptar H0 cuando ésta es falsa. )IIError(P Debido a que el valor real del parámetro es desconocido este error no puede ser fijado. 30 Potencia de prueba o Poder de Prueba Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa. 1pruebadePotencia Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como CURVA DE POTENCIA. Pasos a seguir en una Prueba de Hipótesis Paso 1: Planteo de hipótesis. Paso 2: Nivel de significación. Paso 3: Prueba estadística. Paso 4: Suposiciones. Paso 5: Regiones críticas. Criterios de decisión. Paso 6: Realización de la prueba. Paso 7: Resultados y conclusiones. Procedimiento general Sea θ el parámetro que representa: )/,,,,,( 22 2 2121 2 1 ppp 1. Planteo de las hipótesis. 01 00 01 00 01 00 01 00 01 00 : : : : : : : : : : H H H H H H H H H H 2. Fijar el nivel de significación 3. Pruebas estadísticas 4. Supuestos a) Supuestos para: )/,,,( 2 2 2 21 2 1 Poblacion(es) normalmente distribuida(s). Muestra(s) tomada(s) al azar. b) Supuestos para: 21 pp,p Muestra(s) tomada(s) al azar. Muestra(s) grande(s) ),( positiva asimétricaón Distribuci t)(Z, simétricaón Distribuci 2 F E 31 5. Regiones críticas 6. Calculo del Estadístico de prueba 7. Resultados y conclusiones. 2.2. Prueba de hipótesis para un parámetro. 2.2.1. Prueba de hipótesis para una media poblacional. Ejemplo. Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de que 800 horas contra la alternativa 800 horas si una muestra aleatoria de 28 focos tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05. Solución. Sea X: Duración de los focos (horas) X~ N(800 , 40 2 ) Prueba Unilateral de Extremo Inferior H1: < o Prueba Unilateral de Extremo Superior H1: > o Prueba Bilateral H1: ≠ o 32 1. Planteo de hipótesis. 800:H 800:H 1 0 2. Nivel de significación. 05.0 3. Prueba estadística )1.0(N~ n/ x Z _ c 4. Supuestos. Población normal. Muestra tomada al azar. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se rechaza H0 6. Cálculos 12.2 28/40 800784 Zc 7. Conclusiones. Con 5% de nivel de significación y a partir de la información muestral, el tiempo promedio de duración de los focos es diferente de 800 horas. 2.2.2. Pruebas de hipótesis para una varianza poblacional. Ejemplo. Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8 cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad. 0.025 0.025 1.96 -1.96 0.95 33 Solución. Sea X: Resistencia al rompimiento de cierto tipo de cable X~ N( , 240 2 ) 1. Planteo de hipótesis. 22 1 22 0 240:H 240:H 2. Nivel de significación. 05.0 3. Prueba estadística 2 )1n(2 2 2 c ~ s)1n( 4. Supuestos. Población normal. Muestra tomada al azar. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si 07.142c No se rechaza H0 Si 07.142c Se rechaza H0 6. Cálculos 938.10 240 300)18( 2 2 2 c 7. Conclusiones. Con 5% de nivel de significación y la información muestral es insuficiente para afirmar que la variación de la resistencia al rompimiento ha aumentado. 0.05 0.95 34 2.2.3.Pruebas de hipótesis para una proporción poblacional. Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use 05.0 . Solución. Sea p: Proporción de artículos defectuosos. 1. Planteo de hipótesis. 02.0p:H 02.0p:H 1 0 2. Nivel de significación. 05.0 3. Prueba estadística )1.0(N~ n )p1(p pp̂ Zc 4. Supuestos. Muestra tomada al azar. Muestra grande. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se rechaza H0 6. Cálculos 712.3 300 )98.01(02.0 02.005.0 Zc 7. Conclusiones. Con 5% de nivel de significación y a partir de la información muestral, la proporción de defectuosos es diferente de 2%. 0.025 0.025 1.96-1.96 0.95 35 Ejercicios 1) Debido al tiempo excesivo que toma la recepción de materiales, el área de logística de una fabrica de amortiguadores está considerando incorporar otro asistente para el área de almacén. El gerente considera que la recepción de materiales demora en promedio más de 50 minutos. Setenta casos tomados al azar toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos. Fije en 1% y pruebe la hipótesis e indique si será necesario incorporar al asistente. 2) Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la ruptura superior a 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas que la resistencia a la ruptura es, respectivamente, 30,1 32,7 22,5 27,5 28,9 27,7 29,8 28,9 31,4 30,4 27,0 31,2 24,3 26,4 22,8 29,4 22,3 29,1 33,4 23,5 Al nivel de significación 05.0 y suponiendo normalidad: a. ¿se admite la hipótesis del químico? b. ¿será correcto afirmar que la variabilidad de la resistencia es menor de 4,2 onzas? 3) El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante eléctrico descarga pequeñas cantidades de su planta. La gerencia de la compañía, en un intento por controlar la cantidad de PCB en sus descargas, ha dado instrucciones de parar la producción si la cantidad media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50 especímenes de agua produjo las siguientes estadísticas: 1,3y ppm y 5,0s ppm. ¿Proporcionan tales estadísticas suficientes pruebas para detener el proceso? Utilice 01,0 . 4) Una muestra aleatoria de 64 bolsas de material químico, pesan en promedio, 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que 5.5 onzas contra la hipótesis alternativa, 5.5 onzas en el nivel de significancia de 0.05 5) Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se elige una muestra de 100 artículos de dicho lote, y resulta que 8 son defectuosos, ¿es válida la afirmación de la empresa? Utilice un nivel de significancia de 0.05. 36 6) Un fabricante sostiene que más del 95% de los equipos que envió a una fábrica está acorde con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran defectuosas. Pruebe la afirmación del fabricante al nivel de significación: a) 0.01 b) 0.05 2.3. Pruebas de hipótesis para dos parámetros. 2.3.1. Pruebas de hipótesis para dos varianzas poblacionales. Ejemplo. Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie- libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación. Características Embalaje A Embalaje B Media 1,2367 0,9778 Varianza 0,0042 0,0024 Observaciones 9 9 A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma poblaciones normales con varianzas iguales. Solución. Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 2 1 ) X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 2 2 ) 1. Planteo de hipótesis. 2 2 2 11 2 2 2 10 :H :H 2. Nivel de significación. 05.0 3. Prueba estadística )1n,1n( 2 2 2 1 2 2 2 1 c 21 f~ 1 S S F 4. Supuestos. Poblaciones normales. Muestras tomadas al azar. 5. Regiones críticas. Criterios de decisión. 37 La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si 0.226 fc 4.43 No se rechaza H0 Si fc < 0.226 o fc > 4.43 Se rechaza H0 6. Cálculos 75.1 )0024.0( )0042.0( Fc 7. Conclusiones. Con 5% de nivel de significación la información muestral es insuficiente para rechazar que las varianzas de las resistencias son iguales. 2.3.2. Pruebas de hipótesis para dos medias poblacionales. 2.3.2.1. Muestras independientes Ejemplo. Un investigador desea verificar si existe evidencia de una diferencia en la resistencia promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie- libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación. Características Embalaje A Embalaje B Media 1,2367 0,9778 Varianza 0,0042 0,0024 Observaciones 9 9 A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma poblaciones normales con varianzas iguales. Solución. Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 2 1 ) X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 2 2 ) 1. Planteo de hipótesis. 211 210 :H :H 2. Nivel de significación. 05.0 3. Prueba estadística 0.025 0.025 4.43 0.226 38 )2nn( 21 2 p 21 _ 2 _ 1 c 21 t~ n 1 n 1 S )()xx( t donde: 2nn s)1n(s)1n( S 21 2 22 2 112 p 4. Supuestos. Poblaciones normales. Muestras tomadas al azar. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -2.120 tc 2.120 No se rechaza H0 Si tc < -2.120 o tc > 2.120 Se rechaza H0 6. Cálculos 561.9 9 1 9 1 0033.0 )0()9778.02367.1( tc 7. Conclusiones. Con 5% de nivel de significación la información muestral es suficiente para rechazar que las resistencias promedios de los dos tipos de embalaje son iguales. 2.3.2.2. Muestras relacionadas Ejemplo El departamento de I&D afirma que un nuevo sistema de enfriamiento reducirá la medida de dilatación de materiales en promedio dos milímetros en un turno de ocho horas. Las medidas de seis rodajes se registraron antes y después del turno de ocho horas en la siguiente tabla: Rodajes 1 2 3 4 5 6 Medida del diámetro antes 90,4 95,5 98,7 115,9 104,0 85,6 Medida del diámetro después 91,7 93,9 97,4 112,8 101,3 84,0 ¿La afirmación del departamento de I&D es válida al nivel de significación de 5%? Suponga que la distribución de las diferencias de medidas los diámetros antes y después del programa es aproximadamente normal. Solución. 0.025 0.025 t(16, 0.025) = 2.120 -2.120 0.95 39 Sean X1: Medida de cintura antes (mm.) X2: Medida de cintura después (mm.) 1. Planteo de hipótesis. 2D:H 2D:H 1 0 2. Nivel de significación. 05.0 3. Prueba estadística 1n d c t~ n/S Dd t 4. Supuestos. Las diferencias tienen distribución normal. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -2.57 tc 2.57 No se rechaza H0 Si tc < -2.57 o tc > 2.57 Se rechaza H0 6. Cálculos 794.0 6/543.1 25.1 t c 7. Conclusiones. Con 5% de nivel de significación la información recogida resulta insuficiente para contradecir lo que afirma el departamento de I&D . 2.3.3. Prueba de hipótesis para dos proporciones poblacionales. Como parte del programa nacional de prevención, el Instituto de Defensa Civil desea evaluar la recordación del contenido de dos comerciales de televisión. Se pasó cada uno en un área de prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas 0.025 0.025 2.57 -2.57 0.95 40 que los vieron se lespidió definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados: Comercial Personas que lo vieron Personas que recordaron el mensaje principal A(20 seg) B(30 seg) 150 200 63 60 Use 05.0 para probar la hipótesis que no hay diferencia en las proporciones que recuerdan los dos comerciales. Solución. Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A. Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B. 1. Planteo de hipótesis. 211 210 pp:H pp:H 2. Nivel de significación. 05.0 3. Prueba estadística )1.0(N~ n 1 n 1 )p1(p p̂p̂ Z 21 21 c 4. Supuestos. Muestra tomada al azar. Muestra grande. 5. Regiones críticas. Criterios de decisión. La hipótesis alternante define la(s) zona(s) de rechazo. Áreas Criterios Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se rechaza H0 6. Cálculos 328.2 200 1 150 1 )649.0)(351.0( 200 60 150 63 Zc 7. Conclusiones. Con 5% de nivel de significación y a partir de la información muestral, hay diferencias significativas en las proporciones que recuerdan los dos comerciales. 1.96 0.025 0.025 -1.96 0.95 41 Ejercicios 1) Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de mar como en el aire. Los resultados en miles fueron los siguientes: x s Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141 Aire 734 571 520 792 773 276 411 500 672 583,222 175,121 ¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del colapso? Asuma poblaciones normales. Use 05.0 . Prueba de muestras independientes ,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515 -,333 14,54 ,744 -33,222 99,880 -246,700 180,256 Se han asumido varianzas iguales No se han asumido varianzas iguales F Sig. Prueba de Levene para la igualdad de varianzas t gl Sig. (bilateral) Dif erenci a de medias Error típ. de la diferencia Inf erior Superior 95% Intervalo de conf ianza para la diferencia Prueba T para la igualdad de medias 2) Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un experimento sobre los alambres muestra los siguientes resultados (en ohmios): x s Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033 Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122 Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de significación. 42 3) En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los siguientes datos acerca de la comparación de residuos de ácido sórbico, en partes por millón, en jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de almacenamiento. Residuos de ácido sórbico en jamón Rebanada Antes del almacenamiento Después del almacenamiento di 1 224 116 108 2 270 96 174 3 400 239 161 4 444 329 115 5 590 437 153 6 660 597 63 7 1400 689 711 8 680 576 104 Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al nivel de significancia de 0.05, para decir que la duración del almacenamiento disminuyen las concentraciones residuales de ácido sórbico? Prueba de muestras relacionadas Diferencias relacionadas t gl Sig. (bilateral) Media Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior antes - después 198,625 210,165 74,305 22,922 374,328 2,673 7 ,032 4) Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos se colocaron en cámaras de respiración, una de las cuales contenía una alta concentración de CO. Se realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se colocaron en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la frecuencia respiratoria en número de respiraciones por minuto. Sujeto 1 2 3 4 5 6 7 8 9 Con CO 30 45 26 25 34 51 46 32 30 Sin CO 30 40 25 23 30 49 41 35 28 A un nivel de significación del 5%, se puede afirmar que un ambiente con CO influye sobre la capacidad de respiración. Asuma normalidad. 43 5) El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de 616 adultos trabajan utilizando con regularidad una computadora personal, una microcomputadora, un terminal de computadora o un procesador de texto en su trabajo. a) ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan con regularidad equipo de cómputo en su trabajo excede en mas de 25% Pruebe con 03.0 . b) Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra se obtuvo que 105 adultos utilizan con regularidad una computadora personal, una microcomputadora, un terminal de computadora o un procesador de texto en su trabajo ¿Existe diferencias significativas entre los porcentajes de adultos, de las empresas del sector industrial y de salud, que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0,05. 6) Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras de procedimiento existente y del nuevo para determinar si este tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos de procedimiento nuevo también lo son, al nivel de 5% de significación, ¿mejoró el proceso luego de los cambios? 44 3. Uso de la Distribución Ji-cuadrado Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji- cuadrado permite efectuar las siguientes pruebas: 1. Prueba de independencia. 2. Prueba de homogeneidad de subpoblaciones. 3. Pruebas de bondad de ajuste a una distribución de probabilidades. La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula en cuestión. 3.1. Prueba de Independencia. Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera variable permite clasificar a cada observación en una de r categorías y que la segunda variable permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce como tabla de contingencia r×c. Variable 2 Columna 1 Columna 2 . . . Columna c Variable 1 Fila 1 Fila 2 . . . Fila r Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón, existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas). 45 Ejemplo.Para determinar si existe una relación entre la calificación de un empleado en el programa de capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia 3×3. Calificación en el programa de capacitación Total Debajo del promedio Promedio Sobre el promedio Rendimiento real en el trabajo (calificación del empleador) Deficiente 23 60 29 112 Promedio 28 79 60 167 Muy bueno 9 49 63 121 Total 60 188 152 400 Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada con la calificación en el programa de capacitación? Solución Las variables que se muestran en la tabla son: Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente, promedio y muy bueno. Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del promedio, promedio o sobre el promedio. La prueba de independencia compara las frecuencias observadas frente a las frecuencias esperadas bajo el supuesto de que ambas variables sean independientes. Para calcular las frecuencias esperadas se utiliza la siguiente fórmula: tablalla de Total fila) la de(Totalxcolumna)lade(Total esperada Frecuencia La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre paréntesis) Calificación en el programa de capacitación Total Debajo del promedio Promedio Sobre el promedio Rendimiento real en el trabajo (calificación del empleador) Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112 Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167 Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121 Total 60 188 152 400 46 Pasos para realizar la prueba de independencia 1) Formulación de las hipótesis H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la calificación en el programa de capacitación. H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente de la calificación en el programa de capacitación. 2) Fijación del nivel de significación: 0,01. 3) Estadístico de prueba gl)1)(1(con~ )( 2 1 2 2 c crv e eok i i ii 4) Áreas y criterio de decisión. Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4. Criterio: Si 2 c > 13,277 se rechaza H0 Si 2 c ≤ 13,277 no se rechaza H0. 5) Cálculos previos 18,20 98,45 )98,4563( ... 05,25 )05,2528( 80,16 )80,1623( 2222 c 6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un empleado en el trabajo depende de la calificación en el programa de entrenamiento. Nota. (Corrección de Yates) Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente: k i i ii crv e ,eo 1 2 2 2 c gl)1)(1(con 50 0,01 2 0,01 = 13,277 47 Salida SPSS: Tabla de contingencia Rendimiento * Aprovechamiento Recuento 23 60 29 112 9 49 63 121 28 79 60 167 60 188 152 400 Def iciente Muy Bueno Promedio Rendimiento Total Debajo del Promedio Promedio Sobre el Promedio Aprov echamiento Total Pruebas de chi-cuadrado 20.179a 4 .000 20.892 4 .000 400 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos Valor gl Sig. asintót ica (bilateral) 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mínima esperada es 16.80. a. 3.2. Prueba de Homogeneidad de Proporciones Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la misma en r poblaciones. Ejemplo. Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los resultados que se muestran en la siguiente tabla: Material A Material B Material C Total Desintegrados 41 27 22 90 Permanecieron intactos 79 53 78 210 Total 120 80 100 300 Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la probabilidad de desintegración es la misma para los tres tipos de materiales. Pasos para realizar la prueba de homogeneidad de proporciones 1) Formulación de las hipótesis H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i. H1: No todas las proporciones son iguales. 48 2) Fijación del nivel de significación: 0,05. 3) Estadístico de prueba gl)1)(1(con~ )( 2 1 2 2 c crv e eok i i ii 4) Áreas y criterios de decisión. Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2. Criterios: Si 2 c > 5,991 se rechaza H0 Si 2 c ≤ 5,991 no se rechaza H0 5) Cálculos previos Material A Material B Material C Total Desintegrados 41 (36) 27 (24) 22 (30) 90 Permanecieron intactos 79 (84) 53 (56) 78 (70) 210 Total 120 80 100 300 575,4 70 )7078( ... 84 )8479( 36 )3641( 2222 c 6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes para rechazar que la probabilidad de desintegración es la misma para los tres tipos de materiales. Salida SPSS: Tabla de contingencia Estado * Material Recuento 41 27 22 90 79 53 78 210 120 80 100 300 Desintegra Intacto Estado Total A B C Material Total 0,05 2 0,05 = 5,991 49 Pruebas de chi-cuadrado 4.575a 2 .101 4.727 2 .094 300 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos Valor gl Sig. asintót ica (bilateral) 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mínima esperada es 24.00. a. 3.3. Prueba de Bondad de Ajuste La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de una variable. Se compara una distribución de frecuencias observadas con los valores correspondientes de una distribución esperada o teórica. Ejemplo 1: Bondad de ajuste a una distribución de Poisson. Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47, 76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse como una variable aleatoria que tiene distribución de Poisson con 6,4 . Use .05,0 En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría (definidas por k). Para calcular las frecuencias esperadas debe calcular primero las probabilidades correspondientes a cada categoría, en este caso utilizando la función de distribución de probabilidades Poisson definida por: Pr ! xe X x x Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la probabilidad correspondiente es: Pr 13 1 Pr 13X X Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla: 50 k N° mensajes por radio Frecuencias
Compartir