Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Facultad de Ingeniería División de Ciencias Básicas Coordinación de Ciencias Aplicadas Academia de Probabilidad, Estadística y Dibujo Materia: Fundamentos de Estadística / Estadística Semestre 2021-1 Profesora: Mtra. Amanda Lolita Pineda Norman Objetivo del curso El alumno aplicará los conceptos de la teoría, metodología y las técnicas estadísticas; modelará y resolverá problemas de ingeniería relacionados con el muestreo, representación de datos e inferencia estadística para la toma de decisiones. Fundamentos de Estadística: Estadística: Universidad Nacional Autónoma de México Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 1 ÍNDICE Tema Pág. Bibliografía 4 Tema 1. ESTADÍSTICA DESCRIPTIVA 5 Investigación básica y aplicada 5 El método científico o método de investigación 5 Etapas del método científico 6 ¿Qué es Estadística? 7 La estadística en la investigación 8 Clasificación de la estadística 9 La población y la muestra 11 Relación entre la probabilidad y la estadística 12 Generación de números aleatorios 12 Uso de Tabla de números aleatorios 13 Muestreo probabilístico 15 Estadística descriptiva para datos no agrupados 18 Medidas de tendencia central 18 Medidas de dispersión 23 Medidas de forma 25 Tablas de distribución de frecuencias 29 Construcción de una tabla de distribución de frecuencias completa. 31 Datos agrupados 33 Medidas de tendencia central y de dispersión para datos agrupados 33 Gráficos 37 Tema 2. CONCEPTOS BÁSICOS DE INFERENCIA ESTADÍSTICA 43 Definiciones 43 El proceso de una investigación estadística 44 A menudo necesitamos estimar los siguientes parámetros 45 ¿Son estadísticos? 45 Muestra aleatoria 45 Realización 45 Estadísticos comunes 46 Distribuciones muestrales 47 Demostración de los estadísticos muestrales 47 Teorema central del límite (TCL) 52 ¿Cómo calcular probabilidades? 53 Distribución Normal 53 Ejercicios del Teorema central del límite 59 Distribución Ji-cuadrada (𝜒 ) 63 Distribución t-Student 64 Distribución F 67 Problemas con estadísticos de prueba 70 Tema 3. ESTIMACIÓN DE PARÁMETROS 72 ¿A dónde voy? 72 Estimador 73 Estimación puntual 73 Propiedades de los estimadores 74 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 2 Tema Pág. Métodos para determinar estimadores puntuales 80 Método de Momentos 80 Método de máxima probabilidad o máxima verosimilitud 82 Estimación por intervalos de confianza 84 Intervalo de confianza para la media 86 Intervalo de confianza para la media poblacional, 𝜎 conocida. Distribución normal. Nota: no importa el tamaño de la muestra. 86 Intervalo de confianza para la media poblacional 𝜇 de muestra grande (𝑛 ≥ 30), 𝜎 desconocida. Por el TCL 89 Intervalo de confianza cuando el tamaño de la muestra es pequeño, (n<30). Distribución normal. 𝜎 desconocida. 90 Intervalo de confianza para la diferencia de medias 91 Poblaciones normales y se conocen la varianzas poblacionales 𝜎 y 𝜎 91 Poblaciones grandes y se desconocen las varianzas poblacionales 𝜎 y 𝜎 se sustituyen por 𝑆 y 𝑆 92 Cuando la varianza de las poblaciones son desconocida pero iguales (𝜎 = 𝜎 ) y la muestra es pequeña 94 Cuando la varianza de las poblaciones son desconocidas y diferentes (𝜎 ≠ 𝜎 ) y la muestra es pequeña 96 Intervalo de confianza para la varianza 98 Intervalo de confianza para la razón de varianzas 100 Intervalo de confianza para la proporción 101 Intervalo de confianza de diferencia de proporciones 103 Tamaño de muestra 104 Tema 4. PRUEBAS DE HIPÓTESIS ESTADÍSTICAS 108 ¿Dónde estamos? 108 Prueba de hipótesis estadística 108 Hipótesis nula (𝐻 ) y alternativa 𝐻 108 Tipos de hipótesis alternativas 109 Regiones de aceptación y rechazo de 𝐻 109 Tipos de error en las pruebas de hipótesis 109 Potencia de la prueba 110 ¿Cómo se dice? 110 Prueba de hipótesis para la media 111 Prueba de hipótesis para la media poblacional, 𝜎 conocida. Distribución normal. Nota: no importa el tamaño de la muestra. 111 Nivel de significancia alcanzado (valor p o p value) 112 Prueba de hipótesis para la media poblacional 𝜇 de muestra grande (𝑛 ≥ 30), 𝜎 desconocida. Por el TCL 113 Prueba de hipótesis para la media poblacional 𝜇 cuando el tamaño de la muestra es pequeño, (n<30). Distribución normal. 𝜎 desconocida. 114 Pruebas de hipótesis sobre la igualdad de dos medias 115 Poblaciones normales y se conocen la varianzas poblacionales 𝜎 y 𝜎 / Poblaciones grandes y se desconocen las varianzas poblacionales 𝜎 y 𝜎 se sustituyen por 𝑆 y 𝑆 115 Pruebas de hipótesis sobre la igualdad de dos medias, muestras pequeñas. Distribuciones normales 116 Muestras pequeñas de poblaciones normales (𝑛 < 30) y varianzas desconocidas pero iguales 116 Muestras pequeñas (𝑛 < 30) de poblaciones normales y varianzas desconocidas y diferentes 117 Pruebas de hipótesis para la varianza. Donde 𝜇 y 𝜎 se desconocen 118 Pruebas de hipótesis para la igualdad (razón) de varianzas 120 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 3 Tema Pág. Prueba de hipótesis sobre una proporción (muestras grandes) 121 Prueba de hipótesis sobre dos proporciones (muestras grandes) 123 Prueba de bondad de ajuste 124 Tema 5. INTRODUCCIÓN A LA REGRESIÓN LINEAL SIMPLE 130 Modelo de regresión o modelo estadístico 130 Tipos de regresión 130 Diagrama de dispersión 130 Modelo determinista 131 Regresión lineal simple 132 Suposiciones acerca del error aleatorio 133 Suposiciones acerca del error aleatorio 𝜀 133 Método de mínimos cuadrados 134 Covarianza (Cov) 135 Coeficiente de determinación (𝑟 ) 135 Coeficiente de correlación (𝑟) 136 Error cuadrático medio (𝑠 ) y error estándar de estimación (𝑠) 137 Fórmula para calcular el error cuadrático medio (𝑠 ) y error estándar de estimación (𝑠) 140 Intervalo de confianza para 𝛽 141 Intervalo de Confianza para 𝛽 143 Prueba de hipótesis para 𝛽 144 Prueba de hipótesis para 𝛽 145 Regresión múltiple 146 Tema 6. PROCESOS ESTOCÁSTICOS 149 Proceso estocástico 149 Cadena de Markov 149 Probabilidad de transición en k pasos 153 Probabilidades totales 153 Matriz de transición regular 154 Clasificación de los estados de la cadena de Markov 154 Diagramas de transición 155 Matriz de transición en estado estable 157 Teoría de colas o líneas de espera 162 Estos modelos ayudan a responder preguntas como 162 Diagrama de teoría de colas o líneas de espera 162 Costos de servicio y costos de espera 163 Variaciones 163 Características en la línea de espera 164 Notación de Kendall 165 Cola: M/M/1 167 Notación universal 167 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 4 BIBLIOGRAFÍA DEL TEMARIO - MONTGOMERY, Douglas, HINES, William W. Probabilidad y Estadística para Ingeniería 4ta edición México CECSA, 2005 - DEVORE, Jay L. Probabilidad y Estadística para Ingeniería y Ciencias 8ª edición México Cengage Learning, 2011 - MENDENHALL, William, SINCICH, Terry Probabilidad y Estadística para Ingeniería y Ciencias 4ª edición México Pearson, 2000 BIBLIOGRAFÍA SUGERIDA - GUTIÉRREZ, Eduardo, VLADIMIROVNA, Olga Probabilidad y estadística. Aplicaciones a la ingeniería 1ª edición México Edición Patria, 2014 - GUTIÉRREZ, Eduardo, VLADIMIROVNA, Olga Estadística inferencial 1 para ingeniería y ciencias 1ª edición México Edición Patria, 2016 - WACKERLY, MENDENHALL, SCHEAFFER Estadística matemática con aplicaciones. 7ma edición HainesVille: Cengage Learning, 2009 - BRASE, Charles, BRASE, Corrinne Estadística Básica 1ª edición México Cengage, 2019 Comprar en: https://libreria-ditesa.com/vs-estadistica-basica-1ed.html Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 5 Tema 1. ESTADÍSTICA DESCRIPTIVA Objetivo: El alumno describirá las distintas formas en las que se puedenpresentar los datos de una muestra y calculará sus parámetros más significativos. Investigación básica y aplicada Investigación básica Investigación aplicada Elaborar una teoría de la superconductividad. Elaborar una teoría de la personalidad. Leyes de la electricidad. Leyes de la contabilidad. Ensayar materiales superconductivos. Construir un test en base a una teoría de la personalidad. Investigar los fenómenos que producen inflación para resolver los aumentos salariales. El método científico o método de investigación El método científico es el conjunto de postulados, reglas y normas para el estudio y solución de los problemas de investigación, institucionalizados por la denominada comunidad científica reconocida. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 6 Etapas del método científico EJEMPLO: Observación: Queremos estudiar si la velocidad de caída libre de los cuerpos depende de su masa. Para ello, dejamos caer, desde una misma altura un gis y una hoja de papel. Observamos que el gis llega mucho antes que el papel al suelo. Si medimos la masa del gis, vemos que éste es mayor que la masa del papel. Hipótesis: Podemos formular, como hipótesis, el siguiente razonamiento: "Cae con mayor velocidad el cuerpo que posee mayor masa". Experimentación: Si lanzamos el gis junto a una hoja de papel arrugada, vemos que llegan al suelo prácticamente al mismo tiempo. Si seguimos esta línea de investigación y lanzamos una hoja de papel arrugada y otra hoja sin arrugar desde la misma altura, vemos que la hoja arrugada llega mucho antes al suelo. M ét od o ci en tíf ic o Observación Examinar la naturaleza de los objetos. Hipótesis Suposición de una cosa posible, de la que se saca una consecuencia. Experimentación Verificación de la hipótesis. Conclusiones Comprobar si la hipótesis es correcta. Teoría Conocimiento especulativo Ley Es la regla constante Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 7 Conclusiones: A la vista de los resultados experimentales, se puede concluir que no es la masa la que determina que un objeto caiga antes que otro en la Tierra; más bien, será la forma del objeto la determinante. Como comprobación de nuestro resultado deducimos que nuestra hipótesis inicial era incorrecta. Tenemos, por EJEMPLO, el caso de un paracaidista: su masa es la misma con el paracaídas abierto y sin abrir; sin embargo, cae mucho más rápido si el paracaídas se encuentra cerrado. Teoría y Ley: A veces se repiten ciertas pautas en todos los hechos y fenómenos observados. En este caso puede enunciarse una ley. Una ley científica es la formulación de las regularidades observadas en un hecho o fenómeno natural. Por lo general, se expresa matemáticamente. Las leyes científicas se integran en teorías. Una teoría científica es una explicación global de una serie de observaciones y leyes interrelacionadas. ¿Qué es Estadística? La palabra estadística significa literalmente “ciencia del estado”, debido a que en sus inicios servía para proporcionar datos que fueran de interés para los gobernantes de una nación. En la actualidad la estadística es mucho más que eso. La estadística no solo proporciona datos, sino que los agrupa, analiza, interpreta y permite generar inferencias o conclusiones de una población a partir de los datos de una muestra. Estadística descriptiva: Estadística inferencial: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 8 La estadística en la investigación La estadística permite probar hipótesis planteadas por el experimentador, determina procedimientos prácticos para estimar parámetros que intervienen en modelos matemáticos y de esa manera construir ecuaciones empíricas. No existe investigación, proceso o trabajo encaminado a obtener información cuantitativa en general, en la que la estadística no tenga una aplicación. La estadística no puede ser ignorada por ningún investigador, aun cuando no tenga ocasión de emplear la estadística aplicada en todos sus detalles y ramificaciones. Por lo general, cuando la estadística se usa adecuadamente, hace más eficientes las investigaciones, por lo que es recomendable que todos los investigadores se familiaricen con ella El papel de la estadística en la investigación representa una poderosa herramienta en el diseño de investigaciones, en el análisis de datos y en la obtención de conclusiones a partir de ellos. La investigación científica se lleva a cabo cuando hay un problema, el cual debe ser resoluble y enunciado en forma de pregunta. La investigación tiene su origen entonces a la formulación de una o varias hipótesis como posibles soluciones al problema, la cual o las cuales se comprueban para determinar si son falsas o verdaderas. Estadística Permite probar hipótesis Representa una poderosa herramienta Determina procedimientos prácticos Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 9 Clasificación de la estadística Estadística descriptiva La estadística descriptiva trata de: a) Calcular medidas numéricas como medias, desviación estándar, etc. b) Agrupar datos con una tabla de distribución de frecuencias (t.d.f.) c) Presentar los datos en forma gráfica como histogramas, diagramas de caja, etc. Recopila, organiza y presenta datos para su estudio. Estadística Descriptiva Inferencial Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 10 Estadística inferencial La estadística inferencial incluye: a) Análisis (hacer estimación) y validación de los resultados. b) Interpretación de los resultados. c) Publicar resultados. Nos lleva hacia la toma de decisiones y conclusiones. Procedimientos inferenciales: Estimación puntual. Comprobación de hipótesis. Estimación mediante intervalos de confianza. Estadística paramétrica La estadística paramétrica estudia las pruebas y modelos en los que se conoce la distribución de la población bajo estudio, o que, por las condiciones del muestreo, se sabe la distribución que se debe utilizar para el análisis. Estadística no paramétrica La estadística no paramétrica estudia las pruebas y modelos cuando la distribución no puede ajustarse mediante la estadística paramétrica, esto ocurre generalmente cuando no se conoce la distribución poblacional. En la estadística no paramétrica también hay parámetros, pero no es de interés interpretarlos, solo modelar de la mejor forma el parámetro. La mayoría de las veces estos supuestos se refieren a la simetría o continuidad de la distribución poblacional. Dejan de lado el supuesto de normalidad en una población: Prueba de signo de Fisher (caso no paramétrico). Estadística Paramétrica No paramétrica Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 11 Estadística de una variable ¿Qué es una variable? Es cualquier característica cuyo valor puede cambiar de un objeto a otro en la población. EJEMPLO: X = marca de la calculadora de un estudiante. Y = número de visitas a un sitio web particular durante un periodo específico Z = la distancia de frenado de un automóvil en condiciones específicas. Una variable o varias variables La población y la muestra Población. Es cualquier grupo completo, ya sea de personas, animales o cosas. Es la totalidad de elementos o cosas bajo consideración. La población se refiere a un grupo finito de elementos. Muestra. Es una porción de la población que se selecciona para fines de análisis, siempre debe de ser representativa de la población. Estadística Una variable Varias variables N úm er o de v ar ia bl es Univariante. Observaciones realizadas en una sola variable. EJEMPLO: transmisión automática (A) o manual (M) en cada uno de diez automóvilesadquiridos. El conjunto de datos categóricos es M A A A M A A M A A Bivariante. Cuando se realizan observaciones en cada una de dos variables. EJEMPLO: (peso,altura) por cada integrante de un equipo de basquetbol, con la primera observación como (72, 168), la segunda (75, 212), etc. Multivariante. Cuando se realizan observaciones en más de una variable (bivariante es un caso especial de multivariante). EJEMPLO: un médico podría determinar la presión sanguínea sistólica, la presión sanguínea diastólica y el nivel de colesterol en suero de cada paciente. Cada observación sería una terna de número, tal como (120, 80, 146) Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 12 Relación entre la probabilidad y la estadística En un problema de probabilidad se supone que las propiedades de la población estudiada son conocidas y se pueden plantear y responder preguntas respecto a una muestra tomada de una población. En un problema de estadística inferencial el experimentador dispone de una muestra y esta información le permite sacar conclusiones respecto a la población. La relación entre las dos disciplinas se resume diciendo que la probabilidad discurre (o pasa) de la población a la muestra (razonamiento deductivo es de lo general a lo particular), mientras que la estadística inferencial lo hace de la muestra a la población (razonamiento inductivo es de lo particular a lo general). Generación de números aleatorios Los números “elegidos al azar” son útiles en diversas aplicaciones, entre las cuales se pueden mencionar: • Muestreo: con el fin de seleccionar datos de una población. • Análisis numérico: algunas técnicas para resolver problemas de análisis numérico complejos han sido desarrollados usando números aleatorios. • Programación: la generación de valores aleatorios puede ser útil para poner a prueba la efectividad de un algoritmo. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 13 Uso de Tabla de números aleatorios EJEMPLO. Generación de números aleatorios con la Tabla Suponga que se desea saber cuál es la edad promedio y su variabilidad, de acuerdo a su género, en una población (𝑵) de 330 habitantes de la ranchería Santa Rosa; se decide hacer una muestra (𝒏) de 14 debido a que no se cuenta con suficientes recursos económicos. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 14 PROCEDIMIENTO: Para que los individuos de la población (𝑵) tengan la posibilidad de pertenecer a la muestra (𝒏) deben tomarse 3 dígitos en la tabla de números aleatorios, eligiendo un punto de partida al azar o intencional; para este EJEMPLO se tomó como punto de partida el 133 (ver tabla columna 12 fila 7); a partir de ese valor se sigue la ruta para la búsqueda de los elementos de la muestra hacia la derecha, pero pudo haber sido hacia la izquierda o hacia abajo o hacia arriba. Respuesta: _______________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ Ejercicio es clase: Obtener una muestra aleatoria de tamaño 10 (𝒏 = 𝟏𝟎) de alumnos que estudian la materia de Fundamentos de Estadística del semestre 2017-2. Utilizar la lista de asistencia donde están numerados del 1 a 50. Preguntar a los alumnos su estatura y calcular el promedio. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 15 Muestreo probabilístico Muestreo probabilístico Aleatorio Si se selecciona un tamaño de muestra n de una población de tamaño N de tal manera que cada muestra tenga la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo aleatorio simple (m.a.s). EJEMPLO: una muestra de tamaño 100 de un marco de 1,000,000 de números de serie. Se pueden hacer papelitos y meterlos en una urna y después de revolverlos se sacan hasta obtener la muestra deseada. O se puede utilizar una tabla de números aleatorios o algún software. Muestreo probabilístico Sistemático Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k elementos en el marco y después cada k-ésimo elemento se denomina muestra sistemática. EJEMPLO: Una muestra de n nombres se selecciona de una larga lista. Se elige un intervalo apropiado y se seleccionan los nombres a intervalos iguales a lo largo de la lista. De este modo, cada décimo nombre podría seleccionarse, por EJEMPLO. Muestreo probabilístico Aleatorio Sistemático Estratificado Por conglomerados Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 16 Muestreo probabilístico Estratificado Una muestra aleatoria estratificada es la obtenida mediante la separación de los elementos de la población en grupos no solapados (no se traslapan), llamados estratos, y la selección posterior de una muestra irrestricta (ilimitada) aleatoria simple de cada estrato o por muestreo sistemático. Se sugiere que el tamaño de cada muestra sea proporcional a los tamaños de los estratos con respecto al tamaño poblacional. EJEMPLO: Un fabricante de DVD desea información sobre las unidades. Si se vendieron tres modelos diferentes, se seleccionaría una muestra distinta de cada uno de los estratos. Esto daría información de los tres modelos y ningún modelo estaría sobrerrepresentado o subrrepresentado en la muestra. Otro EJEMPLO. Supóngase que se selecciona una muestra de 2% de toda la población estudiantil de UPIICSA que tiene 12,500 alumnos. La muestra debe cumplir la condición de que exista al menos un representante de cada una de las carreras: administración industrial (4,200), ingeniería industrial (3,250), ingeniería en transporte (850), ingeniería en informática (1,700) y licenciatura en informática (2,500). Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 17 Los estratos contienen elementos de características similares. Muestreo probabilístico por Conglomerados Una muestra por conglomerados es una muestra aleatoria en la que cada unidad de muestreo es un conjunto o conglomerado de elementos. EJEMPLO: Un investigador desea estudiar el rendimiento académico de los estudiantes de secundaria en México. Divide a toda la población (México) en diferentes conglomerados (estados). Selecciona una serie de conglomerados a través de un muestreo aleatorio simple o sistemático. De los conglomerados seleccionados (ciudades seleccionadas al azar) el investigador puede incluir a todos los estudiantes secundarios como sujetos o seleccionar un número de sujetos de cada conglomerado a través de un muestreo aleatorio simple o sistemático. 1. Aguascalientes, Aguascalientes 2. Baja California, Mexicali 3. Baja California Sur, La Paz 4. Campeche, San Francisco de Campeche 5. Chihuahua, Chihuahua 6. Chiapas, Tuxtla Gutiérrez 7. Ciudad de México, Ciudad de México 8. Coahuila, Saltillo 9. Colima, Colima 10. Durango, Victoria de Durango 11. Guanajuato, Guanajuato 12. Guerrero, Chilpancingo de los Bravo 13. Hidalgo, Pachuca de Soto 14. Jalisco, Guadalajara 15. México, Toluca de Lerdo 16. Michoacán, Morelia 17. Morelos, Cuernavaca 18. Nayarit, Tepic 19. Nuevo León, Monterrey 20. Oaxaca, Oaxaca de Juárez 21. Puebla, Puebla de Zaragoza 22. Querétaro, Santiago de Querétaro 23. Quintana Roo, Chetumal 24. San Luis Potosí, San Luis Potosí 25. Sinaloa, Culiacán Rosales 26. Sonora, Hermosillo 27. Tabasco, Villahermosa 28. Tamaulipas, Ciudad Victoria 29. Tlaxcala, Tlaxcala de Xicohténcatl 30. Veracruz, Xalapa-Enríquez 31. Yucatán, Mérida 32. Zacatecas, Zacatecas Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 18 Los conglomerados contienen elementos con las mayores diferencias posibles. Técnicasde la estadística descriptiva Estadística descriptiva para datos no agrupados Medidas de tendencia central La media, la mediana, la moda y cuantiles Media (promedio aritmético) DEFINICIÓN: Sea un conjunto finito de datos muestrales 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 al valor que representa el promedio de los datos y se simboliza por 𝒙 (x barra o x testada) y se calcula: 𝒙 = 𝒙𝟏 + 𝒙𝟐 + ⋯ + 𝒙𝒏 𝒏 = 𝟏 𝒏 𝒙𝒊 𝒏 𝒊 𝟏 Estadística descriptiva Medidas numéricas Datos no agrupados Datos agrupados Tabla de distribución de frecuencias Gráficas Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 19 EJEMPLO de media EJEMPLO: Un fabricante de pistones toma una muestra aleatoria de 20 de estos para medir su diámetro interno promedio. Los diámetros en centímetros, que el fabricante obtuvo están dados a continuación. Calcule el diámetro medio de dichos pistones. Respuesta: Datos aberrantes Cuando se tienen datos aberrantes que se alejan considerablemente del resto de los demás valores, el valor promedio no refleja la realidad del caso. EJEMPLO: Supóngase que se quiere estimar el sueldo promedio de los trabajadores de una fábrica y se eligen aleatoriamente 10 de todos los trabajadores, 𝒙 = 𝟒, 𝟓𝟔𝟎 Donde 25,000 es un dato aberrante. Mediana DEFINICIÓN: La mediana de un conjunto de datos 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 es el valor central de los datos cuando estos se han ordenado en forma no decreciente en cuanto a su magnitud. Se denota por 𝒙 (x tilde). Se ordenan por medio de tildes de la siguiente forma: 𝒙𝟏 ≤ 𝒙𝟐 ≤ ⋯ ≤ 𝒙𝒏 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 20 Se calcula de la siguiente forma: 𝒙 = 𝒙𝒏 𝟏 𝟐 𝒄𝒖𝒂𝒏𝒅𝒐 𝒍𝒂 𝒄𝒂𝒏𝒕𝒊𝒅𝒂 𝒅𝒆 𝒅𝒂𝒕𝒐𝒔 𝒆𝒔 𝒊𝒎𝒑𝒂𝒓 𝒙𝒏 𝟐 + 𝒙𝒏 𝟐 𝟏 𝟐 𝒄𝒖𝒂𝒏𝒅𝒐 𝒍𝒂 𝒄𝒂𝒏𝒕𝒊𝒅𝒂𝒅 𝒅𝒆 𝒅𝒂𝒕𝒐𝒔 𝒆𝒔 𝒑𝒂𝒓 EJEMPLO: EJEMPLO de los sueldos. Encontrar la mediana de los salarios. Respuesta: La moda DEFINICIÓN: La moda de un conjunto de datos es el valor de estos que se presenta en su distribución con mayor frecuencia. No existe una notación estándar por lo que se puede emplear 𝑴 o 𝒙𝑴𝑶. EJEMPLO: En la siguiente lista se muestran las calificaciones de 20 exámenes de lingüística. Encuentre la moda de las calificaciones. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 21 Respuesta: La moda presenta los siguientes problemas: La moda puede no existir. Cuando esto sucede se llama amodal o sin moda. La moda puede no ser la única. Se le llama multimodal, bimodal si son dos modas, trimodal si son tres, etc. Cuantiles Percentiles o centiles, cuartiles, deciles. DEFINICIÓN: Dado un conjunto de datos, se llama 𝑪 𝒄𝒖𝒂𝒏𝒕𝒊𝒍 a la cantidad 𝑪𝒑, que representa el número para el cual la fracción 𝑪 ∈ [𝟎, 𝟏] de los valores son menores o iguales a este. Algunos valores para ciertos cuantiles son: Cuando 𝑪 está dado en porcentaje se nombra 𝑪 𝒑𝒆𝒓𝒄𝒆𝒏𝒕𝒊𝒍 o 𝒑𝒆𝒓𝒄𝒆𝒏𝒕𝒊𝒍 o 𝑪 𝒄𝒆𝒏𝒕𝒊𝒍. Cuando se trata de 0, 0.25, 0.50 y 0.75 cuantiles (o percentil 0, 25, 50 y 75%) se llaman el 0 cuartil, primer cuartil, segundo cuartil y el tercer cuartil, respectivamente. Cuando se trata de 𝟎. 𝟏𝟎, 𝟎. 𝟐𝟎, 𝟎. 𝟑𝟎, … cuantiles se suele llamar el primer decil, segundo decil, tercer decil, etcétera, respectivamente. Regla para buscar al 𝑪 𝒄𝒖𝒂𝒏𝒕𝒊𝒍 en un conjunto de datos 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 (𝒏 datos no agrupados): 1. Se ordenan los datos en forma no decreciente, 𝒙𝟏 ≤ 𝒙𝟐 ≤ ⋯ ≤ 𝒙𝒏. 2. Determinar el valor de la fracción 𝑪 de los 𝒏 datos; es decir, 𝒄 = 𝒏𝑪. 3. 3. Dependiendo del valor de 𝒄, resulta: a) Si la cantidad anterior es entera, entonces 𝑪𝒄𝒖𝒂𝒏𝒕𝒊𝒍 = 𝒙𝒄 𝒙𝒄 𝟏 𝟐 b) Si 𝒄 no es entero, entonces 𝑪𝒄𝒖𝒂𝒏𝒕𝒊𝒍 = 𝒙[𝒄] 𝟏. Donde [𝒄] representa la parte entera de 𝒄. Por EJEMPLO, si 𝒄 = 𝟐𝟒. 𝟕, [𝒄] = 𝟐𝟒, si 𝒄 = 𝟐𝟒. 𝟐, [𝒄] = 𝟐𝟒. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 22 EJEMPLO: Sean las calificaciones de 20 estudiantes. a) Calcular el cuantil 0.65. b) Calcular el cuantil 0.42. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 23 Medidas de dispersión Rango, varianza y desviación estándar Cuando el cálculo de las medidas centrales no es suficiente. EJEMPLO: Si un conjunto de datos tiene los valores 20, 12, 15, 16, 13 y 14; un segundo conjunto los valores 5, 0, 50, 17, 8 y 10, vemos que ambos tienen un promedio de 15 (𝒙 = 𝟏𝟓). El segundo conjunto tiene una mayor dispersión. Distribución de los datos del primer conjunto Distribución de los datos del segundo conjunto Rango DEFINICIÓN: Se denota por 𝒓 y es una medida variacional de los datos que lo único que indica es el tamaño o longitud del intervalo en el que estos se encuentran distribuidos y se calcula: 𝑹𝒂𝒏𝒈𝒐 = 𝑬𝒍 𝒗𝒂𝒍𝒐𝒓 𝒎𝒂𝒚𝒐𝒓 𝒎𝒆𝒏𝒐𝒔 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒎𝒆𝒏𝒐𝒓 𝒅𝒆 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔 EJEMPLO: Para los datos anteriores se tiene que Varianza DEFINICIÓN: Sean 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 los valores de una muestra aleatoria con 𝒏 datos y 𝒙 el valor medio, llamaremos 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒔𝒆𝒔𝒈𝒂𝒅𝒂: 𝒔𝒏 𝟐 = 𝟏 𝒏 (𝒙𝒊 − 𝒙) 𝟐 𝒏 𝒊 𝟏 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒊𝒏𝒔𝒆𝒔𝒈𝒂𝒅𝒂: 𝒔𝒏 𝟏 𝟐 = 𝟏 𝒏 − 𝟏 (𝒙𝒊 − 𝒙) 𝟐 𝒏 𝒊 𝟏 Donde (𝒙𝟏 − 𝒙)𝟐, (𝒙𝟐 − 𝒙)𝟐, 𝒆𝒕𝒄. son los cuadrados de las desviaciones de cada uno de los datos con respecto a su valor medio. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 24 La varianza sesgada o poblacional 𝒔𝒏𝟐 es el promedio de los cuadrados de las desviaciones y se usa en el estudio de las probabilidades. La varianza insesgada o muestral 𝒔𝒏 𝟏 𝟐 se usa más en los cálculos estadísticos y se usa en las muestras, de ahí su nombre de varianza muestral. Desviación estándar DEFINICIÓN: Se llama desviación estándar de un conjunto de datos a la raíz cuadrada positiva de la varianza, esta dependerá del tipo de varianza que se esté empleando (𝒔𝒏 o 𝒔𝒏 𝟏). EJEMPLO: Calcular 𝒔𝒏 𝟏 𝟐 y 𝒔𝒏 𝟏 para los dos conjuntos dados anteriormente. Primer conjunto: 20, 12, 15, 16, 13 y 14. Segundo conjunto: 5, 0, 50, 17, 8 y 10. Respuesta: Se intuye que el primer conjunto de datos es más homogéneo que el segundo. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 25 DEFINICIÓN: Otras formas equivalentes de calcular las varianzas son: 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒔𝒆𝒔𝒈𝒂𝒅𝒂 𝒐 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 : 𝒔𝒏 𝟐 = 𝟏 𝒏 𝒙𝒊 𝟐 − 𝒙𝟐 𝒏 𝒊 𝟏 = 𝒏 − 𝟏 𝒏 𝒔𝒏 𝟏 𝟐 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒊𝒏𝒔𝒆𝒔𝒈𝒂𝒅𝒂 𝒐 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍: 𝒔𝒏 𝟏 𝟐 = 𝟏 𝒏 − 𝟏 𝒙𝒊 𝟐 𝒏 𝒊 𝟏 − 𝒏 𝒏 − 𝟏 𝒙𝟐 = 𝒏 𝒏 − 𝟏 𝒔𝒏 𝟐 Medidas de tendencia central y dispersión en R: Medidas de forma Coeficiente de sesgo o de asimetría y curtosis Coeficiente de sesgo o de asimetría DEFINICIÓN: Sean 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 datos con media 𝒙 y desviación estándar muestral 𝒔𝒏 𝟏, entonces se llama coeficiente de sesgo o coeficiente de asimetría a la medida que representa el grado de asimetría de la gráfica y lo denotaremos por 𝑪𝑨, y se usan dos fórmulas para el cálculo: 𝑪𝑨𝟏 = 𝒏 (𝒏 − 𝟏)(𝒏 − 𝟐) 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟑𝒏 𝒊 𝟏 𝑪𝑨𝟐 = 𝒎𝟑 (𝒔𝒏 𝟏) 𝟑 = 𝟏 𝒏 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟑𝒏 𝒊 𝟏 Donde, 𝒎𝟑 = 𝟏 𝒏 ∑ (𝒙𝒊 − 𝒙) 𝟑𝒏 𝒊 𝟏 es el tercer momento respecto al origen, y 𝒔𝒏 𝟏 es la desviación estándar correspondiente a la varianza insesgada o muestral. El 𝑪𝑨 caracteriza el grado de alejamiento de los datos con respecto a su media y generalmente se encuentra entre -4 y 4. 𝑪𝑨= 𝟎, 𝒍𝒂 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒄𝒊ó𝒏 𝒅𝒆 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔 𝒆𝒔 𝒔𝒊𝒎é𝒕𝒓𝒊𝒄𝒂 < 𝟎, 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔 𝒆𝒔𝒕á𝒏 𝒔𝒆𝒔𝒈𝒂𝒅𝒐𝒔 𝒂 𝒍𝒂 𝒊𝒛𝒒𝒖𝒊𝒆𝒓𝒅𝒂 > 𝟎, 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔 𝒆𝒔𝒕á𝒏 𝒔𝒆𝒔𝒈𝒂𝒅𝒐𝒔 𝒂 𝒍𝒂 𝒅𝒆𝒓𝒆𝒄𝒉𝒂 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 26 Asimétrica a la izquierda o sesgo negativo cumple 𝒙 ≤ 𝒙 ≤ 𝑴. Y asimétrica a la derecha o sesgo positivo cumple 𝑴 ≤ 𝒙 ≤ 𝒙. Cuando es insesgado o simétrica 𝑴 = 𝒙 = 𝒙. De forma gráfica: EJEMPLO: Calcular 𝑪𝑨 para los datos referentes a la estatura de 50 estudiantes del IPN. Ver siguiente tabla. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 27 Coeficiente de sesgo o asimetría en R: Curtosis DEFINICIÓN: Sean 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏, 𝒏 datos con media 𝒙 y desviación estándar muestral 𝒔𝒏 𝟏, entonces llamamos curtosis a la medida que representa el achatamiento relativo de la distribución de los datos al compararse con la distribución normal. En la literatura se encuentran diferentes fórmulas para su cálculo, 𝑪𝑼𝟏 = 𝒏(𝒏 + 𝟏) (𝒏 − 𝟏)(𝒏 − 𝟐)(𝒏 − 𝟑) 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟒𝒏 𝒊 𝟏 − 𝟑(𝒏 − 𝟏)𝟐 (𝒏 − 𝟐)(𝒏 − 𝟑) 𝑪𝑼𝟐 = 𝒏(𝒏 + 𝟏) (𝒏 − 𝟏)(𝒏 − 𝟐)(𝒏 − 𝟑) 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟒𝒏 𝒊 𝟏 𝑪𝑼𝟑 = 𝒎𝟒 (𝒔𝒏 𝟏) 𝟒 − 𝟑 = 𝟏 𝒏 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟒𝒏 𝒊 𝟏 − 𝟑 𝑪𝑼𝟒 = 𝒎𝟒 (𝒔𝒏 𝟏) 𝟒 = 𝟏 𝒏 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟒𝒏 𝒊 𝟏 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 28 Las fórmulas son: 𝑪𝑼𝟏 𝒐 𝑪𝑼𝟑 = 𝟎, 𝒑𝒂𝒓𝒂 𝒍𝒂 𝒏𝒐𝒓𝒎𝒂𝒍, 𝒔𝒆 𝒍𝒍𝒂𝒎𝒂 𝒎𝒆𝒔𝒐𝒄ú𝒓𝒕𝒊𝒄𝒂 < 𝟎, 𝒎𝒆𝒏𝒐𝒔 𝒂𝒑𝒖𝒏𝒕𝒂𝒅𝒂 𝒒𝒖𝒆 𝒍𝒂 𝒏𝒐𝒓𝒎𝒂𝒍, 𝒑𝒍𝒂𝒕𝒊𝒄ú𝒓𝒕𝒊𝒄𝒂 > 𝟎, 𝒎á𝒔 𝒂𝒑𝒖𝒏𝒕𝒂𝒅𝒂 𝒒𝒖𝒆 𝒍𝒂 𝒏𝒐𝒓𝒎𝒂𝒍, 𝒍𝒆𝒑𝒕𝒐𝒄ú𝒓𝒕𝒊𝒄𝒂 𝑪𝑼𝟐 𝒐 𝑪𝑼𝟒 = 𝟑, 𝒑𝒂𝒓𝒂 𝒍𝒂 𝒏𝒐𝒓𝒎𝒂𝒍, 𝒔𝒆 𝒍𝒍𝒂𝒎𝒂 𝒎𝒆𝒔𝒐𝒄ú𝒓𝒕𝒊𝒄𝒂 < 𝟑, 𝒎𝒆𝒏𝒐𝒔 𝒂𝒑𝒖𝒏𝒕𝒂𝒅𝒂 𝒒𝒖𝒆 𝒍𝒂 𝒏𝒐𝒓𝒎𝒂𝒍, 𝒑𝒍𝒂𝒕𝒊𝒄ú𝒓𝒕𝒊𝒄𝒂 > 𝟑, 𝒎á𝒔 𝒂𝒑𝒖𝒏𝒕𝒂𝒅𝒂 𝒒𝒖𝒆 𝒍𝒂 𝒏𝒐𝒓𝒎𝒂𝒍, 𝒍𝒆𝒑𝒕𝒐𝒄ú𝒓𝒕𝒊𝒄𝒂 En forma gráfica: EJEMPLO: Para los datos del EJEMPLO referente a la estatura de 50 estudiantes del IPN. Respuesta 𝑪𝑼𝟏 = 𝒏(𝒏 + 𝟏) (𝒏 − 𝟏)(𝒏 − 𝟐)(𝒏 − 𝟑) 𝒙𝒊 − 𝒙 𝒔𝒏 𝟏 𝟒𝒏 𝒊 𝟏 − 𝟑(𝒏 − 𝟏)𝟐 (𝒏 − 𝟐)(𝒏 − 𝟑) 𝑪𝑼𝟏 = 𝟓𝟎(𝟓𝟎 + 𝟏) (𝟓𝟎 − 𝟏)(𝟓𝟎 − 𝟐)(𝟓𝟎 − 𝟑) 𝒙𝒊 − 𝟏𝟕𝟑. 𝟐𝟎𝟒 𝟓. 𝟗𝟓𝟓𝟒 𝟒𝒏 𝒊 𝟏 − 𝟑(𝟓𝟎 − 𝟏)𝟐 (𝟓𝟎 − 𝟐)(𝟓𝟎 − 𝟑) 𝑪𝑼𝟏 = 𝟓𝟎(𝟓𝟎 + 𝟏) (𝟓𝟎 − 𝟏)(𝟓𝟎 − 𝟐)(𝟓𝟎 − 𝟑) 𝟏𝟑𝟐. 𝟕𝟖𝟒 − 𝟑(𝟓𝟎 − 𝟏)𝟐 (𝟓𝟎 − 𝟐)(𝟓𝟎 − 𝟑) = _____________ Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 29 Curtosis en R: Tablas de distribución de frecuencias Tipos de tablas de distribución de frecuencias Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 30 Intervalos de clase o clases de frecuencia: Se utiliza la notación de Cálculo para los intervalos abiertos y cerrados. No puede existir traslape en ningún intervalo. Marcas de clase: Es el punto medio de una clase. Se considera como el valor representativo de un intervalo. Se obtienen promediando los límites de un intervalo. Se denota por 𝒙𝒊. EJEMPLO: Si los datos de una muestra son: 1, 9, 5, 8, 4, 1, 2, 7, 6, 3, 3, 2, 7, 9; entonces al agrupar por intervalos se obtienen las siguientes frecuencias. Frecuencia: Es el número de elementos en la muestra o en la población que pertenecen a la clase en cuestión. Se denota por 𝒇𝒊. Frecuencia acumulada: Es el número de datos en la muestra o población, que son menores o iguales que el límite superior del intervalo en cuestión. Se denota por 𝑭𝒊, y se obtiene sumando la frecuencia del intervalo actual y de los intervalos anteriores. Frecuencia relativa: Es la proporción de datos que pertenecen a la clase en cuestión. Se denota por 𝒇𝒊 ∗. Es el cociente de la frecuencia entre el número total de datos, esto es: 𝒇𝒊 ∗ = 𝒇𝒊 𝒏 . Para la tabla del ejemplo si 𝒏 = 𝟏𝟒, entonces: Frecuencia acumulada relativa: Es la proporción de los datos en la muestra o población que son menores o iguales al límite superior de la clase en cuestión. Se denota por 𝑭𝒊 ∗. Es el cociente de la frecuencia acumulada entre el número de datos: 𝑭𝒊 ∗ = 𝑭𝒊 𝒏 . Del ejemplo: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 31 Longitud de clase: Es la diferencia entre el límite superior y el inferior de una misma clase. Se denota por 𝒄. Cualquier tabla que contenga una columna de intervalo y una columna de frecuencias, es una tabla de distribución de frecuencias. Construcción de una tabla de distribución de frecuencias completa El número de clases estará entre 5 y 20. La primera aproximación del número de clases se obtendrá con √𝑛. Todas las clases serán de la misma longitud (𝑐). La longitud de clase se aproxima mediante: 𝒄 = 𝑹𝒂𝒏𝒈𝒐 𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔 Donde: 𝑹𝒂𝒏𝒈𝒐 = 𝑴𝒂𝒚𝒐𝒓 𝒗𝒂𝒍𝒐𝒓 𝒆𝒏 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔 − 𝒎𝒆𝒏𝒐𝒓 𝒗𝒂𝒍𝒐𝒓 𝒆𝒏 𝒍𝒐𝒔 𝒅𝒂𝒕𝒐𝒔 Posteriormente se ajusta de manera conveniente, de forma que el primer límite inferior sea ligeramente menor o igual que el menor valor, y el último límite superior sea ligeramente mayor o igual que el mayor dato. Tratará de evitarse que haya clases con frecuencia cero. La primera y última clase nunca tendrán frecuencia cero. EJEMPLO: Los siguientes valores representan el tiempo diario de transporte de una muestra de 50 alumnos de cierta universidad al sur de Copilco. Construir una tabla de distribución de frecuencias completa. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 32 EJEMPLO. Considere las calificaciones (con escala de 0 a 100) de 80 estudiantes de la materia de física, distribuir en 7 intervalos de clase las calificaciones y construya una tabla de distribución de frecuencias completa. Tabla de distribución de frecuencias en R: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 33 Datos agrupados Medidas de tendencia central y de dispersión para datos agrupados Si los datos están “perdidos” Media para datos agrupados DEFINICIÓN: Para datos agrupados 𝒙 = 𝟏 𝒏 𝒙𝒊𝒇𝒊 𝒎 𝒊 𝟏 Donde la suma va desde 1 hasta 𝒎, donde 𝒎 es el número de intervalos, y 𝒙𝒊 y 𝒇𝒊 son la marca de clase y la frecuencia del intervalo, respectivamente. EJEMPLO: Calcular la media por clases de frecuencia referente a las 80 calificaciones de estudiantes en la materia de física. Respuesta: Mediana para datos agrupados DEFINICIÓN: Cuando los datos están agrupados se realiza una interpolación lineal utilizando las fronteras, los límites de clase o intervalos y la frecuencia acumulada, para encontrar el valor de 𝒙 en el cual la frecuencia acumulada es de 𝒏 𝟐 . 𝒙 = 𝑳 + 𝒏 𝟐 − 𝑭𝒊 𝟏 𝒇𝒊 𝐜 Donde: 𝑳 = es el límite inferior de la clase que contiene a la mediana. 𝒏 = es el número total de los datos. 𝑭𝒊 𝟏 = es la frecuencia acumulada de la clase 𝒊 − 𝟏. 𝒄 = es la longitud de la clase. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 34 EJEMPLO: Para el ejemplo de las calificaciones de física calcular la mediana para datos agrupados. Respuesta: Con la fórmula y gráficamente. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 35 Moda para datos agrupados DEFINICIÓN: Para datos agrupados primero se define la clase modal, que es la clase que tiene la mayor frecuencia. La moda se calcula con la siguiente fórmula: 𝑴 = 𝑳 + 𝒅𝟏 𝒅𝟏 + 𝒅𝟐 𝐜 Donde: 𝑳 = es la frontera o límite inferiorde la clase modal. 𝒅𝟏 = es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior. 𝒅𝟐 = es la diferencia en la frecuencia de la clase modal y la frecuencia de la clase siguiente. 𝒄 = es la longitud de la clase. EJEMPLO: Calcular la moda para el ejemplo de las 80 calificaciones de física. Respuesta: Rango para datos agrupados DEFINICIÓN: Para datos agrupados se utilizan los límites mayor y menor. Es común no realizar la operación de resta y solamente indicarla. EJEMPLO: Calcular el rango para nuestro ejemplo de las calificaciones de física. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 36 Varianza para datos agrupados DEFINICIÓN: Para la varianza sesgada por clases se calcula 𝒔𝒏 𝟐 = 𝟏 𝒏 (𝒙𝒊 − 𝒙) 𝟐𝒇𝒊 𝒎 𝒊 𝟏 Y la varianza insesgada por clases se calcula 𝒔𝒏 𝟏 𝟐 = 𝟏 𝒏 − 𝟏 (𝒙𝒊 − 𝒙) 𝟐𝒇𝒊 𝒎 𝒊 𝟏 EJEMPLO: Para nuestro ejemplo de las calificaciones de física. Respuesta: Resolviendo para: 𝒔𝒏𝟐 = 𝟏 𝒏 ∑ (𝒙𝒊 − 𝒙) 𝟐𝒇𝒊 𝒎 𝒊 𝟏 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 37 Gráficos Histograma DEFINICIÓN: Gráfica de barras rectangulares cuyas bases están centradas en la marca de clase del intervalo. Formas de un histograma Un histograma unimodal es el que se eleva a una sola cresta y luego declina. Uno bimodal tiene dos crestas diferentes. Un histograma con más de dos crestas es multimodal. Histograma de frecuencias en Excel EJEMPLO: Tiempo diario de transporte de 50 alumnos de cierta universidad al sur de Copilco Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 38 Histograma en R Histograma en R Polígono de frecuencia DEFINICIÓN: Se realizan trazando los puntos que representan las frecuencias o frecuencias relativas y uniéndolos mediante segmentos. EJEMPLO: Para nuestro ejemplo de las calificaciones de física. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 39 Polígono de frecuencia en R Ojivas DEFINICIÓN: Se dibuja utilizando los intervalos contra las frecuencias acumuladas (o acumulada relativa). La ojiva indica, para cada intervalo, los elementos (o proporción de elementos), que son menores o iguales que dicho límite. EJEMPLO: Para nuestro ejemplo de las calificaciones de física. Ojivas de frecuencia acumulada y frecuencia acumulada relativa en R Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 40 Gráfica o diagrama de tallo y hojas (o de árbol) DEFINICIÓN: Consiste en separar los números en dos partes, por ejemplo decenas y unidades. Pasos para hacer una gráfica de tallos y hojas. 1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundos dígitos se convierten en hojas. 2. Enumere los posibles valores de tallos en una columna vertical. Se recomienda entre 5 y 10 tallos. 3. Anote la hoja para cada observación junto al correspondiente valor de tallo. 4. Indique las unidades para tallos y hojas en algún lugar de la gráfica. EJEMPLO: Vida media de una película fotográfica Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 41 Otro ejemplo de gráfica de tallos y hojas El siguiente diagrama de tallos y hojas muestra las emisiones por persona de dióxido de carbono. El tallo es el primer dígito con el punto decimal y la hoja es el dígito restante. Los datos son: 0.3, 0.7, 2.6, 2.6, 2.8, 3.0, 5.2 y 5.4. Gráfica o diagrama de tallo y hojas (o de árbol) en R Diagrama de caja DEFINICIÓN: Presenta los tres cuartiles, así como los datos mínimo y máximo, en una caja rectangular alineada horizontal o verticalmente. La caja encierra el rango intercuartil con la línea izquierda (o inferior) en el primer cuartil, y la línea derecha (o superior) en el tercer cuartil. Se dibuja una línea a través de la caja en el segundo cuartil que es igual a la mediana. Una línea se extiende a los valores extremos. EJEMPLO: Para nuestro ejemplo de las calificaciones de física Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 42 Diagrama de caja en R Es útil para comparar dos o más muestras. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 43 Tema 2. CONCEPTOS BÁSICOS DE INFERENCIA ESTADÍSTICA Objetivo: El alumno describirá los conceptos más usuales de la inferencia estadística. Definiciones ESTADÍSTICA INFERENCIAL: Es la parte de la estadística que trabaja con muestras, a partir de las cuales pretende inferir aspectos relevantes de toda la población. ESTADÍSTICOS Y PARÁMETROS: Son la base para el desarrollo de la estadística inferencial. El ESTADÍSTICO es un valor numérico que expresa una característica de una muestra. Ejemplo: 𝑿. El PARÁMETRO es un valor numérico que expresa una característica de una población. Ejemplo: 𝝁. EJEMPLO: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 44 El proceso de una investigación estadística Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 45 A menudo necesitamos estimar los siguientes parámetros La media μ de una sola población La varianza σ2 (o desviación estándar de σ) de una sola población La proporción de p artículos en una población que pertenece a la clase de interés La diferencia entre las medias de dos poblaciones, es decir, μ1-μ2 La diferencia entre dos proporciones de población, p1-p2 ESTADÍSTICO: Cualquier función que se obtenga de las variables aleatorias correspondientes a una muestra aleatoria, pero que 𝒏𝒐 𝒄𝒐𝒏𝒕𝒆𝒏𝒈𝒂 𝒂𝒍𝒈ú𝒏 𝒑𝒂𝒓á𝒎𝒆𝒕𝒓𝒐 (𝜽). ¿Son estadísticos? EJEMPLO: Sean 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 vv.aa. con función de densidad 𝒇(𝒙, 𝜽) donde 𝜽 es el parámetro de la distribución. a) 𝑻(𝑿) = 𝑿 = 𝟏 𝒏 ∑ 𝑿𝒊 𝒏 𝒊 𝟏 d) 𝑻(𝑿) = ∑ (𝑿𝒊 − 𝟓)𝟐 𝒏 𝒊 𝟏 b) 𝑻(𝑿) = 𝟏 𝒏 ∑ 𝑿𝒊 𝟑𝒏 𝒊 𝟏 e) 𝑻(𝑿) = ∑ (𝑿𝒊 − 𝜽)𝟐 𝒏 𝒊 𝟏 c) 𝑻(𝑿) = 𝟏 𝒏 ∑ (𝑿𝒊 − 𝑿) 𝟔𝒏 𝒊 𝟏 f) 𝑻(𝑿) = 𝜽 + ∑ 𝑿𝒊 𝟑𝒏 𝒊 𝟏 Muestra aleatoria MUESTREO ALEATORIO SIMPLE: Se dice que las variables aleatorias 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 obtenidas del proceso de muestreo de una población forman una muestra aleatoria simple de tamaño 𝒏, si son independientes e idénticamente distribuidas (ii.ii.dd.). Independientes significa que el valor que toma una de las variables no afecta al valor que podrán tomar el resto de las variables; mientras que idénticamente distribuidas son variables extraídas de la misma población. Antes nos referimos a 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 como una muestra (no como muestra aleatoria), ya que 𝒙𝒊 no es más que un valor de la variable 𝑿𝒊, para 𝒊 = 𝟏, 𝟐, … , 𝒏 las cuales si pueden formar una muestra aleatoria. Realización DEFINICIÓN: Sea 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 una muestra aleatoria simple de tamaño 𝒏 obtenida de una población, se le denomina realización de la muestra a los valores 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏, donde 𝒙𝒊 es un valor de la variable 𝑿𝒊, para 𝒊 = 𝟏, 𝟐, … , 𝒏. Cuando se hace referencia a los valores de 𝑢𝑛𝑎 𝑠𝑜𝑙𝑎 𝑟𝑒𝑎𝑙𝑖𝑧𝑎𝑐𝑖ó𝑛 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 sus medidas como la media y varianza son 𝒙 = 𝟏 𝒏 ∑ 𝒙𝒊 𝒏 𝒊 𝟏 y 𝒔𝒏 𝟏 𝟐 = 𝟏 𝒏 𝟏 ∑ (𝒙𝒊 − 𝒙) 𝟐𝒏 𝒊 𝟏 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 46 EJEMPLO: Si elegimos la realización de una muestra para cuatro refrigeradores (duración en años) 𝒙𝟏 = 𝟒 + 𝟒. 𝟏 + 𝟓 + 𝟑. 𝟖 𝟒 = 𝟒. 𝟐𝟐𝟓 𝒂ñ𝒐𝒔Se elige una segunda realización 𝒙𝟐 = 𝟓. 𝟐 + 𝟔. 𝟒 + 𝟕 + 𝟓. 𝟗 𝟒 = 𝟔. 𝟏𝟐𝟓 𝒂ñ𝒐𝒔 La media muestral varía de realización en realización, por lo que 𝒙 es un valor de 𝑿 (llamado estadístico). Estadísticos comunes Media muestral. Sea una muestra aleatoria 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏, el estadístico media es: 𝑿 = 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 𝒏 = 𝟏 𝒏 𝑿𝒌 𝒏 𝒌 𝟏 Diferencia de medias. Sean dos muestras aleatorias 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 y 𝒀𝟏, 𝒀𝟐, … , 𝒀𝒏 independientes, el estadístico de la diferencia de medias es 𝑿 − 𝒀 Varianza insesgada. Sea una muestra aleatoria 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏, el estadístico varianza es: 𝑺𝒏 𝟏 𝟐 = 𝟏 𝒏 − 𝟏 (𝑿𝒊 − 𝑿) 𝟐 𝒏 𝒊 𝟏 = 𝟏 𝒏 − 𝟏 𝑿𝒊 𝟐 𝒏 𝒊 𝟏 − 𝒏 𝒏 − 𝟏 𝑿𝟐 Proporción. Sea una muestra aleatoria 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 de distribuciones Bernoulli, el estadístico para las proporciones es 𝒑 = 𝑿 = 𝑻 𝒏 Donde: 𝑻 = 𝑿𝟏 + 𝑿𝟐 + … , +𝑿𝒏 = 𝑿𝒊 𝒏 𝒊 𝟏 que representa la cantidad de éxitos de la muestra y tiene una distribución binomial. EJEMPLO: Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que genera la máquina A a los que genera la máquina B? Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 47 Distribuciones muestrales DEFINICIÓN: Son las distribuciones de los estadísticos o estimadores de los parámetros de la población que son variables aleatorias al ser funciones de una muestra aleatoria y se representan como las variables aleatorias: 𝑋, 𝑆 , etc. Distribuciones muestrales para la media y la varianza. Distribuciones muestrales en R Demostración de los estadísticos muestrales Distribución muestral para la media. (Normal) Distribución muestral para la diferencia de medias. Distribución muestral para la proporción Distribución muestral para la diferencia de proporciones. Distribución muestral para la varianza. Distribución muestral para razón de varianzas. Distribución muestral para la media. (t-Student) TCL Empiezan demostraciones Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 48 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 49 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 50 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 51 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 52 Teorema central del límite (TCL) TEOREMA CENTRAL DEL LÍMITE (TCL) para la media Sean 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 las variables de una muestra aleatoria (i.i.d.) de una distribución con valor medio 𝝁𝑿 y varianza 𝝈𝑿 𝟐 , La v.a. 𝑿 definida como 𝑿 = 𝟏 𝒏 ∑ 𝑿𝒊 𝒏 𝒊 𝟏 𝑿~𝑵 𝝁𝑿 = 𝝁𝑿, 𝝈𝑿 = 𝝈𝑿 √𝒏 tiene una distribución que converge a la normal cuando 𝒏 → ∞. En la práctica con un tamaño de muestra 𝒏 ≥ 𝟑𝟎 el teorema da buenas aproximaciones. 𝒁 = 𝑿 − 𝝁𝑿 𝝈𝑿 = 𝑿 − 𝝁𝑿 𝝈𝑿 √𝒏 Cuando la población que estamos muestreando es normal, la distribución de 𝑿 es una distribución normal sin importar el tamaño de 𝒏. Pero en general las vv.aa. pueden tener cualquier distribución, en estos casos se utiliza el TCL: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 53 Suponga que se tira un dado balanceado n=1 vez. La v.a. X es el número observado en la cara superior. Esta v.a. toma 6 valores, cada uno con probabilidad 1/6. La forma de la distribución es uniforme y simétrica alrededor de la media 3.5 y desviación estándar 1.71. Demostración: simulación en Excel ¿Cómo calcular probabilidades? Distribución Normal Carl Friedrich Gauss nació en Brunswick, en 1777, y murió en Gotinga, en 1855 (Alemania). Matemático, astrónomo y físico alemán, autor de una gran cantidad de trabajos acerca de mecánica celeste, geodesia, magnetismo, electromagnetismo y óptica. Su concepción moderna de la naturaleza abstracta de las matemáticas le permitió ampliar el campo de los números. Fue el primero en descubrir la geometría hiperbólica no euclidiana. Modelo normal Es uno de los modelos continuos con mayor aplicación en la probabilidad y la estadística. Esta distribución fue descubierta por Carl Friedrich Gauss. La representación gráfica de la distribución normal tiene forma de campana. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 54 Propiedades de la distribución normal estándar a) Propiedad de simetría. La función 𝒇(𝒛) es simétrica con respecto con respecto al eje de las ordenadas. Es decir, 𝑷(𝒁 < −𝒁𝟎) = 𝑷(𝒁 > 𝒁𝟎). b) Propiedad del complemento. En los casos de 𝑷(𝒁 > 𝒁𝟎) se puede emplear la simetría, inciso a), o el complemento. Es decir, 𝑷(𝒁 > 𝒁𝟎) = 𝟏 − 𝑷(𝒁 ≤ 𝒁𝟎). c) 𝑷(−𝟏 < 𝒁 < 𝟏) = 𝟎. 𝟔𝟖𝟐𝟕 d) 𝑷(−𝟐 < 𝒁 < 𝟐) = 𝟎.9545 e) La suma de las probabilidades fuera del intervalo (−𝟒, 𝟒), no puede ser mayor a 0.0001, es decir, valen cero. Uso de tablas de la función acumulada En la tabla, la función acumulada se representa por medio de la función 𝜱(𝒛). También se tiene el cálculo de probabilidades en intervalos simétricos: 𝑫(𝒛𝟎) = 𝜱(𝒛𝟎) − 𝜱(−𝒛𝟎) En las tablas, los bloques están divididos en cuatro columnas: 𝒁 de centésima en centésima de 0 a 3.59, función acumulada hasta −𝒁, función acumulada hasta 𝒁 e intervalos simétricos con extremos −𝒁 y 𝒁. El cálculo de probabilidades se realiza de la siguiente forma: 1. 𝑷(𝒁 < 𝒁𝟎) = 𝜱(𝒁𝟎) Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 55 2. 𝑷(𝒁 > 𝒁𝟎) = 𝑷(𝒁 < −𝒁𝟎) = 𝜱(−𝒁𝟎) 3. 𝑷(−𝒁𝟎 < 𝒁 < 𝒁𝟎) = 𝑫(𝒁𝟎) 4. 𝑷(𝒂 < 𝒁 < 𝒃) = 𝜱(𝒃) − 𝜱(𝒂) EJEMPLO 1: 𝑷(𝒁 < ) = 𝜱( )=_____________ EJEMPLO 2: 𝑷(𝒁 < ) = 𝜱( ) = ____________________ Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 56 EJEMPLO 3: EJEMPLO 4: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 57 EJEMPLO 5: EJEMPLO 6: Si 𝑿 es una variable aleatoria continua con distribución normal. Si 𝑬(𝑿) = 𝟒 y 𝑽(𝑿) = 𝟗; calcular la probabilidad 𝑷(𝑿 ≥ 𝟕). Respuesta: Uso de tablas porcentuales Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 58 En las tablas, los bloques están divididos en tres columnas: Probabilidades dadas en porcentajes en décimas de porcentaje de 0.0 a 99.9. Valores de Z, cuya función acumulada proporciona el porcentaje de la primera columna. Valores de Z, con intervalos simétricos (extremos −𝒁 y 𝒁), de manera que la probabilidad en este intervalo es igual al porcentaje de la primera columna. EJEMPLO 1: Encontrar el valor de 𝒛𝟎, tal que 𝑷(𝒁 < 𝒛𝟎) = 𝟎. 𝟏𝟎𝟖 Respuesta: EJEMPLO 2: Encontrar el valor de 𝒛𝟎, tal que 𝑷(𝒁 ≥ 𝒛𝟎) = 𝟎. 𝟎𝟓 Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 59 En R: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 60 Ejercicios del Teorema central del límite EJEMPLO 1: Se fabrica cierto tipo de tornillos con un diámetro promedio de 10 mm y una desviación estándar de 1mm ¿Cuál es la probabilidad de que una muestra aleatoria de 400tornillos tenga un diámetro promedio menor o igual a 10.05 mm? Respuesta: EJEMPLO 2: En una fábrica una máquina rellena contenedores con tapabocas con un contenido medio de 150 𝑔𝑟 y una varianza de 120 𝑔𝑟 . Si se toma una muestra aleatoria de 40 contenedores, ¿Cuál es la probabilidad de que la media muestral esté entre 145 y 153 gr? Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 61 EJEMPLO 3: El tiempo de vida de los componentes electrónicos de los amplificadores de los radios que transmiten las señales sísmicas desde la brecha de Guerrero hasta la Ciudad de México tienen una distribución exponencial. Para uno de ellos el Tiempo Medio Entre Fallas (TMEF) es desconocido pero dentro de la gama de valores que pueden tomar consideremos que 𝜆 = 0.01 componentes/día y con este valor se tienen los parámetros de la población 𝝁 = 𝟏 𝟎. 𝟎𝟏 = 𝟏𝟎𝟎 𝒅í𝒂𝒔 y 𝝈 = 𝟏 𝟎. 𝟎𝟏 = 𝟏𝟎𝟎 𝒅í𝒂𝒔. Con la distribución de 𝑿 con una muestra de 100 componentes calculemos la probabilidad de que 𝑿 esté comprendida dentro del intervalo 𝝁 ∓ 𝟓 𝒅í𝒂𝒔. Ejercicios para hacer en casa EJERCICIO 1. La resistencia a la ruptura de un remache tiene un valor medio de 10,000 libras por pulgada cuadrada y una desviación estándar de 500 libras por pulgada cuadrada. a) ¿Cuál es la probabilidad de que la resistencia media a la ruptura de la muestra, para una muestra aleatoria de 40 remaches, sea entre 9,900 y 10,200? b) Si el tamaño de la muestra hubiera sido 15 en lugar de 40, ¿podría calcularse la probabilidad pedida en el inciso a)? Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 62 EJERCICIO 2. La duración de la enfermedad de Alzheimer desde el principio de los síntomas hasta el fallecimiento del paciente varía de 3 a 20 años; el promedio es 8 años con una desviación estándar de 4 años. El administrador de un gran centro médico selecciona al azar 30 registros de pacientes de Alzheimer ya fallecidos y anota la duración promedio. Encuentre la probabilidad de que la duración promedio de esa muestra esté entre 7 y 9 años. EJERCICIO 3. Una empresa metalúrgica produce rodamientos con un diámetro que tiene una distribución normal, con media 3.0005 pulgadas y desviación estándar de 0.0010 pulgadas. Las especificaciones requieren que los diámetros estén en el intervalo 3.000 ± 0.0020 pulgadas. Los cojinetes cuyos diámetros quedan fuera de ese intervalo se rechazan. ¿Qué fracción de la producción total no será rechazada? Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 63 Distribución Ji-cuadrada (𝝌𝟐) - formulario Uso de tablas de la distribución Ji cuadrada (𝝌𝟐) Las tablas sirven para calcular los valores de la distribución para ciertas probabilidades. La tabla muestra los valores de la distribución 𝒋𝒊 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒂 con los cuales el área derecha bajo la curva es igual a 𝜶. 𝑷(𝑿𝝂 > 𝒌) = 𝜶 = 𝟏 − 𝑷(𝑿𝝂 ≤ 𝒌)𝝂 = 𝟏 − 𝑭𝑿𝝂(𝒌) Es la probabilidad de que 𝑿 (con 𝝂 grados de libertad) sea mayor al valor 𝒌 y 𝑭 su función de distribución acumulada. En la tabla se tiene: primera columna están los 𝑮𝒍 = 𝝂, y después se forman parejas de columnas que en la parte de arriba muestran el valor de la probabilidad. Encuentra el valor correspondiente a la probabilidad indicada de una distribución 𝒋𝒊 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒂 EJEMPLO 1: 𝑷(𝑿𝟖 > 𝒌) = 𝟎. 𝟗𝟗 Respuesta: EJEMPLO 2: 𝑷(𝑿𝟗 < 𝒌) = 𝟎. 𝟗𝟖 Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 64 Ejercicios para hacer en casa Sea X una variable aleatoria con distribución ji cuadrada con 8 grados de libertad, calcular el valor de k, tal que 𝑷(𝑿 > 𝒌) = 𝟎. 𝟎𝟐. Sea X una variable aleatoria con distribución ji cuadrada con 10 grados de libertad, calcule el valor de k, tal que 𝑷(𝑿 < 𝒌) = 𝟎.10. Ejercicio en clase Para un gerente de planta es muy importante controlar la variación en el espesor de un material plástico. Se sabe que la distribución del espesor del material es normal con una desviación estándar de 0.01 cm. Una muestra aleatoria de 25 piezas de este material da como resultado una desviación estándar muestral de 0.015 cm. ¿Cuál es la probabilidad de que la varianza muestral sea igual o mayor que (𝟎. 𝟎𝟏𝟓)𝟐 𝒄𝒎𝟐? Distribución t-Student Esta distribución de probabilidad se publicó por primera vez en 1908, por el irlandés W. S. Gosset. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba la publicación de trabajos de investigación, por lo que Gosset publicó su trabajo con el seudónimo “Student”. Por este motivo, a esta distribución se le asignó el nombre de t-Student. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 65 Uso de tablas de la distribución t-Student Las probabilidades se denotan por 𝜶. 𝑷(𝑿𝝂 > 𝒌) = 𝜶 = 𝟏 − 𝑷(𝑿𝝂 ≤ 𝒌) = 𝟏 − 𝑭𝑿𝝂(𝒌) Las tablas están de la siguiente manera: en la primera columna se muestran los 𝑮𝒍 = 𝝂 = 𝒏, en la primera fila los valores de las probabilidades 𝜶, y en los cruces se muestran los valores de 𝒌, que cumplen 𝑷(𝑿𝝂 > 𝒌) = 𝜶 o 𝑭𝑿𝝂(𝒌) = 𝟏 − 𝜶 EJEMPLO 1: Encuentre el valor correspondiente de la probabilidad indicada para una distribución t-Student. 𝑷(𝑿𝟏𝟐 > 𝒌) = 𝟎. 𝟎𝟎𝟒 EJEMPLO 2: 𝑷(𝑿𝟏𝟒 < 𝒌) = 𝟎. 𝟎𝟎𝟕 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 66 Ejercicio en clase Durante los 12 meses pasados el volumen diario de ventas de un restaurante fue de $2000. el gerente piensa que los próximos 25 días serán típicos con respecto al volumen de ventas normal. Al finalizar los 25 días, el volumen de ventas y su desviación estándar promedio fueron de $1800 y $200, respectivamente. Supóngase que el volumen de ventas diario es una variable aleatoria normal. Si usted fuese el gerente, ¿cuál es la probabilidad de que el volumen promedio de ventas sea menor a $1800?. Ejercicios para hacer en casa Sea 𝑻 una variable aleatoria con distribución t-Student con 15 𝑔. 𝑙., calcular 𝒌, tal que 𝑷(𝑻𝝂 < 𝒌) = 𝟎. 𝟗𝟓. Sea 𝑻 una variable aleatoria con distribución t-Student con 19 𝑔. 𝑙., calcular 𝒌, tal que 𝑷(𝑻𝝂 > 𝒌) = 𝟎. 𝟗𝟎. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 67 Distribución F - formulario Uso de tablas de la distribución F La tabla muestra los valores de la F para diferentes probabilidades que se denotan por 𝜶. Si la variable aleatoria 𝑋 tiene una distribución 𝐹 con 𝝂𝟏 𝑔. 𝑙. en el numerador y 𝝂𝟐 𝑔. 𝑙. en el denominador, 𝑷(𝑿(𝝂𝟏, 𝝂𝟐) > 𝒌) = 𝜶 = 𝟏 − 𝑷(𝑿(𝝂𝟏, 𝝂𝟐) ≤ 𝒌) = 𝟏 − 𝑭𝑿(𝝂𝟏,𝝂𝟐)(𝒌) 𝜶 = 𝟏 − 𝑭𝑿(𝝂𝟏,𝝂𝟐)(𝒌) ⇒ 𝑭𝑿(𝝂𝟏,𝝂𝟐)(𝒌) = 𝟏 − 𝜶 EJEMPLO 1: Encuentre el valor de 𝒌, para que 𝑷(𝑿(𝟓, 𝟕) > 𝒌) = 𝟎. 𝟎𝟎𝟓, donde 𝑿 tiene una distribución 𝑭. Respuesta: PREPOSICIÓN: Si 𝑿(𝝂𝟏, 𝝂𝟐) representa a una variable aleatoria con distribución F, con 𝝂𝟏 y 𝝂𝟐 grados de libertad del numerador y del denominador, respectivamente, entonces, 𝒇𝟏 𝜶(𝝂𝟏, 𝝂𝟐) = 𝟏 𝒇𝜶(𝝂𝟐, 𝝂𝟏) Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 68 EJEMPLO: Sea 𝑿 una variable aleatoria con distribución F, calcular la siguiente probabilidad: 𝑷(𝑿(𝟔, 𝟕) < 𝒌) = 𝟎. 𝟎𝟓 Respuesta: Ejercicios para hacer en clase Sea 𝑿 una variable aleatoria con distribución 𝑭 con ocho y veinte grados de libertad, en el numerador y denominador, respectivamente. Calcular el valor de 𝒌, tal que 𝑷(𝑿(𝟖, 𝟐𝟎) > 𝒌) = 𝟎. 𝟎𝟏 = 𝜶 Respuesta: Sea 𝑿 una variable aleatoria con distribución 𝑭 con 15 y 7 grados de libertad, en el numerador y denominador, respectivamente. Calcular el valor de 𝒌, tal que 𝑷(𝑿(𝟏𝟓, 𝟕) > 𝒌) = 𝟏 − 𝟎. 𝟎𝟐𝟓 = 𝟎. 𝟗𝟕𝟓 Respuesta: Ejercicios con distribución F EJERCICIO: El gerente de una refinería piensa modificar el proceso para producir gasolina a partir de petróleo crudo. Con base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias de tamaño 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación estándar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en la información proporcionada, ¿existe alguna razón para creer que las varianzas de los dos procesos son iguales? Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 69 Respuesta: Ejercicios para hacer en casa Sea 𝑿 una variable aleatoria con distribución 𝑭 con ocho y veinte grados de libertad, en el numerador y denominador, respectivamente. Calcular el valor de 𝒌, tal que 𝑷(𝑿(𝟖, 𝟐𝟎) > 𝒌) = 𝟎. 𝟎𝟎𝟏 Respuesta: Sea 𝑿 una variable aleatoria con distribución 𝑭 con 15 y 7 grados de libertad, en el numerador y denominador, respectivamente. Calcular el valor de 𝒌, tal que 𝑷(𝑿(𝟏𝟓, 𝟕) > 𝒌) = 𝟎. 𝟗𝟕𝟓 Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 70 Problemas con estadísticos de prueba Ji cuadrada EJEMPLO 1: Sea una muestra aleatoria de tamaño 20 tomada de una población con media 8 y varianza 4. Obtener la probabilidad de que la varianza muestral 𝑺𝒏 𝟏 𝟐 sea mayor o igual a 5.7. Respuesta: Ji cuadrada EJEMPLO 2: Supongamos que el espesor de una parte usada en un semiconductor es su dimensión crítica y que el proceso de fabricar estas partes se considera que está bajo control si la variación real entre el espesor de las partes está dada por una desviación estándar no mayor que 𝝈 = 𝟎. 𝟔𝟎 milésimas de pulgada. Para mantener un control sobre el proceso, periódicamente se toman muestras aleatorias de tamaño 𝒏 = 𝟐𝟎 y se considera que está “fuera de control” si la probabilidad de que 𝑺𝟐 asumirá un valor mayor o igual que (𝟎. 𝟖𝟒)𝟐. ¿Qué puede uno concluir sobre el proceso con un 𝜶 = 𝟎. 𝟎𝟏? Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 71 T-Student EJERCICIO 1: En 16 corridas de prueba de una hora, el consumo de gasolina de una máquina promedió 16.4 galones con una desviación estándar de 2.1 galones. Pruebe la afirmación de que el consumo promedio de gasolina es de 12.0 galones por hora. Respuesta: t-Student EJEMPLO 2: Un proceso para fabricar ciertos cojinetes está bajo control si los diámetros de los cojinetes tienen una media de 0.500 cm. ¿Qué podemos decir de este proceso si una muestra de 10 cojinetes tiene un diámetro medio de 0.506 cm y una desviación estándar de 0.004 cm? Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 72 Tema 3. ESTIMACIÓN DE PARÁMETROS Objetivo: El alumno evaluará la estimación puntual de uno o varios parámetros y elegirá el mejor en base en la comparación de sus características. ¿A dónde voy? Los métodos para hacer inferencias acerca de parámetros poblacionales caen en una de estas dos categorías: Estimación: estimar o predecir el valor del parámetro. 1. Estimación puntual. Con base en datos muestrales, se calcula un solo número para estimar el parámetro poblacional. 2. Estimación por intervalos. Con base en datos muestrales, se calculan dos números para formar un intervalo dentro del cual se espera esté el parámetro. También se la llama intervalo de confianza. Prueba de hipótesis: tomar una decisión acerca del valor de un parámetro, con base en alguna idea preconcebida acerca de cuál podría ser su valor. Ejemplo de estimación puntual y estimación por intervalos. Se desea estimar el parámetro desconocido: 𝝁 = 𝒆𝒍 𝒂𝒖𝒎𝒆𝒏𝒕𝒐 𝒎𝒆𝒏𝒔𝒖𝒂𝒍 𝒑𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒆𝒏 𝒆𝒍 𝒑𝒆𝒔𝒐 Un estimador es ; En estimación puntual puede ser 1.7 kilogramos. O por estimación por intervalos que el aumento promedio esté entre 1.2 y 2.2 kilogramos. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 73 Estimador DEFINICIÓN: Si 𝑿 es una v.a. con función de densidad o de probabilidad 𝒇𝑿(𝒙; 𝜽), donde 𝜽 es un parámetro desconocido, y si 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏 es una muestra aleatoria de la población de tamaño 𝒏, entonces el estadístico 𝜣 = 𝑼(𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏) recibe el nombre de estimador de 𝜽. Se puede decir que un estimador es un estadístico que tiene como propósito definido “aproximar” un parámetro desconocido. Estimación puntual DEFINICIÓN: El estimador 𝜣 del parámetro 𝜽, es una v.a. porque es una función de los datos de muestreo. Cuando se sustituyen las vv.aa. 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 por sus valores observados (realizaciones) 𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏, entonces se tiene una estimación puntual 𝜽 del parámetro 𝜽. Puede haber varios estadísticos que podrían usarse como estimadores puntuales para un parámetro poblacional. Para determinar cuál de las opciones en el mejor, uno necesita saber cómo se comporta el estimador en muestreo repetido, descrito por su distribución muestral. Estimación puntual. ¿Cuál tirador es el mejor? El parámetro de interés es la diana. Cada bala representa una sola estimación muestral que es el estimador. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 74 Propiedades de los estimadores En la elección de un estimador deben tenerse en cuenta las siguientes propiedades: Insesgabilidad Eficiencia Error cuadrático medio Consistencia Suficiencia Insesgabilidad Sea 𝜣 un estimador puntual del parámetro 𝜽. Entonces si 𝐄 𝜣 = 𝜽 se dice que 𝜣 es un estimador insesgado de 𝜽, de lo contrario se dice que es sesgado. EJEMPLO. Sea 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 una muestra aleatoria de tamaño 𝒏 extraída de una población con media 𝝁 y varianza 𝝈𝟐. Determinar si los siguientes estimadores son sesgados o insesgados. 𝒂) 𝑿 = 𝟏 𝒏 𝑿𝒊 𝒏 𝒊 𝟏 𝒃) 𝒔𝒏 𝟐 = 𝟏 𝒏 (𝒙𝒊 − 𝒙) 𝟐 𝒏 𝒊 𝟏 𝒄) 𝒔𝒏 𝟏 𝟐 = 𝟏 𝒏 − 𝟏 (𝒙𝒊 − 𝒙) 𝟐 𝒏 𝒊 𝟏 Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 75 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 76 En la práctica se suelen preferir los estimadores insesgados sobre los sesgados; por ello cuando se desea hacer estimación sobre la varianza de la población se utiliza el estadístico 𝑺𝒏 𝟏 𝟐 . Ejercicio para hacer en casa Considérese una muestra aleatoria 𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏 de la función de densidad 𝒇𝑿(𝒙) = 𝟎. 𝟓(𝟏 + 𝜽𝒙) ; −𝟏 ≤ 𝒙 ≤ 𝟏 𝟎 ; 𝒆𝒏 𝒐𝒕𝒓𝒐 𝒄𝒂𝒔𝒐 Donde −𝟏 ≤ 𝜽 ≤ 𝟏. Demostrar que 𝜣 = 𝟑𝑿 es un estimador insesgado de 𝜽. Respuesta: Eficiencia Puesto que es posible obtener más de un estimador insesgado para el mismo parámetro, deberá utilizarse el de mínima varianza, que recibe el nombre de estimador eficiente. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 77 EJEMPLO. Supóngase que se tiene una muestra aleatoria de tamaño 𝟐𝒏 de una población denotada por 𝑿 y 𝑬(𝑿) = 𝝁 y 𝑽𝒂𝒓(𝑿) = 𝝈𝟐. Sean𝑿𝟏 = 𝟏 𝟐𝒏 𝑿𝒊 𝟐𝒏 𝒊 𝟏 y 𝑿𝟐 = 𝟏 𝒏 𝑿𝒊 𝒏 𝒊 𝟏 dos estimadores de 𝝁. Determinar cuál es el mejor estimador de 𝝁. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 78 Ejercicio para hacer en casa EJERCICIO 1. Sea 𝑿𝟏, 𝑿𝟐, 𝑿𝟑, 𝑿𝟒 y 𝑿𝟓 una muestra aleatoria de una población cuya distribución es normal con media 𝜇 y varianza 𝜎 . Considérense los estadísticos: Como estimadores de 𝝁. Identificar al estimador que posee la varianza más pequeña. Respuesta: EJERCICIO 2. Una variable aleatoria se distribuye en forma Normal. Se extraen muestras aleatorias simples de tamaño 4. Se tienen los siguientes estimadores del parámetro 𝜇: 𝝁𝟏 = 𝑿𝟏 + 𝟐𝑿𝟐 + 𝟑𝑿𝟑 𝟔 , 𝝁𝟐 = 𝑿𝟑 − 𝟒𝑿𝟐 −𝟑 a) Comprobar si los estimadores son insesgados. b) Indicar cuál de los dos estimadores es más eficiente. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 79 Respuesta: Error cuadrático medio (ECM) Cuando se desean comparar dos estimadores, de los cuales al menos uno no es insesgado entonces se utiliza el ECM. El ECM de un estimador 𝜣, del parámetro 𝜽, se define como: 𝑬𝑪𝑴 𝜣 = 𝑬 𝜣 − 𝜽 𝟐 Y también se puede demostrar que: 𝑬𝑪𝑴 𝜣 = 𝑽𝒂𝒓 𝜣 + 𝜽 − 𝑬 𝜣 𝟐 Donde a 𝜽 − 𝑬 𝜣 se le llama sesgo o error cometido. Si el estimador 𝜣 es insesgado: 𝑬𝑪𝑴 𝜣 = 𝑽𝒂𝒓 𝜣 EJEMPLO 1: Supóngase que 𝜣𝟏, 𝜣𝟐 y 𝜣𝟑 son estimadores del parámetro 𝜽. Si se sabe que 𝑬 𝜣𝟏 = 𝑬 𝜣𝟐 = 𝜽, 𝑬 𝜣𝟑 ≠ 𝜽, 𝑽𝒂𝒓 𝜣𝟏 = 𝟏𝟐, 𝑽𝒂𝒓 𝜣𝟐 = 𝟏𝟎 y 𝑬 𝜣𝟑 − 𝜽 𝟐 = 𝟔, utilizando el criterio de ECM, determinar el mejor estimador. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 80 EJEMPLO 2: En un experimento binomial se observan 𝒙 éxitos en 𝒏 ensayos independientes. Se proponen los siguientes dos estadísticos como estimadores del parámetro de proporción: p : 𝑻𝟏 = 𝑿 𝒏 𝑦 𝑻𝟐 = 𝑿 𝟏 𝒏 𝟐 a) Obtener los errores cuadráticos medios para 𝑻𝟏 y 𝑻𝟐. Ejercicio para hacer en casa Ejemplo 3: Supóngase que 𝜣𝟏 y 𝜣𝟐 son estimadores del parámetro 𝜽. Si se sabe que 𝑬 𝜣𝟏 = 𝜽 y 𝑬 𝜣𝟐 = 𝜽 𝟐 , 𝑽𝒂𝒓 𝜣𝟏 = 𝟏𝟎 y 𝑽𝒂𝒓 𝜣𝟐 = 𝟒. ¿Cuál estimador es el mejor?¿En qué rango de valores de 𝜃 es mejor uno y otro? Métodos para determinar estimadores puntuales Existen varias formas de estimar un parámetro. Dos de los métodos más comunes son: Método de momentos. Método de máxima verosimilitud. Método de Momentos Sugiere utilizar como estimador de alguno de los momentos de la población, al mismo momento con respecto a la muestra. Elegir como estimadores puntuales, a aquellos valores de los parámetros que sean solución de las ecuaciones 𝝁𝒌 = 𝒎𝒌 ; 𝒌 = 𝟏, 𝟐, … , 𝒏 Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 81 Donde 𝒏 es igual al número de parámetros a estimar y 𝝁𝒌 y 𝒎𝒌 representan los momentos con respecto al origen de la población y de la muestra, respectivamente. En la práctica también se pueden igualar momentos respecto a la media según sea más conveniente 𝝁𝒌 = 𝒎𝒌 ; 𝒌 = 𝟏, 𝟐, … , 𝒏 EJEMPLO 1: Sea 𝑿 una variable aleatoria con distribución normal y parámetros 𝝁 y 𝝈𝟐 desconocidos. Determinar los estimadores de dichos parámetros por el método de los momentos. Respuesta: EJEMPLO 2: Sea 𝒀 una variable aleatoria con distribución Pascal (binomial negativa) con parámetros 𝒓 y 𝒑 desconocidos. Utilizar el método de los momentos para obtener estimadores de dichos parámetros. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 82 Método de máxima probabilidad o máxima verosimilitud La mayoría de los estadísticos recomiendan este método, al menos cuando el tamaño de muestra es grande, puesto que los estimadores resultantes tienen ciertas propiedades de eficiencia deseables. Básicamente consiste en obtener una función de verosimilitud y maximizarla. Sea 𝒇𝑿(𝒙; 𝜽) la distribución de una población donde 𝜽 es el parámetro a estimar. La función de verosimilitud es una función de las vv.aa. de muestreo y del parámetro 𝜽 a estimar definida como sigue 𝑳(𝒙𝟏, 𝒙𝟐, … , 𝒙𝒏; 𝜽) = 𝒇𝑿𝒊(𝒙𝒊; 𝜽) 𝒏 𝒊 𝟏 Nótese que la función de verosimilitud L es la distribución conjunta de las vv.aa. de muestreo si éstas son independientes. Un estimador de máxima verosimilitud es aquel que maximiza la función de verosimilitud. En la práctica, para maximizar la función de verosimilitud se utiliza el cambio de la variable L por ln L. EJEMPLO 1. Construir un estimador de máxima verosimilitud para el parámetro 𝒑 de una distribución Bernoulli, utilizando una muestra de tamaño 𝒏. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 83 EJEMPLO 2. Obtener el estimador de máxima verosimilitud para el parámetro 𝒑 de una distribución geométrica, utilizando una muestra aleatoria de tamaño 𝒏. Respuesta: Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 84 Estimación por intervalos de confianza La estimación puntual es útil pues proporciona el valor más representativo para el parámetro que se desea estimar; sin embargo, la probabilidad de que el estimador tome el valor del parámetro es prácticamente cero, además de que puede variar mucho de realización en realización. En algunos problemas es más útil un intervalo para el cual la probabilidad de que el parámetro se encuentre en dicho intervalo sea alta. La estimación por intervalos parte de construir intervalos aleatorios, donde al menos uno de sus límites es una variable aleatoria. En general, un intervalo aleatorio se construye a través de los estadísticos 𝑳𝟏 y 𝑳𝟐 tales que 𝑷(𝑳𝟏 ≤ 𝜽 ≤ 𝑳𝟐) = 𝟏 − 𝜶 Donde 𝟏 − 𝜶 recibe el nombre de nivel o coeficiente de confianza, 𝑳𝟏 y 𝑳𝟐 se denominan límites de confianza inferior y superior, respectivamente y 𝜶 se llama nivel de significancia o significancia. DEFINICIÓN: Un intervalo de confianza para el parámetro poblacional 𝜽 al nivel de confianza 𝟏𝟎𝟎(𝟏 − 𝜶)%, siendo 𝜶 un valor en el intervalo [𝟎, 𝟏], se define como un intervalo de la forma 𝑳𝟏 ≤ 𝜽 ≤ 𝑳𝟐 cuyos extremos son estadísticos y tiene la propiedad de que 𝑷(𝑳𝟏 ≤ 𝜽 ≤ 𝑳𝟐) = 𝟏 − 𝜶 Con frecuencia los experimentadores construyen intervalos de confianza del 95%, es decir, el coeficiente de confianza (𝟏 − 𝜶), o la probabilidad de que el intervalo contenga al parámetro estimado, sea 0.95. También se usan los valores de: 0.90, 0.98 y 0.99. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 85 Interpretación del intervalo de confianza para la media poblacional Construcción de un intervalo de confianza 1. De todos los valores posibles del estimador que podríamos seleccionar, el 95% de ellos estarán en el intervalo. 2. ¿Con qué frecuencia este intervalo funcionará en forma correcta y encerrará el parámetro de interés? Ver figura siguiente. Si se quiere cambiar el coeficiente de confianza (𝟏 − 𝜶) = 𝟎. 𝟗𝟓 a otro nivel de confianza (𝟏 − 𝜶) es necesario cambiar el valor de 𝒛 = 𝟏. 𝟗𝟔. Apuntes 1445/1569 - DCB - FI - UNAM Amanda L. Pineda Norman 86 Intervalo de confianza para la media Intervalo de confianza para la media poblacional, 𝝈𝟐 conocida. Distribución normal. Nota: no importa el tamaño de la muestra. Sea el estadístico 𝑿 = 𝟏 𝒏 𝑿𝒊 𝒏 𝒊 𝟏
Compartir