Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Probabilidad y Estadística PABLO CHÁVEZ MERINO ¿Qué es la estadística? Recolectar Organizar Análizar Concluir Tomar decisiones https://www.youtube.com/watch?v=0_ybaigJd1s https://www.youtube.com/watch?v=0_ybaigJd1s Estadística TIPOS DE ESTADÍSTICA -YouTube https://www.youtube.com/watch?v=2bkjvrQSU7s Estadística descriptiva Población Llamaremos población al conjunto de todos los elementos de interés para un problema determinado (individuos, objetos u observaciones), que al menos tengan una característica en común. Muestra Parte o subconjunto representativo de la población Estadística descriptiva A los elementos que a estudiar, se les llama Unidad de observación. Si es posible obtener la información de todas las unidades de observación, se está en presencia de un Censo. Estadística descriptiva Las características asociadas a un conjunto de unidades observables de una población o muestra se le llama variable. Estadística descriptiva Cualquier valor cualitativo o cuantitativo asociado a una variable se le llama “dato” u “observación” Estadística descriptiva Datos continuos Son aquellos que, al menos teóricamente, pueden tomar cualquier valor intermedio entre dos valores dados (intervalo), ejemplo: temperatura del horno de secado. Datos discretos Son aquellos que surgen por el procedimiento de conteo, tomando valores enteros (ejemplo: nº de piezas que pasan por un punto del proceso). Datos cuantitativos Estadística descriptiva Datos nominales Son números o letras que representan categorías donde no interesa el orden Ejemplo: 0 = defectuoso 1 = no defectuoso Datos ordinales Son números o letras que representan categorías donde el orden interesa Ejemplo: 1: altamente defectuoso 2: medianamente defectuoso 3: no defectuoso Datos cualitativos Estadística descriptiva Actividad: Pensar en una investigación y hacer un listado de preguntas que podría realizar que den como resultados una variable de cada tipo: - 2 Ordinales: - 2 nominales: - 2 discretas: - 2 continuas: Tabla de frecuencias Esta tabla resume las frecuencias las ocurrencias para las categorías en un conjunto de datos, es la agrupación de datos en categorías o clases; la estructura de la tabla depende del tipo de variable (cualitativa o cuantitativa) que queramos ordenar y presentar. Categoría o Clase p Intervalo de clase [ Li-1 , Li [ Frecuencia absoluta ni Frecuencia relativa fi (%) Frecuencia acumulada Ni Frecuencia relativa acumulada Fi (%) Marca de clase mi 1 [L0 , L1[ n1 f1 N1 F1 m1 2 [L1 , L2[ n2 f2 N2 F2 m2 3 [L2 , L3[ n3 f3 N3 F3 m3 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ i [Li-1 , Li[ ni fi Ni Fi mi ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ k [Lk-1 , Lk] nk fk Nk Fk mk Distribución de frecuencias Categoría o Clase p Intervalo de clase [ Li-1 , Li [ Frecuencia absoluta ni Frecuencia relativa fi (%) Frecuencia acumulada Ni Frecuencia relativa acumulada Fi (%) Marca de clase mi 1 [L0 , L1[ n1 f1 N1 F1 m1 2 [L1 , L2[ n2 f2 N2 F2 m2 3 [L2 , L3[ n3 f3 N3 F3 m3 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ i [Li-1 , Li[ ni fi Ni Fi mi ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ k [Lk-1 , Lk] nk fk Nk Fk mk Li-1: es el límite inferior del i-ésimo intervalo de clase. Li : es el límite superior del i-ésimo intervalo de clase. 𝒇𝒊 : es el cociente entre la frecuencia absoluta de algún valor de la población/muestra y el total de valores que componen la población/muestra 𝒏𝒊: cantidad de veces que se repite un suceso al realizar un número determinado de experimentos aleatorios Distribución de frecuencias para datos cuantitativos 𝑵𝒊: es la suma de las frecuencias absolutas del i-ésimo intervalo de clase y las anteriores a ellas y la llamamos “frecuencia absoluta acumulada” Fi: es la suma de las frecuencias relativas del i-ésimo intervalo de clase y las anteriores a ellas y la llamamos “frecuencia relativa acumulada” mi: es el punto medio del i-ésimo intervalo de clase, llamada “marca de clase” Categoría o Clase p Intervalo de clase [ Li-1 , Li [ Frecuencia absoluta ni Frecuencia relativa fi (%) Frecuencia acumulada Ni Frecuencia relativa acumulada Fi (%) Marca de clase mi 1 [L0 , L1[ n1 f1 N1 F1 m1 2 [L1 , L2[ n2 f2 N2 F2 m2 3 [L2 , L3[ n3 f3 N3 F3 m3 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ i [Li-1 , Li[ ni fi Ni Fi mi ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ k [Lk-1 , Lk] nk fk Nk Fk mk Tabla de frecuencias para Datos cualitativos Ejemplo: La siguiente tabla muestra un resumen del estudio sobre los tipos de siniestros a automóviles que han ocurrido entre los meses de enero y marzo en el gran Concepción Tabla de frecuencias para Datos cualitativos La siguiente tabla muestra un resumen del estudio sobre tipo de automóviles que circularon en quince minutos en la intersección de las calles “Carrera” y “Paicaví” Actividad: Complete la tabla Tabla de frecuencias Ejemplo Consideremos los datos para la variable “nivel de satisfacción” de la atención al cliente en una sucursal de la compañía Telefónica del Norte. Categorías Frecuencia absoluta Frecuencia relativa (%) Satisfecho 15 25,4% No responde 10 16,9% Ni satisfecho ni insatisfecho 6 10,2% Insatisfecho 28 47,5% Total 59 100,0% ¿Qué le llama la atención de los datos que contiene esta tabla? Distribución de frecuencias a)Identifique la población y la variable en estudio. Clasifique la variable. b)Construya la tabla de frecuencia e interprete n3 N2 f5 F4 Ejercicio: Los cuatro programas principales de televisión con mayor audiencia fueron La ley y el orden (LyO), CSI, Sin rastro y Esposas desesperadas (ED) (Nielsen Media Research, 1 de enero de 2007). A continuación se proporcionan los datos que incluyen los programas preferidos en una muestra de 50 espectadores. Distribución de frecuencias para datos cuantitativos Ejemplo (Cuantitativo discreto): Éstos fueron obtenidos de una prueba de aptitudes de 150 preguntas a 50 personas entrevistadas recientemente para un puesto en Haskens Manufacturing. Los datos indican el número de preguntas respondidas correctamente. Distribución de frecuencias Los pasos para elaborar una distribución de frecuencias se pueden resumir en los siguientes: 1.Obtener el rango (𝑅 = 𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜) 2. Determinar el número de clases (𝑘), existen dos reglas bastante usadas para determinar el número apropiado de clases son: •2𝑘 > n (donde n representa el total de observaciones) • 𝒌 ≈ 𝟏 + 𝟑, 𝟑 𝒍𝒐𝒈(𝒏) (regla de Sturges) 3. Determinar la amplitud (A): A = 𝑅 𝑘 •Comprobar amplitud con 𝑣𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜 + 𝐴 ∗ 𝑘 >= 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 4. Completar la tabla con: Intervalos de clases, frecuencias absolutas (𝒏𝒊), frecuencias relativas (𝒇𝒊), las frecuencias absolutas acumuladas (𝑵𝒊), las frecuencias relativas acumuladas (𝑭𝒊) y las marcas de clases (𝒎𝒊) Gráficas para describir datos La representación gráfica de una tabla o distribución de frecuencias es una herramienta que permite visualizar rápidamente los resultados de un conjunto de datos. 15 5 2 4 0 2 4 6 8 10 12 14 16 Sin defecto bajo medio alto N ª D E O B S E R V A C IO N E S CLASES Gráfico de barras Calidad línea A: N=30 Gráfico de barras Es la gráfica más simple y es usada para representar variables cualitativas o variables discretas. Construcción En el eje horizontal (X) se representan las clases y en el eje vertical (Y) la frecuencia (“frecuencia absoluta”, “relativa” o “relativa porcentual”). Sobre cada clase se levanta una barra igual a su frecuencia. 15 5 2 4 0 2 4 6 8 10 12 14 16 Sin defecto bajo medio alto N ª D E O B S E R V A C IO N E S CLASES Gráfico de barras Calidad bolsas de azúcar Gráfico circular o de torta Este tipo de gráficos se utilizada cuando queremos representar la distribución de frecuencias de una variable cualitativa o cuantitativa continua mediante una circunferencia. Distribución de frecuencias para datos cuantitativos Ejemplo (cuantitativo continuo): El informe Nielsen Home TechnologyReport proporciona información sobre tecnología en el hogar y su uso. Los datos siguientes registran las horas de uso de computadoras personales durante una semana para una muestra de 50 personas. a) Construya la tabla de frecuencia asociada e interprete lo relevante. Actividad. Histograma Esta gráfica es usada para representar la distribución de frecuencias de una variable cuantitativa continua cuyos datos han sido ordenados en intervalos de clase. Pictograma Es un icono gráfico para representar la información, a través de una figura que se relaciona con la variable que se está analizando se presenta la distribución. Estadígrafos Necesitamos determinados valores numéricos que permiten cuantificar ciertas “características” de la distribución, llamando a estos valores “estadísticos” o “estadígrafos”, si son calculados a partir de los datos de una muestra y “parámetros” si son calculados desde los datos de una población. Existen 4 grandes familias que veremos: 1. Medidas de tendencia central 2. Medidas de posición 3. Medidas de dispersión 4. Medidas de forma Medidas de tendencia central Localizan el centro de la distribución, portando información respecto al valor promedio de un conjunto de datos. Los estadígrafos más utilizados son: Media Mediana Moda Media La media (media aritmética o promedio) de un conjunto de n mediciones x1, x2, x3,.......,xn para una variable o característica x, es igual a la suma de los valores dividida por el número total de observaciones n : n x x n i i 1 Mediana La mediana (Me) de un conjunto de n mediciones x1, x2, x3,.......,xn es el valor de x que se encuentra en el punto medio o centro cuando los valores se ordenan de menor a mayor. Si n es par Si n es impar 2 1 22 nn xx Me 21 nxMe Observaciones: Aunque los valores de la media y mediana son buenas localizaciones del centro de una distribución, la mediana es menos sensible a los valores extremos (muy grandes o muy pequeños). Si tenemos datos extremos “grandes” entonces la media será́ sobreestimada ത𝑋 > Me Si tenemos datos extremos “pequeños” entonces la media será́ subestimada ത𝑋 < Me Moda La moda (Mo) de un conjunto de n mediciones x1, x2, x3,.......,xn para una variable o característica x, es el valor que ocurre con mayor frecuencia o que más se repite. Observación: Cuando una distribución tiene una, dos o más modas, hablamos de distribución “unimodal”, “bimodal”. Errores con el uso de la media a) “Los valores de todos los datos son iguales o están muy cerca de la media”, ignorando que la media no proporciona ninguna información sobre la variabilidad. b) “La media es el dato más frecuente”, olvidando que esto se da en datos simétricos y unimodales, desconociendo el concepto de moda. c) “La media es el valor que está al centro, a la izquierda de él queda el 50% de los datos y a la derecha el 50% restante”, ignorando el concepto de mediana y el hecho que la media es vulnerable a “sesgos” y “datos raros”. d) “La media muestral es la media poblacional”, ignorando que la media muestral es una variable aleatoria, es decir, lo que se observa en la muestra es variable y depende de los elementos que se seleccionan de la población, por lo que debemos asegurar la calidad de la muestra (aleatoriedad y tamaño suficiente). Medidas de posición (Cuantiles) Son utilizadas cuando se quiere dividir el conjunto de datos en partes iguales. Según el número de particiones pueden ser: Cuartiles (Ki) Existen tres cuartiles que dividen el conjunto de datos en 4 partes iguales, cada uno reúne un 25%. Quintiles (Qi) Dividen el conjunto de datos en 5 partes iguales, por lo tanto hay 4 quintiles con 20% cada uno. Deciles (Di) Dividen el conjunto de datos en 10 partes iguales, por lo tanto hay 9 deciles con 10% cada uno. Percentiles (Pi) Dividen el conjunto de datos en 100 partes iguales, por lo tanto hay 99 quintiles con 1% cada uno. Medidas de posición (Cuantiles) Para calcular los cuantiles primero se deben ordenar los datos de manera ascendente, luego se utiliza la fórmula de calculo siguiente: 𝑃𝑖 = 𝑥𝑖(𝑛+1) 100 Medidas de dispersión Las medidas de tendencia central no bastan para conocer el comportamiento de una distribución de frecuencias, puesto que no proporcionan información respecto de la “variabilidad” de los datos. Muchas veces, el desconocimiento de esta medida nos conduce a tomar decisiones erróneas al usar las medidas de tendencia central. Las “medidas de dispersión” cuantifican la dispersión de los datos en torno a un valor central, por lo general es la media. Varianza Desviación estándar Rango Coeficiente de variación Varianza Las “varianza” se define como el promedio cuadrático de las desviaciones de las observaciones respecto del promedio de estos datos. Para una variable X, la varianza se denota por V(X), Sx 2 ó σx 2, y dado un conjunto de n datos muestrales con media ത𝑋 , se calcula como sigue: 𝑆𝑥 2 = σ𝑖=1 𝑛 (𝑥𝑖 − ത𝑋) 2 𝑛 − 1 Desviación estándar Un inconveniente para la interpretación de la “varianza” es que su unidad de medida es el “cuadrado de los datos originales”. Por lo tanto, para obviar este inconveniente y tener una medida de variabilidad expresada en la misma unidad de los datos, se extrae la raíz cuadrada positiva a la varianza, llamándose a esta medida “desviación estándar”, la cual denotamos por Sx (Desviación estándar muestral) ó σx(Desviación estándar poblacional): 𝑆𝑥 = σ𝑖=1 𝑛 (𝑥𝑖 − ത𝑋) 2 𝑛 − 1 Rango El rango se calcula como la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos, esto es: R=Xmax −Xmin Coeficiente de variación La desviación estándar es útil como medida de variación de un conjunto de datos, sin embargo, depende de la unidad de medida. Cuando se quiere comparar la dispersión de dos conjuntos de datos, con unidad de medida diferente, surge una medida de varianza relativa llamada “coeficiente de variación”, la cual expresa la desviación estándar como un porcentaje de la media. Esto es: 𝐶𝑉 = 𝑆 ത𝑋 (100%) Medidas de forma Las “medidas de forma” buscan cuantificar aspectos formales de una distribución de frecuencias basados en comparar el comportamiento en las colas de las distribución con respecto a las zonas centrales de la misma. Entregan in indicio de la forma de distribución. Los coeficiente son dos: Coeficiente de asimetría Curtosis Asimetría Las “medidas de asimetría o sesgo” cuantifican el grado de asimetría de la distribución en torno a una medida de tendencia central. 𝐴𝑠 = 𝑛 (𝑛 − 1)(𝑛 − 2) 𝑖=1 𝑛 𝑥𝑖− ҧ𝑥 𝑠 3 Asimetría Se tienen los siguientes 3 casos: Si As < 0 la distribución es asimétrica hacia la izquierda (negativa). Los datos están concentrados a la derecha Si As = 0 la distribución es simétrica. Los datos presentan una concentración centrada Si As > 0 la distribución es asimétrica hacia la derecha (positiva). Los datos están concentrados a la izquierda Curtosis Las “medidas de curtosis” cuantifican el grado de apuntamiento o aguzamiento de la de frecuencias con respecto de una distribución simétrica unimodal de forma acampanada (coeficiente de curtosis, K). Es decir, que indica cuan alta o baja está la curva de los datos. La fórmula de calculo es: 𝑘 = 𝑛(𝑛 + 1) (𝑛 − 1)(𝑛 − 2)(𝑛 − 3) 𝑖=1 𝑛 𝑥𝑖− ҧ𝑥 𝑠 4 − 3 𝑛 − 1 2 (𝑛 − 2)(𝑛 − 3) Curtosis Se tienen los siguientes 3 casos: Si k > 0 la distribución es leptocúrtica , los datos están más concentrados cerca de la media. Si k = 0 la distribución es normal o mesocúrtica Si k < 0 la distribución es platicúrtica, los datos se distribuyen más alejados de la media
Compartir