Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADISTICA Data de S. XIX 2 disciplinas que se integran PROBABILIDADES ESTADISTICA Teoría matemática de los juegos de azar Ciencia de estado. Descripción de datos sobre el estado Ciencia que estudia como obtener conclusiones de la investigación empírica (realidad), mediante el uso de modelos matemáticos Realidad Modelo Teórico ≠ Metodología para evaluar y juzgar discrepancias entre el modelo real y el teórico Orígenes 3 UNIDAD EXPERIMENTAL Son los objetos medidos o unidades de observación, sobre las cuales podemos medir diversas variables • Costos • Ensayo destructivo • La existencia de los elementos es conceptual Ej: piezas defectuosas a producir VARIABLE Característica que cambia o se modifica para los distintos objetos o individuos en cuestión o con el tiempo MEDICION O DATOS Cuando se mide una variable en la unidad experimental Mediciones para cada unidad de la colección completa POBLACION Mediciones sobre subconjuntos de la población MUESTRA PARAMETRO: es una medida que se calcula para describir una característica de la POBLACIÓN COMPLETA (ej.: promedio µ ) ESTADISTICO: es una medida que se calcula para describir una característica de la MUESTRA (ej.: promedio ) Cuidado: Definir cuidadosa y completamente la población antes de recolectar la muestra Algunas definiciones 4 INFERENCIA ESTADISTICA Métodos que hacen posible la estimación de 1 característica de la población, o una toma de decisión sobre la población, con base únicamente en resultados muestrales 5 Estadística Descriptiva 6 TIPOS DE VARIABLES CUALITATIVA O CATEGORICA: No toman valores numéricos, indican presencia o ausencia de una característica. CUANTATIVA O NUMERICA: toman valores numéricos, (edad, altura, precio de un producto, ingresos anuales, etc.). DISCRETAS: si su conjunto de valores posibles es finito o se puede enumerar en una sucesión. Corresponden en general a contar el número de veces que ocurre un suceso. (cantidad de envases defectuosos producidos por día en una fábrica, cantidad de hijos por familia en una comunidad) Surgen de un proceso de conteo Clasificación CONTINUAS: toma valores en intervalo de la recta real, corresponden a medir magnitudes continuas (tiempo, longitud, etc.). Surgen de un proceso de medición Variedad especial: Dicotómicas: solo tienen 2 categorías excluyentes. (Sexo: femenino o masculino) 7 ESCALAS DE MEDICION CUALITATIVA O CATEGORICA: CUANTATIVA O NUMERICA: INTERVALO: el cero no indica ausencia de la característica. Ejemplo temperatura en °Celcius o °Farenheit. No es posible decir que un valor en la escala es múltiplo de otro valor. RAZON: tienen un punto cero absoluto. El cero indica la ausencia de la característica. Ej: Peso NOMINAL: No existe orden entre las categorías. Los números o símbolos asignados a los objetos no tienen más significado cuantitativo que indicar la presencia o ausencia del atributo o característica bajo investigación. ORDINAL: existe orden entre las categorías. Nivel de educación alcanzado por un determinado grupo de personas 8 ORGANIZACIÓN Y RESUMEN DE DATOS CATEGORICOS Variable: Categoría ocupacional en el año 2010 de cada argentino de 14 o más años. Fuente: Censo 2010. UNIDAD EXPERIMENTAL: Las personas, que son las portadoras de los datos mientras que las categorías ocupacionales respectivas constituyen los datos. La estadística no estudia los portadores sino los datos. Frecuencia Absoluta: fi Frecuencia Relativa: fi/N N Frecuencia Relativa Porcentual fi/N % 9 Distribución de frecuencias de la variable. 10 GRAFICAS DE BARRAS HORIZONTALES: GRAFICAS DE TORTA GRAFICAS DE PUNTOS 11 GRAFICAS QUE SE PUEDEN USAR CON VARIABLES CUALITATIVAS: GRAFICAS DE BARRAS HORIZONTALES: 12 13 GRAFICAS DE TORTA: 14 GRAFICAS DE PUNTOS: 15 GRAFICAS DE BARRAS VERTICALES: GRAFICAS DE BASTONES HISTOGRAMAS 16 POLIGONOS DE FRECUENCIAS GRAFICAS QUE SE PUEDEN USAR CON VARIABLES CUANTITATIVAS: OJIVAS (POLIGONOS DE FRECUENCIAS ACUMULADAS) PARETO ORGANIZACIÓN Y RESUMEN DE DATOS NUMERICOS NO AGRUPADOS VARIABLE: número de hermanos que componen las familias de los alumnos que cursan Probabilidad y Estadística, en distintos años 17 Frecuencia Absoluta: fi Frecuencia Relativa: fi/N Frecuencia Relativa Porcentual fi/N % Frecuencia Relativa Porcentual acumulada Σfi/N % 18 19 Cuando el número de valores posibles de una variable DISCRETA sea grande o cuando la variable sea CONTINUA conviene agrupar los datos en clases o categorías. Para ello se acomodan los datos en grupos de clases, es decir categorías, dividiendo en forma conveniente las observaciones. ORGANIZACIÓN Y RESUMEN DE DATOS NUMERICOS AGRUPADOS Al construir una tabla de Distribución de Frecuencias, se debe prestar atención a lo siguiente: Seleccionar el número adecuado de clases para cada tabla. Obtener un intervalo de clase apropiado para cada clase. Seleccionar los límites de las clases que definen los intervalos, de manera que cada observación se clasifique sin ambigüedad en una sola clase. Primero determinamos la cantidad de clases (Reglas orientativas). Existen dos formas: 1. Fórmula de Sturges: si N es el tamaño del lote, se trata de hallar el número de intervalos k que satisfaga la relación N ~ 2 ( k - 1) De esta expresión resulta k ~ 1 + 3,322 log N Redondeando al valor más próximo obtenemos un valor de k. 20 En segundo lugar determinamos la amplitud h de cada clase, simbólicamente 2. Regla empírica: para determinar el número de intervalos de clase 21 Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la siguiente manera: 1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68 1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37 1,75 1,69 Se desea obtener conclusiones sobre la distribución de los datos. En primer lugar determinamos el número k de intervalos de clase. Aplicamos la fórmula de Sturges k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k 7 clases Teniendo en cuenta que xmáximo = 2,55 y el xmínimo = 0,72, tomamos la amplitud de cada intervalo h, usando la ecuación: h 2,55 - 0,72 = 0,261 ≈ 0,30 7 22 La distribución de frecuencias para el ejemplo se presenta: Distribución de frecuencias del contenido de nicotina en 40 cigarrillos 23 Intervalos de Clase Definimos cada clase o categoría mediante un intervalo de clase expresado en la forma x i - h / 2 , x i + h / 2 El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la clasey es el valor numérico representativo de los datos de la clase. x i - h / 2 es el límite inferior de la clase y x i + h / 2 es el límite superior de la clase. Una manera de determinar la clase definida por x i sería: Desde xi - h/2 inclusive, hasta menos de xi+ h/2, esto es, el intervalo [x i - h / 2 , x i + h / 2) Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2 v j < x i + h/2 . Como vemos, en cada intervalo de clase se incluye al límite inferior. 24 HISTOGRAMA (Karl Pearson) Un histograma es un conjunto de rectángulos cada uno de los cuales representa un intervalo de agrupación o clase. La base de cada rectángulo coincide con el intervalo de clase, y la altura se determina de manera que su área sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada clase. La variable de interés se grafica sobre el eje horizontal, el eje vertical representa el número, proporción o porcentaje de observaciones para cada intervalo de clase. Histograma de frecuencia 25 Distribución asimétrica que es típica de los datos económicos, y en general de mediciones de renta, población, consumo de electricidad, tamaño de empresas, etc Distribución simétrica que aparece en muchos procesos de fabricación aparece al mezclar elementosde varias poblaciones 26 presenta una distribución truncada, al someter a piezas a un control de calidad que tiene límite de especificaciones A y B es muy asimétrica y surge al estudiar tiempos entre averías, entre llegadas, entre accidentes, etc 27 Construcción de Polígonos de Frecuencias: estos pueden ser polígonos el punto medio de cada clase represente los datos de esa clase y después conectando la secuencia de sus respectivos porcentajes de clase. Se debe tener presente que el polígono es una representación de la forma de una distribución particular. Como el área bajo la distribución porcentual (la totalidad de la curva) debe ser del 100%, es necesario conectar los puntos medios primero y último con el eje horizontal, para abarcar el área total de la distribución observada 28 Curva de frecuencias suavizadas: en una muestra suficientemente grande podría suavizarse el polígono de frecuencia y se obtendría el siguiente gráfico. 29 30 DIAGRAMA DE PARETO: Pasos para su construcción: 1. Organizar los datos en tabla de Distribución de frecuencias. 2. Ordenar los datos por frecuencia absoluta, de manera descendente (de mayor a menor) 3. Calcular la Frecuencia porcentual, y la Frecuencia porcentual acumulada 4. Graficar con barras la frecuencia porcentual 5. Agregar una serie de datos adicional, para la frecuencia % acumulada, de tipo línea 6. Se puede observar que en las primeras 2 a 4 categorías tengo la mayoría entre el 70 al 80% de las causas que más impactan en mi problema. 31 Causas Reclamos Frecuencia relativa % Fr% Acumulado Calidad del Trabajo 49,60% 49,60% Calidad Atención al Cliente 17% 66,80% Plazos 15,80% 82,60% Precio 10,40% 93,00% Producto 3,80% 96,80% Otros 3,20% 100,00% DIAGRAMA DE PARETO: Frec.Relat % Frec.Relat % acum. DISTRIBUCIONES ACUMULADAS Y POLIGONOS ACUMULADOS Una tabla de distribución porcentual acumulada se construye “añadiendo” un intervalo de clase extra al final. Para el ejemplo de los contenidos de nicotina se calculan los porcentajes acumulados en la columna del “menor que”, determinando el porcentaje de las observaciones que son inferiores a cada uno de los límites inferiores 32 33 CONSTRUCCION DE UN HISTOGRAMA CON INTERVALOS DE CLASE DE DISTINTO ANCHO Ejemplo: En un estudio de ruptura por torsión durante el tejido de tela, se probaron 100 muestras de hilo. Se determinó el número de ciclos de tensión a la ruptura para cada muestra de hilo y se realizó con dichos datos un histograma con clases de la misma amplitud. Se presenta también un diagrama de puntos de los 100 datos obtenidos. Gráfico de puntos del número de ciclos de tensión a la ruptura para 100 muestras de hilo Es posible que los intervalos de clase de igual amplitud no sea una elección atinada si un conjunto de datos se “extiende” a un lado u otro. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen frecuencia cero, tal como puede apreciarse en la Figura 13. 34 35 Distribución de frecuencias del N° de ciclos de tensión a la ruptura para 100 muestras de hilo 36 IMPORTANTE: el área total de los rectángulos en un histograma de densidad es igual a 1. 37 ESTADISTICA DESCRIPTIVA PROPIEDADES DE LOS DATOS NUMERICOS Las tres propiedades principales que describen un conjunto de datos numéricos son: Tendencia central Dispersión Forma Sirven para extraer y resumir las principales características de los datos. Si se calculan a partir de una muestra se las denomina estadísticos, si se calculan a partir de una población se las denomina parámetros. MEDIDAS DE TENDENCIA CENTRAL: Aritmética, Mediana, Moda y Rango Medio 1. MEDIA ARITMÉTICA 38 Ejemplo 1 : Los siguientes datos corresponden a las temperaturas diarias (en grados centígrados) registradas durante una semana del mes de julio en San Salvador de Jujuy : 3, 2, 1, 2, 1, 0, -1 En este caso la media aritmética resulta =( 3 + 2 + 1 + 2 + 1 + 0 - 1 ) / 7 = 8 / 7, luego 1,14. Se concluye que la “temperatura promedio en esa semana fue de 1, 14°C aproximadamente” Una representación de la distribución de frecuencias mediante un diagrama de puntos MEDIA ARITMÉTICA La MEDIA ARITMETICA resulta muy afectada por valores extremos. 39 1.1. MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS NO AGRUPADOS Se puede obtener también a partir de la distribución de frecuencias de los valores posibles de la variable x. Obviamente es para el caso que el número de valores posibles de la variable sea pequeño. En este caso : media aritmética, n: número de valores distintos de la variable x, f i: frecuencia (número de observaciones iguales a xi) Ejemplo 4 : Se ha realizado un estudio del número de hijos de mujeres de un lugar de España. Para ello ha tomado una muestra de 100 mujeres mayores de 15 años y se ha registrado el número de hijos de las mismas. El resultado ha sido: 40 1.2 MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS AGRUPADOS x : media aritmética, n: número de observaciones en la muestra (tamaño de la muestra), mi: marca de clase (centro del intervalo), f i: frecuencia de la clase (número de observaciones clasificadas en la i-ésima clase, k: número de clases 41 LA MEDIANA La mediana de una muestra se denota a veces por . La mediana es el valor que se encuentra en el centro de un LOTE ORDENADO; es decir, la mediana divide el lote ordenado en dos partes iguales. No es afectada por datos extremos 42 43 LA MODA: La moda de un conjunto de datos es el valor que se presenta con mayor frecuencia en la muestra. Pueden presentarse casos de distribuciones multimodales. Se suele tomar el valor más próximo a la media. La siguiente muestra 5, 1, 6, 9, 2, 3 no tiene moda. La muestra 2, 8, 9, 6, 2, 8, 6, 2, 8, 7, 3 presenta dos modas 2 y 8. Estos datos se describen como bimodales. En el ejemplo del tiempo de vida de las moscas, el tiempo modal de vida es de 7 segundos (pues 7 segundos es el dato que presenta la mayor frecuencia) RANGO MEDIO: Es el promedio de las observaciones mayor y menor de un conjunto de datos. A pesar de su sencillez, el rango medio se debe usar con cautela, ya que sólo involucra las observaciones mayor y menor de un conjunto de datos, si hay observaciones extremas se distorsiona 44 MEDIDAS DE DISPERSIÓN La dispersión es el grado de variación o diseminación de los datos. Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersión; o como se muestra en los siguientes ejemplos, dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir mucho en términos de dispersión. Este último caso se ejemplifica en los siguientes conjuntos de datos. Ejemplo 17: Los datos de la muestra A señalan el tiempo de funcionamiento (en días) hasta que se presenta la primera falla de n = 6 radiotransmisores-receptores de marca A y los datos de la muestra B corresponden a n = 6 radiotransmisores-receptores de marca B 45 Los datos de la muestra B son mucho menos variables que los de la muestra A. Observemos que ambos tienen la misma media. Las medidas de dispersión que analizaremos en primera instancia son: el rango, la varianza, la desviación estándar y el coeficiente de variación MEDIDAS DE DISPERSIÓN Una segunda propiedad importante que describe a un conjunto de datos es la dispersión. La dispersión es el grado de variación o diseminación de los datos. Analizaremos: el rango, la varianza, la desviación estándar y el coeficiente de variación El rango es la diferencia entre las observaciones Máxima y mínima de un conjunto de datos. Mide la dispersión total del conjunto de datos. No es recomendable cuando tenemos observaciones extremas : RANGO = xMAXIMO - x MINIMO 46 VARIANZA: Para una muestra que contiene n observaciones x1 , x 2, . . . , x n , la varianza muestral (representada por S2 ), se define de la siguiente manera : La Varianza Muestral es casi el promedio de los cuadrados de las diferenciasentre cada una de las observaciones de un conjunto de datos y la media. 47 La desviación estándar muestral (cuya notación es el símbolo S) es simplemente la raíz cuadrada positiva de la varianza muestral. DESVIACION ESTANDAR: 48 Qué indican la varianza y la desviación estándar? La varianza y la desviación estándar miden la dispersión “promedio” en torno a la media; es decir, cómo fluctúan las observaciones mayores por encima de la media y cómo se distribuyen las observaciones menores por debajo de ella. La varianza tiene ciertas propiedades matemáticas útiles. Sin embargo, al calcularla se obtienen unidades al cuadrado ( segundos al cuadrado, pesos al cuadrado , centímetros al cuadrado, años al cuadrado, etc. ). Por ello en la práctica la principal medida de dispersión que se utiliza es la desviación estándar, cuyo valor está dado en las unidades originales de los datos: segundos, pesos, centímetros, años, etc. 49 50 COEFICIENTE DE VARIACIÓN El coeficiente de variación es una medida relativa de dispersión. Se expresa en porcentaje y no en términos de unidades de los datos manejados. Es independiente de las unidades utilizadas. El coeficiente de variación, representado con el símbolo CV, mide la dispersión de los datos con respecto a la media. Se lo puede calcular mediante Donde S = desviación estándar del conjunto de datos = media del conjunto de datos Como medida relativa, el coeficiente de variación es útil sobre todo cuando se compara la variabilidad de dos o más conjuntos de datos expresados en diferentes unidades de medición. El CV es también muy útil cuando se comparan dos o más conjuntos de datos que se miden en las mismas unidades, pero que difieren en tal medida que una comparación directa de las respectivas desviaciones estándar no resulta muy útil. 51 52 FORMA Una distribución es simétrica si una mitad es aproximadamente una imagen de espejo de la otra. En caso contrario se dice que la distribución es asimétrica. Ej: histograma que muestra la distribución de las alturas de 1.100 estudiantes universitarios. 53 SESGO Se conoce como sesgo el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría. Una distribución asimétrica se dice sesgada a la derecha si tiene una cola más larga a la derecha que a la izquierda; es decir si la distribución está más extendida hacia los valores mayores. Será sesgada a la izquierda si tiene una cola más larga a la izquierda que a la derecha; es decir si la distribución está más extendida hacia los valores menores. Ejemplos: 54 rango medio < media < eje medio < mediana < moda moda < mediana < eje medio < media < rango medio 55 MEDIDAS DE ASIMETRIA 1. INDICE DE ASIMETRÍA DE PEARSON • Si la distribución es simétrica el Sesgo será 0. • Si la distribución es sesgada a la derecha (asimétrica positiva), el sesgo será mayor que 0. • Si la distribución es sesgada a la izquierda (asimétrica negativa), el sesgo será menor que 0 Para evitar el uso de la moda, podemos recurrir al siguiente índice 2. INDICE DE ASIMETRÍA DE FISHER Si la distribución es simétrica As será 0 (curva B del gráfico). Si la distribución es asimétrica positiva, As será mayor que 0 (curva A del gráfico). Si la distribución es asimétrica negativa, As será menor que 0 (curva C del gráfico).Desventaja: Muy influida por puntuaciones atípicas 56 57 CURTOSIS La curtosis representa la elevación o achatamiento de una distribución, normalmente se toma en relación a la distribución normal. Una distribución que presenta una elevación (o apuntamiento) relativo alto, tal como la de la curva de la figura (A), se llama leptocúrtica, mientras que la curva de la figura (C), que es más achatada, se llama platicúrtica. La distribución normal, figura (B), que no es muy puntiaguda ni achatada, se llama mesocúrtica Si la distribución es normal (mesocúrtica), el índice vale 0. Si la distribución es leptocúrtica, el índice es superior a 0. Si la distribución es platicúrtica, el índice es inferior a 0.
Compartir