Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 UNIVERSIDAD NACIONAL LOS COMECHINGONES Cátedra: Estadística Unidad N°1: Organización de la Información 1.Conceptos de: Estadística: “Es la aplicación de métodos para evaluar el grado en que el azar contribuye en las mediciones” Existen dos grandes ramas de la Estadística , la Estadística Descriptiva (tablas, gráficos, medidas etc) y la Estadística Inferencial (Probabilidad, Test de Hipótesis, etc).. Población: Se considera población al conjunto total de objetos o individuos que presentan características comunes observables en un tiempo y espacio determinados. Al tamaño de una población lo designamos con la letra N. Muestra:“Es la parte de la población que se utiliza para obtener información”. Al tamaño de una muestra lo designamos con la letra n. Unidad: “Objeto o persona individual” 2.-Idea del muestreo estadístico En muchos casos la población es demasiado grande como para ser estudiada por completo, de manera que ciertos métodos para su análisis, podrían demandar mucho tiempo y dinero. El método básico en Estadística es, tomar muestras, y de éstas obtener conclusiones acerca de la población correspondiente. Con el objeto de aplicar métodos estadísticos para obtener información acerca de las poblaciones, es importante la selección aleatoria de las correspondientes muestras y que los ensayos mediante los cuales se obtiene una muestra sean independientes unos a otros. Existen varios métodos para seleccionar los elementos de una muestra , entre ellos el más utilizado es el Muestreo Aleatorio Simple. Este método consiste en la selección de n unidades de una población de tamaño N de tal modo que cada una de las muestras posibles tenga la misma posibilidad de ser elegida. Para obtener una muestra aleatoria simple, se enumeran las unidades de 1 a N y , posteriormente, se extrae una serie de n números aleatorios entre 1 y N ( tarea que se puede realizar usando una tabla de números aleatorios o mediante un programa de computación que produce una tabla semejante).Las unidades cuya numeración coincide con la serie de números seleccionados conformarán la muestra aleatoria. Bajo este esquema, si una unidad muestral fue previamente seleccionada, entonces no puede ser seleccionada nuevamente. En cada extracción el proceso debe 2 garantizar “ la misma oportunidad de selección a todos y a cada uno de los elementos” que no hayan sido seleccionados aún. 3.-Etapas de una investigación estadística: Es un procedimiento iterativo, el cual, está compuesto por los siguientes pasos: Formulación del problema: Aquí se establecen conceptos precisos, se formulan preguntas y se imponen limitaciones adecuadas al problema, teniendo en cuenta, tiempo y recursos humanos y económicos disponibles. Diseño del experimento: Lo deseable es obtener un máximo de información empleando un mínimo de costo y tiempo .Ello implica, entre otras cosas, determinar el tamaño de la muestra, o la cantidad y tipo de datos que resolverán más eficientemente el problema. Asimismo, estos tamaños estarán afectados por el método matemático que se seleccione. Cuanto más aleatoria y apropiada sea la selección del o los métodos, más confiable será la inferencia que se realice acerca de la población en estudio. Recolección de los datos: Generalmente, esta etapa es la que más tiempo consume en toda investigación que sea realizada .Esta debe sujetarse a reglas estrictas. Descripción de los resultados: En esta etapa los datos experimentales se ponen en forma legible y se ilustran con representaciones gráficas(diagramas, gráficos de barras, etc) ; además se calculan medidas descriptivas para el tamaño promedio y la separación de los valores de la muestra. Inferencia Estadística y formulación de la respuesta: Al aplicar un método estadístico determinado, obtenemos conclusiones a partir de la muestra, acerca de la población correspondiente y formulamos la respuesta a nuestro problema. La Estadística está muy relacionada con el Método Científico y , conjuntamente, proporcionan un procedimiento analítico para poder tomar decisiones. 4.-Variables-Tipos de variables: Entendemos por variable , a una característica de interés a ser medida en cada unidad de la muestra. Existen dos tipos de variables, las variables Cualitativas y las variables Cuantitativas. Las Cualitativas asumen valores que no son necesariamente numéricos pero pueden ser categorizados. No se puede operar algebraicamente con ellos. Las Cuantitativas, toman valores numéricos para los cuales sumar, restar o promediar dichos valores tienen significado. 3 Las variables Cuantitativas pueden dividirse en dos grupos: las cuantitativas discretas sólo pueden tomar valores aislados en un intervalo y las cuantitativas continuas son las que pueden tomar cualquier valor de un intervalo. 5.-Organizaciónde los datos: Tabla de frecuencias-Intervalos de Clase Al registrar los resultados de un estudio, se obtiene un número de observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo. Por ello ,es deseable presentar las observaciones en forma resumida A los fines de ordenar, resumir y presentar la información , se utilizan tablas y gráficos apropiados para cada tipo de variable. Para organizar los datos u observaciones de distintas maneras e indicar los sitios donde los valores tienden a acumularse, como asimismo, para distinguir los valores mayores y menores, el primer método que se utiliza para describir un conjunto de datos es la distribución o tabla de frecuencias. Tabla de frecuencias: Una tabla de frecuencias es un agrupamiento de datos o categorías mutuamente excluyentes , que indican el número de observaciones en cada categoría. Ejemplo: La siguiente es una tabla de frecuencia que muestra el número de días en que los empleados de cierta Institución, estuvieron ausentes a causa de una enfermedad, durante un año. Número de días ausentes Número de empleados Intervalo de Clase Frecuencia (0, 3] 5 (3 , 6] 12 ( 6 , 9] 23 (9 , 12] 8 (12 ,15] 2 Total 50 Una tabla de frecuencias, para una variable cualitativa, es conveniente que contenga por lo menos cuatro columnas, en el siguiente orden: o La que detalla las diferentes categorías. 4 o La que contiene las correspondientes frecuencias absolutas (cantidad de veces que se repite el valor de la variable en el conjunto de datos). o La que contiene las correspondientes frecuencias relativas (cociente entre cada una de las frecuencia absolutas y el total de observaciones ). o La que contiene las correspondientes frecuencias porcentuales. Una tabla de frecuencias, para una variable cuantitativa, es conveniente que contenga las siguientes columnas, en el siguiente orden: o La que expresa los valores de la variable o sub-intervalos ( dependiendo de si es discreta o continua) . o La que contiene las correspondientes frecuencias absolutas. o La que contiene las correspondientes frecuencias relativas. o La que contiene las correspondientes frecuencias acumuladas. o La que contiene las correspondientes frecuencias relativas acumuladas. ¿Cómo confeccionar la primera columna para una variable Cuantitativa Continua? Es necesario agrupar los valores obtenidos mediante un conjunto de clases (sub-intervalos) Por lo general la distribución de frecuenciasdebe contener un mínimo de 5 clase pero no más de 15. Una manera de determinar el número de clases o sub-intervalos, dado un conjunto de n observaciones es calcular √𝑛 ( n =tamaño de la muestra). Con las observaciones de menor y mayor valor conformamos el intervalo [Xmín,Xmáx], el cual se debe agrandar si es necesario (puede ser a la derecha, a la izquierda o en ambas direcciones a la vez). Al intervalo ampliado se le calcula la amplitud : Xmáx-Xmín. Luego a la amplitud la dividimos por √𝑛 para saber cuál es la amplitud de cada sub-intervalo. En la primera fila, debemos colocar el primer sub-intervalo, el valor del extremo inferior del mismo va a ser igual al valor del extremo inferior del intervalo ampliado y el valor del extremo superior va a ser igual al resultado de la suma entre el extremo inferior y la amplitud del sub-intervalo .En la segunda fila colocamos el segundo sub-intervalo cuyo límite inferior es igual al límite superior del sub-intervalo anterior y el límite superior está conformado por la suma de su límite inferior y la amplitud del sub-intervalo y así sucesivamente hasta llegar al último sub-intervalo en el cual su límite superior es igual al límite superior del intervalo ampliado .En cada sub-intervalo debemos colocar un paréntesis o un corchete , esto va a depender en qué sentido ampliamos el intervalo inicial. Como generalmente el intervalo o amplitud de las clases o categorías que intervienen en una tabla de frecuencias, debe ser el mismo para todas , ellas juntas deben cubrir por lo menos la distancia que hay desde el menor hasta el mayor valor que se tiene en los datos a procesar. Aspectos a tener en cuenta: 5 Los intervalos de clase desiguales ofrecen dificultades al representar en forma gráfica la distribución y al hacer algunos cálculos, no obstante, pueden ser necesarios en algunos casos para evitar un gran número de clases vacías o casi vacías. Es necesario establecer límites de clase claros de manera que cada observación pertenezca sólo a una clase. Ello es para evitar que se superpongan o que no sean lo suficientemente claros. Suele ser útil, en algunos casos, expresar los datos en miles o en algunas otras unidades adecuadas , en lugar de las cifras reales. Para determinar el tamaño del intervalo de clase , se resta el límite inferior de una clase , del límite inferior de la siguiente. Veamos un Ejemplo: Los siguientes datos corresponden a la pérdida de cierto cultivo (en toneladas por hectárea), a raíz de distintos focos de incendio registrados, durante un año, en 42 regiones de una zona del país. 17,2 13,5 17,7 20,1 13,7 16,6 18,0 18,9 14,4 13,5 19,3 15,4 17,6 21,6 17,8 18,8 10,2 12,1 18,6 16,0 15,7 17,2 9,9 17,9 19,7 15,5 12,8 19,0 Ya que la variable es cuantitativa continua, el sistema de clasificación de la tabla de frecuencias está compuesto por intervalos de clase. Para ello, tenemos que calcular : R=22,8 – 9,9= 12,9 entonces i= , √ = 1,991 ≅ 2 y R/i≈7 intervalos. Pérdida (tn/ha) N° de regiones Proporción de zonas o regiones Porcentaje de zonas o regiones (9,11] 3 3/42=0,0714 0,0714 x 100 = 7,14 (11,13] 2 2/42=0,0476 0,0476 x 100=4,76 [13,15) 10 10/42=0,2381 0,2381 x 100=23,81 (15,17] 6 6/42=0,1429 0,1429 x 100=14,29 (17,19] 13 13/42=0,3095 0,3095 x 100=30,95 (19,21] 6 6/42=0,1429 0,1429 x 100=14,29 6 (21,23] 2 2/42=0,0476 0,0476 x 100=4,76 TOTAL 42 1 100 6.-Representaciones gráficas de una distribución de frecuencias Para observar o visualizar de una manera rápida las tendencias o comportamiento de un conjunto de datos suelen utilizarse diagramas o gráficos. Entre los más utilizados, encontramos : gráfico de sector o torta, gráfico de líneas o diagrama de barras, histograma , polígono de frecuencias , polígono de frecuencias acumuladas, gráfico de series de tiempo. Gráfico de sector o torta: Es un gráfico apropiado para variables cualitativas. Los datos van a estar agrupados en diferentes categorías. Se divide un círculo en sectores. Cada categoría va a estar representada por un sector del gráfico .El tamaño de cada sector es proporcional al porcentaje de unidades que pertenecen a la categoría que representa. Ejemplo: Se le consultó a 100 personas cuál era el grado de satisfacción, respecto de su trabajo, clasificado en : Satisfecho, Insatisfecho e Indiferente. Se muestra una tabla con los resultados obtenidos : Grado de satisfacción Frec. Absoluta Frec. relativa Porcentaje Satisfecho 42 42/100 42% Insatisfecho 35 35/100 35% Indiferente 23 23/100 23% TOTAL 50 1 100% La fórmula para calcular el ángulo de cada sector es la siguiente: 7 Gráfico de líneas o diagrama de barras: Al igual que el gráfico de Sector, es apropiado para la distribución de una variable cualitativa, aunque también , puede ser utilizado para la distribución de una variable cuantitativa discreta. Cada categoría es representada por una barra , las cuales se colocan en uno de los ejes . La longitud de la barra es proporcional a la cantidad de elementos (o porcentaje) que posee la correspondiente categoría. Todas las barras deben tener el mismo ancho y estar separadas entre sí. Ejemplo 1: Diagrama de barras para variables cualitativas En un grupo de 50 empleados de una empresa se observa el color de ojos de los mismos Color ojos Empleados Negros 14 Marrones 24 Verdes 4 Azules 8 El diagrama de barras asociado es: 8 Ejemplo2: Diagrama de barras o gráfico de bastón para variables cuantitativas discretas El procedimiento a seguir es similar al del caso cualitativo, con la salvedad de que ahora podremos obtener también diagramas de barras acumulados, cosa que no era posible determinar en el caso cualitativo. Consideremos el número de habitantes por vivienda en cierta ciudad en 2017.La variable número de habitantes es cuantitativa por tanto podemos ordenar sus modalidades y realizar un estudio acumulado. Nº Residentes Viviendas 1 persona 444.390 2 personas 551.618 3 personas 477.622 4 personas 573.254 5 personas 244.544 6 personas 81.973 7 personas 26.793 8 personas 9.989 9 personas 3.712 10 o más personas 3.284 Nº Residentes Viviendas acumuladas 1 persona 444.390 2 personas 996.008 3 personas 1.473.630 4 personas 2.046.884 5 personas 2.291.428 6 personas 2.373.401 7 personas 2.400.194 8 personas 2.410.183 9 personas 2.413.895 10 o más personas 2.417.179 9 Histograma: Es una gráfica, respecto de una tabla de distribución de frecuencias de una variable cuantitativa continua, en la que las clases se marcan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase están representadas por las alturas de las barras, y éstas se colocan adyacentes una a otra. De esta manera, el histograma describe una distribución de frecuencias utilizando una serie de rectángulos adyacentes, la altura de cada rectángulo es proporcional a la frecuencia que representa. Debe indicarse que se llegan a las mismas conclusiones , en la lectura de un histograma, si se utiliza una distribución de frecuencias relativas en lugar de la distribución de frecuencias reales o absolutas . La única diferencia es que en el eje vertical estarían las correspondientes frecuencias relativas o bien éstas expresadas en porcentajes. Ejemplo: En la siguiente tabla se muestran los pesos (en kg) de 26 alumnos: Sub-intervalos Frec.absoluta Frec.relativa Frec.abs.acu. Frec.rel.ac. (41;47] 4 0,15 4 0,15 (47;53] 7 0,27 11 0,43(53;59] 4 0,15 15 0,58 (59;65] 3 0,13 18 0,70 (65;71] 4 0,15 22 0,80 (71;77] 4 0,15 26 1 TOTAL 26 1 10 Polígono de Frecuencias: Es similar al histograma, está formado por segmentos de recta que unen a los puntos medios de clase y las frecuencias de clase. Tanto el histograma como el polígono de frecuencias permiten obtener una imagen rápida de las principales características de los datos /altos bajos, puntos de concentración etc.). Polígono de frecuencias acumuladas: Para poder realizar este polígono, necesitamos contar con las frecuencias acumuladas, localizando el límite superior de cada clase en el eje X, y las frecuencias acumuladas correspondientes a los largo del eje Y. Para proporcionar información adicional ,puede graduarse el eje vertical de la izquierda en unidades y , el de la derecha, en porcentajes Gráfico de Series de Tiempo: Cuando los datos de una variable se recolectan a lo largo del tiempo, es útil graficar los datos contra el tiempo o en el orden en el cual fueron obtenidos, es decir , describe los valores de la variable observada como una función del tiempo .En el eje vertical se expresa los valores de la variable y en el eje horizontal el tiempo. Luego se marcan diferentes puntos que representan a los valores que tomó la variable en determinado tiempo, estos puntos son unidos con líneas para ayudarnos a apreciar la distribución de la variable a lo largo del tiempo. 11 Ejemplo: A continuación se muestra la producción de cierto producto regional argentino año a año, durante el período entre los años 1974-1990. Tiempo 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Valores 2,2 1,8 1,7 1,5 1,6 2,0 2,2 2,0 1,7 1,6 1,8 2,8 2,3 1,9 1,5 1,4 2,5
Compartir