Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 UNIVERSIDAD NACIONAL LOS COMECHINGONES Cátedra: Estadística Unidad N°1: Organización de la Información 1.-Introducción Para conocer de qué trata la Estadística, podemos plantarnos los siguientes interrogantes: ¿en qué consiste?, ¿qué es como objeto de estudio?. Podemos decir que: “Consiste en la aplicación de métodos para evaluar el grado en que el azar contribuye en las mediciones” Como objeto de estudio, es la tecnología del método científico que proporciona instrumentos para la toma de decisiones, cuando estas se adoptan en ambiente de incertidumbre y siempre que puedan ser medidas en términos de probabilidad. Luego es una ciencia que estudia los fenómenos aleatorios. Existen dos grandes ramas de la Estadística, la Estadística Descriptiva (tablas, gráficos, medidas etc) y la Estadística Inferencial (Probabilidad, Test de Hipótesis, etc). También necesitamos precisar los siguientes conceptos, ya que haremos uso de los mismos: Población: Se considera población al conjunto total de objetos o individuos que presentan características comunes observables en un tiempo y espacio determinados. Al tamaño de una población lo designamos con la letra N. Muestra:“Es la parte de la población que se utiliza para obtener información”. Al tamaño de una muestra lo designamos con la letra n. Unidad: “Objeto o persona individual” 2.-Idea del muestreo estadístico En muchos casos la población es demasiado grande como para ser estudiada por completo, de manera que ciertos métodos para su análisis, podrían demandar mucho tiempo y dinero. El método básico en Estadística es, tomar muestras, y de éstas obtener conclusiones acerca de la población correspondiente. Con el objeto de aplicar métodos estadísticos para obtener información acerca de las poblaciones, es importante la selección aleatoria de las correspondientes muestras y que los ensayos mediante los cuales se obtiene una muestra sean independientes unos a otros. Existen varios métodos para seleccion utilizado es el Muestreo Aleatorio Simple. unidades de una población de tamaño tenga la misma posibilidad de ser elegida. Para obtener una muestra aleatoria simple, se enumeran las unidades de aleatorios entre 1 y N ( tarea que se puede realizar usando una tabla de números aleatorios o mediante un programa de computación que produce una tabla semejante).Las unidades cuya numeración coincide con la serie de números seleccionados conformarán la muestra aleatoria. Bajo este esquema, entonces no puede ser seleccionada garantizar “ la misma oportunidad de selección a todos no hayan sido seleccionados aún. 3.-Etapas de una investigación compuesto por los siguientes Formulación del problema preguntas y se imponen limitaciones adecuadas al problema, teniendo en cuenta, tiempo y recursos humanos Diseño del experimento: empleando un mínimo el tamaño de la muestra, eficientemente el problema. método matemático que selección del o los métodos, de la población en estudio. Recolección de los datos: en toda investigación Descripción de los resultados: forma legible y se ilustran barras, etc) ; además separación de los valores Inferencia Estadística estadístico determinado, población correspondiente 4.-Variables-Tipos de variables: Entendemos por variable, a una muestra. Existen dos tipos de Cuantitativas. varios métodos para seleccionar los elementos de una muestra, entre ellos el más Muestreo Aleatorio Simple. Este método consiste en la selección de unidades de una población de tamaño N de tal modo que cada una de las muestras posibles tenga la misma posibilidad de ser elegida. Para obtener una muestra aleatoria simple, se 1 a N y, posteriormente, se extrae una serie de ( tarea que se puede realizar usando una tabla de números aleatorios de computación que produce una tabla semejante).Las unidades numeración coincide con la serie de números seleccionados conformarán la muestra esquema, si una unidad muestral fue previamente seleccionada nuevamente. En cada extracción “ la misma oportunidad de selección a todos y a cada uno de los elementos” seleccionados aún. investigación estadística: Es un procedimiento iterativo, siguientes pasos: Formulación del problema: Aquí se establecen conceptos precisos imponen limitaciones adecuadas al problema, teniendo en cuenta, humanos y económicos disponibles. experimento: Lo deseable es obtener un máximo de información mínimo de costo y tiempo .Ello implica, entre otras cosas, muestra, o la cantidad y tipo de datos que resolverán problema. Asimismo, estos tamaños estarán afectados que se seleccione . Cuanto más aleatoria y apropiada métodos, más confiable será la inferencia que se estudio. datos: Generalmente, esta etapa es la que más tiempo investigación que sea realizada .Esta debe sujetarse a reglas resultados: En esta etapa los datos experimentales ilustran con representaciones gráficas (diagramas, se calculan medidas descriptivas para el tamaño los valores de la muestra. Estadística y formulación de la respuesta: Al aplicar un determinado, obtenemos conclusiones a partir de la muestra, correspondiente y formulamos la respuesta a nuestro problema. variables: una característica de interés a ser medida en cada de variables, las variables Cualitativas y las variables 2 , entre ellos el más Este método consiste en la selección de n de tal modo que cada una de las muestras posibles tenga la misma posibilidad de ser elegida. Para obtener una muestra aleatoria simple, se y, posteriormente, se extrae una serie de n números ( tarea que se puede realizar usando una tabla de números aleatorios de computación que produce una tabla semejante).Las unidades numeración coincide con la serie de números seleccionados conformarán la muestra previamente seleccionada, el proceso debe y a cada uno de los elementos” que iterativo, el cual, está e establecen conceptos precisos, se formulan imponen limitaciones adecuadas al problema, teniendo en cuenta, información cosas, determinar resolverán más afectados por el y apropiada sea la se realice acerca tiempo consume reglas estrictas. experimentales se ponen en (diagramas, gráficos de tamaño promedio y la un método muestra, acerca de la problema. cada unidad de la variables 3 Las Cualitativas asumen valores que no son necesariamente numéricos pero pueden ser categorizados. No se puede operar algebraicamente con ellos. Las Cuantitativas, toman valores numéricos para los cuales sumar, restar o promediar dichos valores tienen significado. Las variables Cuantitativas pueden dividirse en dos grupos: las cuantitativas discretas sólo pueden tomar valores aislados en un intervalo y las cuantitativas continuas son las que pueden tomar cualquier valor de un intervalo. 5.-Organizaciónde los datos: Tabla de frecuencias-Intervalos de Clase Al registrar los resultados de un estudio, se obtiene un número de observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo. Por ello, es deseable presentar las observaciones en forma resumida A los fines de ordenar, resumir y presentar la información, se utilizan tablas y gráficos apropiados para cada tipo de variable. Para organizar los datos u observaciones de distintas maneras e indicar los sitios donde los valores tienden a acumularse, como asimismo, para distinguir los valores mayores y menores, el primer método que se utiliza para describir un conjunto de datos es la distribución o tabla de frecuencias. Tabla de frecuencias: Una tabla de frecuencias es un agrupamiento de datos o categorías mutuamente excluyentes, que indican el número de observaciones en cada categoría. Ejemplo: La siguiente es una tabla de frecuencia que muestra el número de días en que los empleados de cierta Institución, estuvieron ausentes a causa de una enfermedad, durante un año. Número de días ausentes Número de empleados (Frecuencia)0 a 2 5 3 a 5 12 6 a 8 23 9 a 11 8 12 a 14 2 Total 50 4 Una tabla de frecuencias, para una variable cualitativa, es conveniente que contenga por lo menos cuatro columnas, en el siguiente orden: o La que detalla las diferentes categorías. o La que contiene las correspondientes frecuencias absolutas (cantidad de veces que se repite el valor de la variable en el conjunto de datos). o La que contiene las correspondientes frecuencias relativas (cociente entre cada una de las frecuencia absolutas y el total de observaciones). o La que contiene las correspondientes frecuencias porcentuales. Una tabla de frecuencias, para una variable cuantitativa, es conveniente que contenga las siguientes columnas, en el siguiente orden: o La que expresa los valores de la variable o sub-intervalos (dependiendo de si es discreta o continua) . o La que contiene las correspondientes frecuencias absolutas. o La que contiene las correspondientes frecuencias relativas. o La que contiene las correspondientes frecuencias acumuladas. o La que contiene las correspondientes frecuencias relativas acumuladas. ¿Cómo confeccionar la primera columna para una variable Cuantitativa Continua? Es necesario agrupar los valores obtenidos mediante un conjunto de clases (sub-intervalos) Por lo general la distribución de frecuencias debe contener un mínimo de 5 clase pero no más de 15. Una manera de determinar el número de clases o sub-intervalos, dado un conjunto de n observaciones es calcular √𝑛 ( n =tamaño de la muestra). Con las observaciones de menor y mayor valor conformamos el intervalo [Xmín,Xmáx], el cual se debe agrandar si es necesario (puede ser a la derecha, a la izquierda o en ambas direcciones a la vez). Al intervalo ampliado se le calcula la amplitud : Xmáx-Xmín. Luego a la amplitud la dividimos por √𝑛 para saber cuál es la amplitud de cada sub-intervalo. En la primera fila, debemos colocar el primer sub-intervalo, el valor del extremo inferior del mismo va a ser igual al valor del extremo inferior del intervalo ampliado y el valor del extremo superior va a ser igual al resultado de la suma entre el extremo inferior y la amplitud del sub-intervalo .En la segunda fila colocamos el segundo sub-intervalo cuyo límite inferior es igual al límite superior del sub-intervalo anterior y el límite superior está conformado por la suma de su límite inferior y la amplitud del sub-intervalo y así sucesivamente hasta llegar al último sub-intervalo en el cual su límite superior es igual al límite superior del intervalo ampliado .En cada sub-intervalo debemos colocar un paréntesis o un corchete , esto va a depender en qué sentido ampliamos el intervalo inicial. Como generalmente el intervalo o amplitud de las clases o categorías que intervienen en una tabla de frecuencias, debe ser el mismo para todas , ellas juntas deben cubrir por lo menos la distancia que hay desde el menor hasta el mayor valor que se tiene en los datos a procesar. 5 Aspectos a tener en cuenta: Los intervalos de clase desiguales ofrecen dificultades al representar en forma gráfica la distribución y al hacer algunos cálculos, no obstante, pueden ser necesarios en algunos casos para evitar un gran número de clases vacías o casi vacías. Es necesario establecer límites de clase claros de manera que cada observación pertenezca sólo a una clase. Ello es para evitar que se superpongan o que no sean lo suficientemente claros. Suele ser útil, en algunos casos, expresar los datos en miles o en algunas otras unidades adecuadas, en lugar de las cifras reales. Para determinar el tamaño del intervalo de clase, se resta el límite inferior de una clase, del límite inferior de la siguiente. Veamos un Ejemplo: Los siguientes datos corresponden a la pérdida de cierto cultivo (en toneladas por hectárea), a raíz de distintos focos de incendio registrados, durante un año, en 42 regiones de una zona del país. 17,2 13,5 17,7 20,1 13,7 16,6 18,0 18,9 14,4 13,5 19,3 15,4 17,6 21,6 17,8 18,8 10,2 12,1 18,6 16,0 15,7 17,2 9,9 17,9 19,7 15,5 12,8 19,1 20,0 14,8 18,8 13,9 19,3 22,8 13,9 15,7 14,2 18,4 17,1 9,9 13,9 14,2 Ya que la variable es cuantitativa continua, el sistema de clasificación de la tabla de frecuencias está compuesto por intervalos de clase. Para ello, tenemos que calcular : R=22,8 – 9,9= 12,9 entonces i=12,9 = 1,991 ≅ 2 y R/i≈7 intervalos. √42 Pérdida (tn/ha) N° de regiones Proporción de zonas o regiones Porcentaje de zonas o regiones (9, 11] 3 3/42=0,0714 0,0714 x 100 = 7,14 (11,13] 2 2/42=0,0476 0,0476 x 100=4,76 (13,15] 10 10/42=0,2381 0,2381 x 100=23,81 (15,17] 6 6/42=0,1429 0,1429 x 100=14,29 (17,19] 13 13/42=0,3095 0,3095 x 100=30,95 6 (19,21] 6 6/42=0,1429 0,1429 x 100=14,29 (21,23] 2 2/42=0,0476 0,0476 x 100=4,76 TOTAL 42 1 100 6.-Representaciones gráficas de una distribución de frecuencias Para observar o visualizar de una manera rápida las tendencias o comportamiento de un conjunto de datos suelen utilizarse diagramas o gráficos. Entre los más utilizados, encontramos : gráfico de sector o torta, gráfico de líneas o diagrama de barras, histograma , polígono de frecuencias , polígono de frecuencias acumuladas, gráfico de series de tiempo. Gráfico de sector o torta: Es un gráfico apropiado para variables cualitativas. Los datos van a estar agrupados en diferentes categorías. Se divide un círculo en sectores. Cada categoría va a estar representada por un sector del gráfico .El tamaño de cada sector es proporcional al porcentaje de unidades que pertenecen a la categoría que representa. Ejemplo: Se le consultó a 100 personas cuál era el grado de satisfacción, respecto de su trabajo, clasificado en : Satisfecho, Insatisfecho e Indiferente. Se muestra una tabla con los resultados obtenidos: Grado de satisfacción Frec. Absoluta Frec. relativa Porcentaje Satisfecho 42 42/100 42% Insatisfecho 35 35/100 35% Indiferente 23 23/100 23% TOTAL 100 1 100% La fórmula para calcular Gráfico de líneas o diagrama apropiado para la distribución ser utilizado para la distribución categoría es representada La longitud de la barra que posee la correspondiente ancho y estar separadas Ejemplo 1: Diagrama de barras En un grupo de 50 empleados Color ojos Empleados Negros 14 Marrones 24 Verdes 4 Azules 8 calcular el ángulo de cada sector es diagrama de barras: Al igual que el gráfico de distribución de una variable cualitativa, aunque también distribución de una variable cuantitativa discreta. representada por una barra, las cuales se colocan en uno barra es proporcional a la cantidad de elementos (o correspondiente categoría. Todas las barras deben tener separadas entre sí. barras para variables cualitativas empleados de una empresa se observa el color de ojos de El diagrama de barras asociado Empleados 7 la siguiente: de Sector, es también , puede discreta. Cada uno de los ejes . (o porcentaje) tener el mismo de los mismos es: 8 Nº Residentes Viviendas 1 persona 444.390 2 personas 551.618 3 personas 477.622 4 personas 573.254 5 personas 244.544 6 personas 81.973 7 personas 26.793 8 personas 9.989 9 personas 3.712 10 o más personas 3.284 Ejemplo2: Diagrama de barras o gráfico de bastón para variables cuantitativas discretas El procedimiento a seguir es similar al del caso cualitativo, con la salvedad de que ahora podremos obtener también diagramas de barras acumulados, cosa que no era posible determinar en el caso cualitativo. Consideremos el número de habitantes por vivienda en cierta ciudad en 2017.La variable número de habitantes es cuantitativa por tanto podemos ordenar sus modalidades y realizar un estudio acumulado. Nº Residentes Viviendas acumuladas 1 persona 444.390 2 personas 996.008 3 personas 1.473.630 4 personas 2.046.884 5 personas2.291.428 6 personas 2.373.401 7 personas 2.400.194 8 personas 2.410.183 9 personas 2.413.895 10 o más personas 2.417.179 9 Histograma: Es una gráfica, respecto de una tabla de distribución de frecuencias de una variable cuantitativa continua, en la que las clases se marcan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase están representadas por las alturas de las barras, y éstas se colocan adyacentes una a otra. De esta manera, el histograma describe una distribución de frecuencias utilizando una serie de rectángulos adyacentes, la altura de cada rectángulo es proporcional a la frecuencia que representa. Debe indicarse que se llegan a las mismas conclusiones , en la lectura de un histograma, si se utiliza una distribución de frecuencias relativas en lugar de la distribución de frecuencias reales o absolutas . La única diferencia es que en el eje vertical estarían las correspondientes frecuencias relativas o bien éstas expresadas en porcentajes. Ejemplo: En la siguiente tabla se muestran los pesos (en kg) de 26 alumnos: Sub-intervalos Frec.absoluta Frec.relativa Frec.abs.acu. Frec.rel.ac. (41;47] 4 0,15 4 0,15 (47;53] 7 0,27 11 0,43 (53;59] 4 0,15 15 0,58 (59;65] 3 0,13 18 0,70 (65;71] 4 0,15 22 0,80 (71;77] 4 0,15 26 1 TOTAL 26 1 10 Polígono de Frecuencias: Es similar al histograma, está formado por segmentos de recta que unen a los puntos medios de clase y las frecuencias de clase. Tanto el histograma como el polígono de frecuencias permiten obtener una imagen rápida de las principales características de los datos /altos bajos, puntos de concentración etc.). Polígono de frecuencias acumuladas: Para poder realizar este polígono, necesitamos contar con las frecuencias acumuladas, localizando el límite superior de cada clase en el eje X, y las frecuencias acumuladas correspondientes a los largo del eje Y. Para proporcionar información adicional ,puede graduarse el eje vertical de la izquierda en unidades y , el de la derecha, en porcentajes Gráfico de Series de Tiempo: Cuando los datos de una variable se recolectan a lo largo del tiempo, es útil graficar los datos contra el tiempo o en el orden en el cual fueron obtenidos, es decir , describe los valores de la variable observada como una función del tiempo .En el eje vertical se expresa los valores de la variable y en el eje horizontal el tiempo. Luego se marcan diferentes puntos que representan a los valores que tomó la variable en determinado tiempo, estos puntos son unidos con líneas para ayudarnos a apreciar la distribución de la variable a lo largo del tiempo. Ejemplo: A continuación se muestra la producción de cierto producto regional argentino año a año, durante el período entre los años 1974-1990. Tiempo 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Valores 2,2 1,8 1,7 1,5 1,6 2,0 2,2 2,0 1,7 1,6 1,8 2,8 2,3 1,9 1,5 1,4 2,5 11 NOTA: Valores relativos a tener en cuenta Proporción:n° de elementos del grupo con alguna característica total delgrupo a considerar Porcentaje: n° de elementos del grupo con alguna característica x 100 total delgrupo a considerar Tasa: n° de elementos del grupo con alguna característica x 1000 total delgrupo a considerar Razón: n° de elementos del grupo con característica K n°de elementos del grupo con caracterídtica F
Compartir