Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Página 1 de 11 Unidad 7: Análisis Cuantitativo CLASE 1 2.1 Bases fundamentales. Ordenamiento de datos 2.1.1 Datos crudos 2.1.2 Arreglo de frecuencia y distribución de frecuencia 2.1.3 Consideraciones generales sobre la frecuencia de datos 2.2 Medidas de tendencia central y de posición 2.2.1 Media 2.2.2 Mediana 2.2.3 Moda 2.2.4 Cuantiles 2.3 Medidas de dispersión: la desviación estándar 2.3.1 Rango 2.3.2 Desviación media 2.3.3 Desviación standar ¡Bienvenidos a esta nueva unidad! El análisis estadístico es el análisis que emplea técnicas estadísticas para interpretar datos, ya sea para ayudar en la toma de decisiones o para explicar los condicionantes que determinan la ocurrencia de algún fenómeno. En esta unidad se definirán los conceptos fundamentales. El tipo de análisis a realizar dependerá del objetivo del proyecto que se analice. ¿Comenzamos? Página 2 de 11 2.1 Bases fundamentales El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación de datos para realizar inferencias. Recordemos que los datos se transformarán en información útil para la toma de decisiones. Por lo tanto, a la hora de recopilarlos, debemos ordenarlos de manera tal que nos permitan trabajar con ellos para obtener la información requerida. Los datos son medidas o valores de las características susceptibles de observar y contar. Se originan por la observación de una o más variables de un grupo de elementos o unidades, para que sean útiles se deben organizar de manera que faciliten su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario conocer lo métodos de organización y representación. La finalidad de estos métodos es permitir ver rápidamente todas las características posibles de los datos que se han recolectado. 2.1.1 Datos crudos Se denomina así a los datos tomados directamente del experimento, investigación o trabajo que se realiza o se ha realizado, pero que no están arreglados u ordenados. Son los datos desordenados, que se muestran en el orden en que se recolectaron, el total de los datos (n) se calcula como la suma de los valores observados: n: número de datos observados. Es el tamaño de la muestra. Ejemplo: A continuación se muestran las calificaciones de Matemática del curso 1ro 4ta turno tarde de la escuela Martín Zapata. Tengan en cuenta que la variable de estudio X es discreta y corresponde a la calificación de cada uno de los alumnos. Página 3 de 11 4 5 7 8 7 9 7 7 10 8 9 6 7 7 9 8 10 7 8 6 10 9 8 8 6 7 10 8 8 6 De acuerdo al cuadro n = 30 2.1.2 Arreglo y distribución de frecuencias Cuando ordenamos y/o agrupamos los datos, estos pueden repetirse, por lo tanto al ordenar tendremos en cuenta estas repeticiones. Definiremos como frecuencia de un dato el número de veces que este aparece en la muestra; consecuentemente, si una variable estadística toma x valores, cada uno de los cuales puede repetirse un cierto número de veces, podríamos decir que el número de datos representado por la variable serían “n”, siendo “n” la suma de las respectivas frecuencias de cada dato: 𝑛 = ∑ 𝑓𝑖 = 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 𝑛 𝑖=1 Este valor “n” será denominado como frecuencia total, mientras que la frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente frecuencia ( fi ). La frecuencia absoluta nos habla del número de veces que un dato aparece, más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en una muestra, se utiliza el concepto frecuencia relativa. Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias: • Frecuencias absolutas (fi): es el número de veces que aparece en la muestra dicho valor de la variable. • Frecuencias relativas (fr): es el cociente entre la frecuencia absoluta y el tamaño de la muestra. Página 4 de 11 n f f ir = • Frecuencia acumulada (Fi): para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. Es la suma sistemática de las frecuencias absolutas y se anota el resultado en el valor o clase respectiva a la acumulación. (según estemos trabajando con arreglo o distribución de frecuencias). • Frecuencia relativa acumulada (Fri): al igual que en el caso anterior se calcula como el cociente entre la frecuencia acumulada dividida por el tamaño de la muestra. Distribución de Frecuencias Es una tabla estadística donde se presentan los datos resumidos, de tal manera que se puede tener una visión panorámica y establecer un criterio sobre su comportamiento, entendiéndose por comportamiento, la determinación aproximada de los valores centrales, la variabilidad que presentan y si son o no relativamente simétricos con relación a un valor central. En una tabla de frecuencias se pueden resumir cualquier tipo de datos, discretos y continuos, para este último tipo de datos, más adelante se verá un procedimiento para crear una distribución de frecuencias. A continuación se realizarán la distribución de frecuencias para variables discretas y continuas. Distribución de Frecuencias para variables discretas Volvamos al ejemplo de calificaciones de los alumnos de 1ro 4ta. Supongamos que las calificaciones son números naturales, es decir, no puede haber decimales. Por empezar hay que ordenar los datos de forma ascendente (de menor a mayor) para facilitar el conteo. Página 5 de 11 4 5 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 9 9 9 9 10 10 10 10 Luego procedemos al armado de la tabla. En la primer columna colocaremos la variable de estudio, en este caso “X: calificaciones de los alumnos de 1ro 4ta” y en las siguientes columnas cada una de las frecuencias. Procedemos con los cálculos y completamos la tabla. xi Frecuencia absoluta fi Frecuencia acumulada Fi Frecuencia relativa fri Frecuencia relativa acumulada Fri 4 1 1 1 30 = 0,033 1 30 = 0,033 5 1 2 1 30 = 0,033 2 30 = 0,066 6 4 6 4 30 = 0,133 6 30 = 0,2 7 8 14 8 30 = 0,266 14 30 = 0,466 8 8 22 8 30 = 0,266 22 30 = 0,733 9 4 26 4 30 = 0,133 26 30 = 0,866 10 4 30 4 30 = 0,133 30 30 = 1 TOTAL 30 1 Página 6 de 11 ¡¡¡A tener en cuenta!!! Si multiplicamos a cada frecuencia relativa o relativa acumulada por “100” vamos a tener como resultado un porcentaje. Ejemplo: 𝑃𝑎𝑟𝑎 𝑥𝑖 = 7 𝑓𝑟𝑖 = 0,266 𝑥 100 % = 26,6 % 𝐹𝑟𝑖 = 0,466 𝑥 100 % = 46,6 % ¿Qué análisis se puede hacer? Con esta información podemos decir que el 26,6 % de los estudiantes tuvo una calificación igual a 7. Además el 46,6 % de los alumnos tuvo una calificación entre 4 y 7. • ¿Qué porcentaje de alumnos tuvo una calificación mayor a 8? Para responder a esta pregunta se debe restar a la frecuencia relativa acumulada TOTAL la frecuencia relativa acumulada de 8. Esto sería: 1 − 0,733 = 0,266 0,266 𝑥 100 % = 26,6% Es decir que el 26,6 % de los estudiantes tuvo una calificación mayor a 8. Es común caer en el error de responder usando directamente la frecuencia acumulada de 8. Si tomamos dicho valor estaríamos diciendo que el 73,3 % (0,733 x 100 %) de los estudiantes tuvo una calificación menor o igual a 8, lo cual difiere de la pregunta. Otra forma de calcular hubiese sido sumar las frecuencias relativas para 9 y 10 ya que las calificaciones mayoresa 8 son 9 y 10. En este caso: 0,133 + 0,133 = 0,266 0,266 𝑥 100 % = 26,6% Como pueden ver, llegamos al mismo resultado. IMPORTANTE: También se debe prestar especial atención a la pregunta, ya que no es lo mismo decir mayor que a decir mayor o igual. Si, por ejemplo, la pregunta hubiese sido: Página 7 de 11 • ¿Qué porcentaje de alumnos tuvo una calificación mayor o igual a 8? En la respuesta tenemos que considerar la calificación igual a 8. Entonces se debe restar a la frecuencia relativa acumulada TOTAL la frecuencia relativa acumulada de 7 o sumar las frecuencias relativas de 8, 9 y 10. 1 − 0,466 = 0,534 𝑥 100% = 53,4 % O 0,266 + 0,133 + 0,133 = 0,534 𝑥 100% = 53,4% ¿Cuántos estudiantes tuvieron una calificación de 6? Tenemos que observar la frecuencia absoluta para xi = 6. Podemos decir que 4 estudiantes tuvieron una calificación de 6. • ¿Cuántos estudiantes tuvieron una calificación menor a 8? Tenemos que observar la frecuencia acumulada para xi = 7. Podemos decir que 14 estudiantes tuvieron una calificación menor a 8. Distribución de Frecuencias agrupadas La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. • Clases o intervalos de clase: grupo de valores que describen una característica. Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen los límites de clase que son los puntos extremos del intervalo. Están compuestos por: ✓ Límite inferior: punto mínimo de cada clase ✓ Limite Superior: punto máximo de cada clase • Amplitud (c): es la diferencia entre entre el límite superior e inferior de la clase. • Número de clases (K): depende del total de observaciones. Si el número de observaciones es muy pequeño el número de clases será cercano a 5 y generalmente no menor de este valor, si el número de observaciones es grande se utilizaran 8 o 12, pero no más de 15 clases. • Marca de clase punto medio: Es el punto medio del intervalo de clase, se calcula de la siguiente forma: Página 8 de 11 2 SuperiorLimiteInferiorLimite xi + = Una buena práctica es la creación de clases de igual longitud. Esto se obtiene tomando la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola‚ entre el número de clases. El resultado será aproximadamente la longitud del intervalo de cada clase. Construcción de la tabla de datos agrupados 1. Determinamos el número de intervalos de clase (K), para ello utilizamos la regla de Sturges: 𝐾 = 1 + 3,32 𝑙𝑜𝑔 (𝑛) Donde “n” es la cantidad de datos (tamaño muestral). Tener en cuenta que el resultado se debe aproximar al entero anterior. 2. Determinamos el Rango o Recorrido o amplitud muestral : 𝑅𝑎𝑛𝑔𝑜 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 Consiste en realizar la diferencia entre el valor máximo y el mínimo de la muestra 3. Calculamos la amplitud del intervalo: 𝑎 = 𝑅𝑎𝑛𝑔𝑜 𝑘 Ejemplo: Se tomaron las medidas (en centímetros) de los alumnos de 1ro 4ta y se obtuvo lo siguiente. 155 162 163 163 165 165 165 168 168 169 170 170 170 170 172 172 172 175 175 175 175 180 180 180 180 180 180 180 185 190 Si los datos no están ordenados, recuerden que deben ordenarlos de forma ascendente. 1. Determinamos el número de intervalos: 𝐾 = 1 + 3,32 𝑥 𝑙𝑜𝑔 (30) = 5,90 𝐾~6 2. Determinamos el Rango: 𝑅𝑎𝑛𝑔𝑜 = 190 − 155 = 35 Página 9 de 11 3. Calculamos la amplitud del intervalo: 𝑎 = 35 6 = 5,83 𝑎 ~6 (𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑚𝑜𝑠) 4. Marca de clase, para el primer intervalo: 𝑥𝑖 = 155 + 171 2 = 163 Para determinar la frecuencia absoluta se deben contabilizar los datos observados en el intervalo dado y como vimos anteriormente la frecuencia acumulada se calcula haciendo la de las frecuencias absolutas. Intervalos de clase Marca de clase Xi Frecuencia absoluta fi Frecuencia acumulada Fi Frecuencia relativa fri Frecuencia relativa acumulada Fri [155 ; 161) 158 1 1 0,03 0,03 [161 ; 167) 164 6 7 0,2 0,23 [167 ; 173) 170 10 17 0,33 0,56 [173 ; 179) 176 4 21 0,13 0,69 [179 ; 185) 182 7 28 0,23 0,92 [185 ; 191) 188 2 30 0,07 1 Ahora veremos como podemos plasmar la información que nos proporcionan las tablas a un gráfico el cual llamaremos Histograma. ¡¡¡IMPORTANTE!!! El corchete en el intervalo indica que el valor que toma pertenece a dicho intervalo. SIEMPRE vamos a abrir el intervalo con corchete y lo vamos a cerrar con paréntesis. Página 10 de 11 Histograma: En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica. Así pues, podemos evidenciar comportamientos, observar el grado de homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas. Se utilizan para relacionar variables cuantitativas continuas. Para variables cuantitativas discretas las barras se dibujan separadas y el gráfico se llama diagrama de frecuencias, porque la variable representada en el eje horizontal ya no representa un espectro continuo de valores, sino valores cuantitativos específicos, igual que ocurre en un diagrama de barras, usado para representar una característica cualitativa o categórica. Su utilidad se hace más evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado en intervalos de clase. Ejemplos de su uso es la representación de edades o estaturas de una población. Por comodidad, sus valores se agrupan en clases, es decir, en intervalos continuos. Construcción de un Histograma Siguiendo con el ejemplo de las alturas de los estudiantes de 1ro 4ta nos baseremos en la tabla de datos agrupados para sacar la información necesaria. En el eje abscisas se construyen unos rectángulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta (o frecuencia acumulada) de cada intervalo. La superficie de cada barra es proporcional a la frecuencia de los valores representados. https://es.wikipedia.org/wiki/Estad%C3%ADstica https://es.wikipedia.org/wiki/Gr%C3%A1fica https://es.wikipedia.org/wiki/Variable_estad%C3%ADstica https://es.wikipedia.org/wiki/Frecuencia Página 11 de 11 A simple vista, ¿Qué conclusión podemos sacar del histograma? La respuesta es simple, dando un vistazo rápido, la barra de frecuencia absoluta del intervalo [167;173) es la más alta (10), entonces estamos en condiciones de decir que 10 estudiantes tienen una altura comprendida entre 167 cm y 173 cm (sin llegar a tomar este valor). Con esto finalizamos esta nueva clase y con esta nueva unidad, es fundamental saber cómo están ordenados los datos. 0 1 2 3 4 5 6 7 8 9 10 11 [155 ;161) [161 ; 167) [167 ; 173) [173 ; 179) [179 ; 185) [185 ; 191) Fr e cu e n ci a A b so lu ta Intervalos Histograma de Frecuencia Absoluta
Compartir