Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística Descriptiva Dra. Patricia Guevara Vallejo Docente del DECE Universidad de las Fuerzas Armadas -ESPE Diciembre 2020 I ÍNDICE Resumen _________________________________________ ii Capítulo 1. Introducción a la Estadística __________________ 1 1.1. Introducción a la Estadística _____________________________ 1 1.2. Conceptos básicos _______________________________________ 1 1.3. Fuentes de información __________________________________ 3 1.3.1. La Encuesta _______________________________________________________3 1.4. Tabulación de los datos __________________________________ 4 1.5. Tabla de distribución de frecuencias ______________________ 6 1.5.1. Distribución de frecuencias para el caso discreto o variables cualitativas ________6 1.5.2. Distribución de frecuencias para el caso continuo __________________________6 1.5.3. Distribución de frecuencias usando programas estadísticos __________________9 1.6. Gráficos estadísticos ___________________________________ 10 1.7. Tablas de contingencia _________________________________ 12 1.8. Medidas descriptivas ___________________________________ 14 1.8.1. Medidas descriptivas para datos agrupados _____________________________ 14 1.8.1.1. Medidas de tendencia central ___________________________________ 14 1.8.1.2. Medidas de dispersión _________________________________________ 18 1.8.1.3. Medidas de posición __________________________________________ 19 1.8.1.4. Factores de forma ____________________________________________ 20 1.9. Ejercicios resueltos ____________________________________ 23 1.10. Ejercicios propuestos ___________________________________ 31 1.11. Deber _________________________________________________ 35 II Resumen Probabilidades y Estadística es un compendio de la asignatura de Probabilidades y Es- tadística que se dicta en las carreras de la Universidad de las Fuerzas Armadas – ESPE. En términos generales la teoría puede ser usada por cualquier carrera, pues los conceptos son los mismos, sin embargo, cada estudiante podrá complementar este documento con otros, en función de sus necesidades de contenido y profundidad. Obviamente las aplicaciones, si son específicas para cada carrera, por lo que este documento solo sería una guía para los estudiantes de aquellas carreras para los que no fue diseñado. El documento se ha organizado en capítulos, que se irán tratando a lo largo de las tres unidades en las que se organiza la asignatura. En el primer capítulo se trata de la parte descriptiva de la Estadística, donde se definirán los conceptos básicos de variables, tipos y el tratamiento de los datos mediante tablas, grá- ficos y resúmenes descriptivos. En el segundo capítulo se introducen los conceptos básicos de probabilidades y sus reglas, así como las técnicas de conteo, para aplicarlos en el cálculo de las probabilidades de problemas básicos. En el capítulo tres, se estudiarán las variables aleatorias tanto discretas como continuas, y una vez identificadas, calcular las probabilida- des usando la distribución de probabilidad adecuada. En el capítulo cuatro, se introduce la estimación de parámetros como primer elemento de la Estadística inferencial, para una va- riable aleatoria, así como también una introducción en el muestreo probabilístico. En el capítulo cinco se estudiarán las pruebas de hipótesis sobre la media y la proporción. El ca- pítulo seis, es una breve introducción sobre el modelo de regresión lineal simple, que sirve de base para posteriores estudios de otros modelos de regresión simple. En cada capítulo se desarrollan ejemplos con datos estadísticos relativos al grado aca- démico de actividad física, y al final de cada capítulo se proponen ejercicios de refuerzo. Al final del documento se tiene la sección de anexos de datos y tablas estadísticas. 1 Capítulo 1. Introducción a la Estadística 1.1. Introducción a la Estadística Aunque en sus inicios la estadística se la utilizaba para comparar la riqueza de las naciones y estudiar las características de las poblaciones a través de los censos, actualmente se constituye en parte integral de las actividades de investigación en la mayoría de ciencias. A continuación, se indican algunas aplicaciones de las herramientas estadísticas. En la agricultura, es una herramienta para estudios comparativos sobre reproducción de plantas y animales, bondad relativa de ciertos fertilizantes, insecticidas, etc. En los negocios, se utiliza para realizar predicciones en ventas, estudiar la reacción de los consumidores ante nuevos productos, tomar decisiones sobre inversiones. En salud y medicina, los resultados obtenidos a través de las técnicas estadísticas ayudarán a decidir la conveniencia de aplicación de diferentes fármacos. En la industria, es importante dentro del área del control de calidad. En el área de la educación, psicología y sociología, permite comparar la conducta, actitu- des, inteligencia, grupos socioeconómicos y culturales, entre otros. 1.2. Conceptos básicos La estadística es una parte de las matemáticas, compuesta por un conjunto de herramientas que ayudan en la toma de decisiones, a través de la recopilación, organización, análisis e interpre- tación de la información. La población o universo de estudio es el conjunto de elementos o unidades de observa- ción que tienen características comunes y que son objeto de estudio. El tamaño de la población es denotado por N. Algunos ejemplos de población son: estudiantes de primer nivel de la modalidad presencial de las universidades públicas, deportistas que son beneficiados de el Plan de alto ren- dimiento en el Ecuador. La muestra es una parte representativa de la población, que ha sido seleccionada para el análisis. Resulta conveniente estudiar una muestra cuando el tamaño de la población es relativa- 2 mente grande. El tamaño de la muestra es denotado por n. De los ejemplos anteriores de pobla- ción las muestras serían de inferior tamaño y que se son seleccionadas con técnicas de muestreo que podrían ser probabilísticas y no probabilísticas. Cabe aclarar que los resultados obtenidos con las técnicas no probabilísticas están restringidos a la misma muestra, es decir no se pueden ex- tender a la población, al no poder determinar adecuadamente de un error de muestreo. Variable es una característica de la unidad de observación, se la puede representar con letras mayúsculas usualmente X, Y, Z, aunque pueden ser otras letras, e incluso usar letras mayúsculas con subíndices: X1, X2, …, Xp según como sea conveniente. Los valores que toma una variable, se denotan por letras minúsculas, de modo que, si X es la variable, sus n valores serán x1, …, xn. Ejemplos de variables: X: Materias de preferencia, Y: edad, Z: número de créditos que toma. X1: x11, x21, …., xn1 Las variables se clasifican en cuantitativas y cualitativas. La variable cuantitativa, es suscep- tible de medición, es decir toma valores numéricos; si la variable toma un número finito de valores se dice Discreta, como, por ejemplo: número de hijos por familia, número de empleados en la empresa, número de materias aprobadas, número de estudiantes que llegan tarde a clase en aulas de 25. Si la variable toma un número infinito de valores en el conjunto de los números reales, se dice Continua, como, por ejemplo: estatura (m), peso (kg), sueldo ($), índice de masa corporal. Las variables cualitativas no son susceptibles de medición, solo toman atributos o cualidades. Ejemplo: género (Femenino, Masculino), nivel de estudios alcanzados (Bachillerato, Pregrado, Posgrado), color de ojos (negro, azul, verde, …). El tratamiento de las variables, está limitado a su tipo y además a los niveles de medida que estas poseen. Estos niveles se exponen a continuación: El Nivel de razón (Escala)se identifica por tener el cero es absoluto, es decir corres- ponde a la ausencia de medida, por lo que existe una relación de orden. Por ejemplo, el número de hijos por familia es una variable que tiene un cero absoluto. El Nivel de intervalo, se presenta cuando, el cero es relativo. El cero no significa ausen- cia de medida. Por ejemplo: Temperatura (oF) no significa ausencia de temperatura; consumo mensual de energía eléctrica (Kw). Nivel Ordinal, corresponde a valores de orden. Por ejemplo, a) podemos estudiar la va- riable “nivel de satisfacción de un producto”, como muy satisfactorio, satisfactorio, poco satis- factorio. b) rango profesional, calificación. Nivel Nominal, corresponde a variables cuyos atributos son simples etiquetas. La rela- ción es de igualdad entre los atributos de la variable. Por ejemplo, a) la variable raza, toma valores tales como: blanca, negra y otro tipo de razas. b) sexo, c) síndromes psicológicos (neu- rosis, depresión, entre otros). 3 Subtipo: Niveles de medida Niveles de medida Observación: Los diferentes valores que toma la variable pueden codificarse utilizando una es- cala alfabética o numérica. Por ejemplo, la variable género toma dos valores, que pueden ser co- dificados como: Masculino = 1, Femenino = 2; o masculino = m, femenino = f. Los parámetros y los estadísticos son medidas estadísticas que describen a la variable a través de una sola medida, si se obtienen de la población se dicen parámetros (, 2, , p), y si se obtienen de la muestra se llaman estadísticos (x, s2, s, p̂ ). 1.3. Fuentes de información La información puede recogerse a través de diferentes medios llamados en general: fuentes pri- marias, y fuentes secundarias. Las fuentes primarias permiten obtener información directamente de la unidad de observación y los instrumentos para obtenerla son: encuesta, entrevista, observa- ción directa, experimentación, simulación, entre otras. Para cualquiera de estas fuentes, se debe diseñar un cuestionario o ficha que permita obtener información que cumpla con los objetivos descritos en la investigación. En el caso de las preguntas, éstas pueden ser de tipo: abiertas, ce- rradas y mixtas. Las fuentes secundarias permiten obtener información de forma indirecta de la unidad de observación. Los instrumentos para obtener esta información son: fuentes bibliográfi- cas, revistas, periódicos, y más documentos similares tanto impresos como digitales. 1.3.1. La Encuesta Existen varios instrumentos para recoger la información, pero en esta ocasión solo hablare- mos de la encuesta. “La encuesta es una técnica que se lleva a cabo mediante la aplicación de un cuestionario a una muestra de personas. Las encuestas proporcionan información sobre las opi- niones, actitudes y comportamientos de los ciudadanos” La encuesta se puede diseñar tomando en cuenta los siguientes elementos básicos: - Encabezado, donde se identificará el nombre de la institución o grupo que aplica la en- cuesta, el código o número de encuesta, en ocasiones el nombre del encuestador. Discretas Cualitativas Continuas Razón Intervalo Nominal Ordinal Tipos de variables Cuantitativas 4 - Objetivo general de la investigación - Instrucciones sobre la forma de responder a las pregunta, tiempo y recomendaciones - Datos informativos, que corresponden a la identificación del estrato a encuestar - Cuerpo de la encuesta, que puede estar organizada en secciones, pudiendo corresponder a objetivos específicos o áreas a consultar. Se recomienda redactar este documento con lenguaje claro y acorde al grupo a quien va diri- gida la encuesta. No excederse en las preguntas para no cansar y así evitar respuestas apresu- radas sin tomarse el tiempo necesario para dar una respuesta real. hacer preguntas claras, a fin de evitar confusión en la pregunta y por ende en la respuesta, no preguntas ambiguas, no preguntas compuestas por dos ideas. No cambiar la forma de preguntar en positivo a negativo o de escala ascendente. 1.4. Tabulación de los datos Previo al diseño de la encuesta, se deben definir las posibles repuestas de los encuestados, lo que permite saber la forma de preguntar, para tener claro la escala de medida y unidad de medida en las preguntas asociadas a variables cuantitativas, así como las codificaciones a usar en el caso de que las preguntas sean cerradas, en este caso resulta conveniente usar codificaciones numéri- cas, especialmente para el uso de ciertos programas estadísticos como por ejemplo SPSS. 5 Ejemplo 1.1. Similar a la descripción dada en la tabla 1., añada más variable y complete la información. Tabla 1. Codificación de preguntas y respuestas de la encuesta Fuente: (2020), Elaboración propia En la pregunta 11, se ha usado la escala de Likert, la misma que está formada por 3 o más valores (puntaje) por lo general impares hasta el 9, que ayudan a expresar de forma ordinal las opiniones, en este rango, se incluye un valor central o neutral. Una vez diseñada la matriz de da- tos, y luego de aplicar la encuesta, se procede a tabular los datos en el programa estadístico que se haya elegido, tomando en cuenta para ello el tipo de variables y sus niveles de medida. Recordar que, si se elige una codificación numérica para los atributos de una variable cualitativa, esto solo se lo hacer por facilidad en el ingreso de los datos, pero nunca tendrá el tratamiento de una varia- ble cuantitativa. Tabla 2. Matriz de datos de la encuesta P1_lugar P2_zona P3_sexo P4_edad ……. P10_sat P11_pago Perú/Lima 1 1 45 8 3 Ecuador/Ambato 1 2 31 7 2.5 Ecuador/Ambato 1 1 35 9 3.5 Ecuador/Sangolquí 2 1 18 9 1 Fuente: (2020), Elaboración propia. N. Pregunta Tipo de pre- gunta Código pregunta Tipo de variable Nivel de medida Códigos de res- puestas. 1 Lugar de procedencia (país / ciudad) Abierta P1_lugar Cadena Nominal Ninguna 2 ¿En qué zona está ubi- cada su residencia? Cerrada, selec- ción simple P2_zona Cualitativa Nominal 1. Urbana 2. Rural 3 Sexo Cerrada, selec- ción simple P3_sexo Cualitativa Nominal 1. Femenino 2. Masculino 4 Edad Abierta P4_edad Cuantita- tiva Razón : . 10 ¿Cuál sería su nivel de satisfacción con el sen- dero hasta llegar a la cascada? Asigne un va- lor del 1 al 5, donde 1 es lo más bajo y 5 lo más alto. Cerrada P10_sat Cualitativa Ordinal 1. No satisfecho 2. Poco Satisfecho 3. Moderadamente satisfecho 4. Muy satisfecho 5. Extremadamente satisfecho 11 ¿Cuánto estaría dis- puesto a pagar un plato típico en un lugar de co- midas cercano al in- greso a la cascada? Abierta P11_pago Cuantita- tiva Razón 6 1.5. Tabla de distribución de frecuencias Una vez creada la matriz de datos, se pude iniciar con el análisis estadístico, empezando desde lo básico que sería una tabla de frecuencias. Una tabla de distribución de frecuencias, es la representación de las observaciones individua- les o agrupadas en clases con sus respectivas frecuencias. Se usa tanto para variables cualitativas como cuantitativas. Dada una variable de estudio X con n valores x1, x2, . . ., xn, la distribución de frecuencias puede contener: Frecuencia absoluta (ni), que es el número de veces que se repite un valor específico de la variable. Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el número total de obser- vaciones, es decir: ni/n Frecuencia absoluta acumulada (Ni = ix in ), que es el valor acumulado de las frecuencias absolutas hasta llegar a un valor específico xi de la variable. Frecuencia relativa acumulada (Fi = ix if ), que es el valor acumulado de las frecuencias relativas hasta llegar a un valor específico xi de la variable. 1.5.1. Distribución de frecuencias para el caso discreto o variables cualitativas Puesto que las variables cualitativasy cuantitativas discretas toman pocos valores, la cons- trucción de una tabla de distribución de frecuencias solamente implica representar en una co- lumna los valores de la variable y en las demás columnas sus respectivas frecuencias. Ejemplo 1.2 Tabla 3. Distribución de asignaturas por preferencia Asignatura preferida ni fi Ni Fi Matemáticas Física Química 12 18 20 0.24 0.36 0.40 12 30 50 0.24 0.60 1.00 TOTAL: 50 1.00 1.5.2. Distribución de frecuencias para el caso continuo Para el caso continuo, la distribución de las frecuencias, requiere primero la determinación de un número apropiado de clases o intervalos k, para un conjunto de datos de tamaño n. Uno de los métodos que existen, se presenta a continuación. Los pasos que se deben seguir para construir una distribución de frecuencias son: 7 1. Elegir el número de clases k = 1+3.322 * log(n) Fórmula de Sturguess 2. Hallar la longitud de los intervalos L = Rango/k = (xmáx – xmín)/ k L se elegirá de manera conveniente de modo, que se conserve el número de clases, por lo que no siempre se seguirán reglas de redondeo; siempre y cuando no se tome un valor demasiado alto, se debe considerar el rango de variación de los datos. 3. Fije el límite inferior de la primera clase li tal que li ≤ xmín. Determine el límite superior de la última clase, ls tal que ls ≥ xmax, donde ls = li +k*L En el caso de obtener un exceso, es decir si ls > xmax, este se repartirá de forma equitativa en los extremos inferior y superior de la primera y última clase. 4. Construya la tabla, definiendo intervalos semiabiertos, es decir (li, ls] Ejemplo 1.3 Con los pesos en libras de un grupo de personas que se están sometiendo a unas pruebas físi- cas, construya una tabla de distribución de frecuencias y discuta los resultados hallados. 133 133 135 136 137 138 140 140 141 142 143 143 143 144 144 144 146 146 147 148 148 148 148 149 149 149 149 150 151 151 151 152 153 153 153 153 154 154 155 155 155 155 156 156 156 156 157 158 158 158 159 159 160 160 161 162 163 164 166 166 167 168 170 172 175 176 178 178 180 180 181 181 185 186 187 189 190 191 192 192 192 199 200 201 204 205 206 208 210 211 Solución 1. Número de clases: k = 1 + 3.322*log(90) = 7.49 k = 7 2. Rango = 211 – 133 = 78 Longitud de clases L = R/k = 78/7 = 11.14 3. Límite inferior de la primera clase y superior de la última clase: Límite inferior de la primera clase li = 133 ls = 133+7*11.14 = 210.98, no con- tiene al último dato, por lo que se toma un valor más grande de L, así L =12. Tome en cuenta la precisión o el rango de los datos para no exagerar en la longitud de L. Luego: ls = 133+7*12 = 217 exceso = e = 6, que se repartirá 3 en cada extremo. Por lo que: li = 133-3 = 130 y ls = 211+3 = 214 4. Construcción de la tabla con intervalos de tipo ] li, ls], es decir, abiertos a la izquierda y cerrados a la derecha. El límite inferior será cerrado solamente cuando, el límite inferior de la primera clase, coincida con el valor mínimo de la variable. A continuación, se pre- senta la tabla como resultado del proceso aplicado. 8 Tabla 4. Tabla de frecuencias de pesos de personas, sometidas a pruebas físicas, con exceso = 6 Se añadió la columna de la marca de clase es el punto medio del intervalo (xi = (li+ls)/2), que será utilidad para hallar más adelante medidas descriptivas para datos agrupados. Existe una mayor concentración de observaciones en las primeras tres categorías, y repre- sentan el 64.44% del grupo estudiado con pesos inferiores a 166 libras. En las tres últimas categorías se encuentran las personas con pesos mayores o iguales a 178 libras y representan el 26.7% Ejemplo 1.4 Considerando el ejemplo anterior, se quiere un exceso más pequeño, por lo que se toma de forma conveniente L =11.2, y se conserva el número de clases. Paso 3: e = L*k – R = 11.2*7 – 78 = 78.4 – 78 = 0.4 , este exceso será repartido equitativa- mente en los extremos inferior y superior de la tabla: li =133-0.2 = 132.8, ls =211+0.2 =211.2 Paso 4: Construir la tabla: Clases Li ls Marca Clase ni Ni fi Fi 1 132,8 144,0 138,4 16 16 0,1778 0,1778 2 144,0 155,2 149,6 26 42 0,2889 0,4667 3 155,2 166,4 160,8 18 60 0,2000 0,6667 4 166,4 177,6 172,0 6 66 0,0667 0,7333 5 177,6 188,8 183,2 9 75 0,1000 0,8333 6 188,8 200,0 194,4 7 82 0,0778 0,9111 7 200,0 211,2 205,6 8 90 0,0889 1,0000 90 1,0000 N. Clases Marca de Clase ni fi Ni fi Fi % ABS. % Acum. 1 130 - 142 136 9 0.100 9 0.100 0.100 10.00 10.00 2 142 - 154 148 27 0.300 36 0.300 0.400 30.00 40.00 3 154 - 166 160 22 0.244 58 0.244 0.644 24.44 64.44 4 166 - 178 172 8 0.089 66 0.089 0.733 8.89 73.33 5 178 - 190 184 10 0.111 76 0.111 0.844 11.11 84.44 6 190 - 202 196 8 0.089 84 0.089 0.933 8.89 93.33 7 202 - 214 208 6 0.067 90 0.067 1.000 6.67 100.00 TOTAL: 90 1.000 1.000 100.00 9 El método del exceso es más largo, pero resulta más exacto. Sin embargo, al momento de uti- lizar programas estadísticos el número de clases no siempre coincidirá, pues estos programas po- drían usar otros métodos o algoritmos. Otros métodos: El número de clases k, se toma de modo que sea el número entero más pe- queño que cumple con 2k n. 1.5.3. Distribución de frecuencias usando programas estadísticos Salida de Excel. Los límites de las clases se obtienen por defecto. Clase Frecuencia 133.00 2 141.67 7 150.33 19 159.00 24 167.67 9 176.33 5 185.00 7 193.67 8 202.33 3 Y mayor... 6 Excel permite también utilizar las clases construidas por el usuario, eligiendo rango de clases, que simplemente es el conjunto de límites superiores construidos con las fórmulas. Salida de SPSS (Statistical Packaged ofd social sciences). El número se obtiene por defecto solamente, pero los datos se distribuyen de forma individual y no en clases como en los casos anteriores. A continuación, se presenta parte de la tabla de frecuencias. Frequency Percent Valid % Cumulative % 133 2 2.22 2.22 2.22 135 1 1.11 1.11 3.33 136 1 1.11 1.11 4.44 . : . : . : . : . : 208 1 1.11 1.11 97.78 210 1 1.11 1.11 98.89 211 1 1.11 1.11 100.00 Total 90 100 100 10 1.6. Gráficos estadísticos El gráfico a escoger dependerá del tipo de variable, según el esquema siguiente: Variables cualitativas o discretas Gráfico de Barras. - Las barras tienen bases son de igual longitud y el alto corresponde a la frecuencia de cada observación. Las barras deben ir separadas porque corresponden a atributos de carácter cualitativo o datos discretos. Gráfico de pastel. - El 100% de los datos se distribuye en los 360º de la circunferencia Pictogramas. - Las frecuencias se representan con objetos, personas, etc. Variables cuantitativas Histograma de frecuencias. - Las barras deben ir juntas porque corresponden a datos con- tinuos. Las frecuencias pueden ser absolutas o acumuladas. Polígono de frecuencias. - Se obtiene por la unión de las marcas de clase en los techos de cada barra ya sea del histograma de frecuencias relativas o relativas acumuladas. Línea. - Representa pares ordenadas, se usa para datos cuantitativos como series de tiempo, ayudando a estudiar la tendencia. Gráfico de dispersión. - Representa parejas de datos cuantitativos (x, y) para estudiar la relación entre dos variables. Gráfico de caja. - Es una caja que contiene en forma ordenada las medidas descriptivas como la media, mediana, cuartil uno y cuartil tres. Ayuda a estudiar el tipo de sesgo de la distribución. Diagrama de tallo y hojas. - Es la representación de los datos con sus respetivas frecuen- cias. En el tallo se pueden ubicar los datos correspondientes a ciertas unidades de decena, centena o enteros, etc., mientras que en las hojas se distribuyenlas unidades inferiores (resto de dígitos). Ejemplos de gráficos estadísticos para una variable: Variables cualitativas Variables cuantitativas Variables cuantitativas Barras Pastel Pictogramas Histogramas Líneas Caja Tallo y Hojas Dispersión 11 Gráfico de barras de la asignatura preferida Gráfico de pastel del deporte practicado. Pictograma Polígono de frec. absolutas de pesos Histograma de frec. absolutas de pesos Diagrama de caja de los pesos de las personas que están sometidas a pruebas físicas. Diagrama de tallo y hojas de Pesos de las personas que se han sometido a pruebas físicas) TALLO HOJAS Pesos de las personas que se han sometido a pruebas físicas) 13 335678 14 001233344466788889999 15 011123334455556666788899 16 0012346678 17 02568800115679 18 00115679 19 012229 20 014568 21 01 (En tallo se han colocado las decenas y en las hojas las unidades) pesos 140 160 180 200 220 12 1.7. Tablas de contingencia Es una tabla cruzada, entre dos variables, las mismas que pueden ser cualitativas, discretas o una combinación de las dos. Se utilizan para determinar de forma descriptiva si existe aso- ciación entre dichas variables. La tabla está formada por f filas o atributos de la primera varia- ble y c columnas o atributos de la segunda variable. Tabla 5. Tabla de contingencia entre X y Y Y X Y1 Y2 …. Yc Subtotal X1 O11 O12 …. O1c u1 X2 O21 O22 …. O2c u2 : : : : : : : : : : Oij : : : : : : : Xf Of1 Of2 …. Ofc uf Subotal v1 v2 …. vc n Donde: Xi: atributo i de la variable X Yi: atributo j de la variable Y Oij: Frecuencia observada (número de individuos que poseen a la vez los atributos Xi y Yj) n: número de individuos en la muestra, o número de respuestas de los individuos a los atributos comunes Xi y Yj. A partir de esta tabla se pueden construir tablas de contingencia con porcentajes por filas, colum- nas y del total. Ejemplo 1.5 La siguiente tabla de contingencia muestra la relación entre las variables práctica de actividad física y el nivel de ingresos, tomado del enlace web: http://cdeporte.rediris.es/revista/re- vista5/artcalidad.html. Tabla 13. Tabla de contingencias de las variables práctica deportiva según ingresos mensuales. http://cdeporte.rediris.es/revista/revista5/artcalidad.html http://cdeporte.rediris.es/revista/revista5/artcalidad.html 13 En la primera fila se observan las frecuencias observadas, las frecuencias esperadas que se estudiarán más adelante y el porcentaje correspondiente en relación al total de respuestas. A con- tinuación, se presentan unas variantes que se puede realizar a esta tabla, de las cuales realice la interpretación: Tablas cruzadas para las variables: Filas: Nivel de ingresos Columnas: Practica de actividad física. Realiza actividad física Si no Subtotal In g r e s o s Menos de 50000 1 2 3 50000, 100000 26 21 47 100000, 200000 10 4 14 200000, 300000 0 1 1 Subtotal 37 28 65 Tabla cruzada 1: Porcentaje respecto al total Realiza actividad física si no Subtotal In g r e s o s Menos de 50000 0,0154 0,0308 0,0462 50000, 100000 0,4000 0,3231 0,7231 100000, 200000 0,1538 0,0615 0,2154 200000, 300000 0,0000 0,0154 0,0154 Subtotal 0,5692 0,4308 1 Tabla cruzada 2: Porcentaje respecto a cada fila Realiza actividad física si no Subtotal In g r e s o s Menos de 50000 0,3333 0,6667 1,0000 50000, 100000 0,5532 0,4468 1,0000 100000, 200000 0,7143 0,2857 1,0000 200000, 300000 0,0000 1,0000 1,0000 Tabla cruzada 3: Porcentaje respecto a cada columna Realiza actividad física si no Subtotal In g r e s o s Menos de 50000 0,0270 0,0714 50000, 100000 0,7027 0,7500 100000, 200000 0,2703 0,1429 200000, 300000 0,0000 0,0357 Subtotal 1,0000 1,0000 Como se verá más adelante cada una de estas tablas representan probabilidades. 14 1.8. Medidas descriptivas Otra herramienta de análisis estadístico son las medidas descriptivas, las mismas que permi- ten sintetizar un gran número de datos en uno solo; ello proporciona una idea cuantitativa apro- ximada de toda la distribución. Estas medidas descriptivas se las puede hallar tanto para los datos distribuidos en tablas de frecuencias o intervalos, así como para datos distribuidos de forma in- dividual. Las medidas descriptivas, se pueden clasficar de la siguiente forma: 1.8.1. Medidas descriptivas para datos agrupados 1.8.1.1. Medidas de tendencia central Estas medidas tienden a situarse hacia el centro del conjunto de datos. Las más importantes son: media, mediana y moda. Media aritmética Se define como el promedio de las observaciones. Caso Media para datos no agrupados Media muestral n x = n x+ ...+ x + x = x n 1i i n21 �̅� = ∑ 𝑥𝑖∗𝑛𝑖 𝑚 𝑖=1 𝑛 �̅� = ∑ 𝑥𝑖𝑓𝑖 𝑚 𝑖=1 Media poblacional N x = N x+ ...+ x + x =μ N 1i i N21 𝜇 = ∑ 𝑥𝑖∗𝑛𝑖 𝑚 𝑖=1 𝑁 𝜇 = ∑ 𝑥𝑖𝑓𝑖 𝑚 𝑖=1 Tendencia Central Dispersión Posición Forma Media Mediana Moda Rango Varianza Desviación estándar Coeficiente de variación Cuartiles Deciles Percentiles Asimetría Curtosis Medidas Descriptivas 15 Donde: n es el tamaño de la muestra, N es el tamaño de la población m es el número de datos diferentes xi es la observación i ni es la frecuencia absoluta i (número de veces que se repite el dato i) fi es la frecuencia relativa, definida: fi= ni/n La última expresión de la media, también se llama media ponderada, cuando el lugar de usar la frecuencia relativa como la razón ni/n, se asigna de forma conveniente dicho valor. Observaciones sobre la media: De utilidad si los datos son homogéneos. Es la medida de centralización más utilizada. Si la distribución posee valores atípicos, se produce un valor de la media distorsionado. En ese caso es recomendable usar la media recortada al 5% o la mediana. Ejemplo 1.6 La media para la muestra: 2, 4, 4, 5, 6, 7, 7 es 7 35 = 7 2*7652*42 = x =5 Ejemplo 1.7 El curso de Estadísta considera 7 instrumentos de evaluación en cada unidad, con las ponde- raciones que se indica a continuación. ¿Cuál sería la media ponderada? Instrumento de eva- luación Ponderación Actuación en clase (AC) 10% Lección diaria (LD) 10% Taller (T) 10% Deber (D) 10% Prueba 1 (P1) 20% Prueba 2 (P2) 20% Prueba 3 (P3) 20% Total ponderaciones: 100% �̅� = 0.10𝐴𝐶 + 0.10𝐿𝐷 + 0.10𝑇 + 0.10𝐷 + 0.20𝑃1 + 0.20𝑃2 + 0.20𝑃3 16 Mediana Se denomina mediana al valor central de los datos cuando estos se han dispuesto ordenada- mente. Caso Mediana para datos no agrupados Muestra Caso 1. Me = X(n+1)/2 con número de datos impar Caso 2. Me = 2 XX 12n2n )/()/( con número de datos par Población Reemplazar n por N Muestra n=5 Me=X3 X1,X2,X3,X4,X5 Muestra n=4 Me= (X2+X3)/2 X1,X2,X3,X4 Ejemplo 1.8. Halle la mediana para datos no agrupados con los siguientes datos: Caso 1: 12, 14, 14, 15, 16, 17, 17. Me = X(7+1)/2 = X4 = 15. Caso 2: 12, 14, 14, 15, 16, 17, 17, 17. Me = 2 XX 1(8/2)(8/2) = (15+16)/2 = 15.5 Observaciones sobre la mediana La mediana es útil si algún dato es muy extremo Es una medida que depende del orden de los datos y no del valor. Moda Es el valor o valores que tienen mayor frecuencia (aparecen el mayor número de veces). Puede haber una, dos, tres o más modas, por lo que las distribuciones se llamarán respectivamente uni- modal, bimodal, trimodal y multimodal. Si todos los datos se repiten una sola vez, o el mismo número de veces,no hay moda. Observaciones de la moda: Es interesante cuando su frecuencia se destaca respecto al resto de frecuencias. Importante en las variables cualitativas, por ser el único parámetro que se calcula. No siempre se sitúa en la zona central, pese a ser una medida de centralización. Nota. - Las medidas descriptivas anteriores, se usan tanto para la población como para la muestra, haciendo un simple cambio de n por N. 17 Ejemplo 1.9. Con los datos de una muestra sobre la Resistencias en Ohmios de 100 bobinas, halle: (a) media, (b) mediana y (c) moda, para el caso de datos no agrupados. No. Resistencia en Ohmios Xi ni Xi.ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 32.7 32.8 32.9 33.0 33.1 33.2 33.3 33.4 Mediana 33.5 Moda 33.6 33.7 33.8 33.9 34.0 34.1 34.2 34.3 34.4 1 1 3 5 9 9 10 12 14 13 8 6 4 2 2 0 0 1 (a) = n xn = x p 1i ii (b) Me = (c) Mo = TOTAL: 100 3339.6 18 1.8.1.2. Medidas de dispersión Estas medidas reflejan la dispersión existente entre los datos y las medidas de tendencia cen- tral. Para una variable estadística que toma los valores x1, x2, x3, ... , xn, con frecuencias absolutas n1, n2, ..., nn respectivamente, se definen las siguientes medidas de dispersión: Rango = Xmáx-Xmín Desviación media Es el promedio de las desviaciones de las observaciones respecto a la media. Dm= n nxx ii . Varianza Puesto que la desviación media no toma en cuenta la distribución de los datos, se introduce esta nueva medida llamada varianza, que es el promedio de los cuadrados de las desviaciones de los datos respecto a la media. Varianza muestral Varianza poblacional 𝑆2 = ∑ (𝑥𝑖−�̅�)2𝑛𝑖𝑚𝑖=1 𝑛−1 udd2 𝜎2 = ∑ (𝑥𝑖−𝜇)2𝑛𝑖𝑚𝑖=1 𝑁 udd2 Desviación estándar La desviación estándar o desviación típica se define como la raíz cuadrada de la varianza. Su uso es adecuado para efectos de interpretación, ya está dada en las mismas unidades de la variable de estudio e indica la dispersión tanto a la izquierda como a la derecha de la media. En el caso de la muestra: s = 2S (udd) En el caso de la población: = 2σ (udd) Ejemplo 1.10 Halle la desviación estándar, para los siguientes datos: 2, 4, 4, 5, 6, 7, 7. Solución: La media es x = 5. La desviación estándar será: 83.1 6 20 6 25)(75)(65)(525)(45)(2 s 22222 Coeficiente de variación Este coeficiente también mide la dispersión en relación a la media, se mide en términos de porcentaje. Útil para comparar dos muestras respecto a una misma variable. C.V = x s *100%. 19 Ejemplo 1.11 Por ejemplo, una muestra tiene: x = 30 y s = 4 y otra de x = 60 y s = 6 parece que en principio la segunda es más dispersa. Para determinar cual tiene mayor variación hallamos sus coeficientes, entonces CV1 = 4/30 = 0.13, CV2 = 6/60 = 0.10, lo que indica que, el primer grupo tiene una variabilidad 3% más alta que el segundo grupo. 1.8.1.3. Medidas de posición Así como la mediana divide a los datos de una distribución en dos partes iguales. También existen otras medidas que dividen a la distribución hasta en cien partes. Cuartiles (4 partes) -----Q1-----Q2-----Q3----- Se tienen tres cuartiles Q1, Q2 y Q3 y dividen al conjunto de datos en cuatro partes iguales. Interpretación: Q1, El 25% de los datos son inferiores a Q1, o, también, el 75% de los datos son superiores a Q1 Q3, supera al 75% de los datos, o Q3 es superado por el 25% de los datos. Se observa que la mediana es el cuartil 2. Se puede hallar el rango intercuartil que está definido como el intervalo que contiene al 50% de datos centrales, luego RI = Q3 – Q1. Medida es que no está influenciada por los datos extremos. Percentiles Se tienen 99 percentiles y dividen al conjunto de datos en cien partes iguales. En términos de proporción: 𝑋(𝑛+1)𝑝 siendo 0≤p≤1 En términos de porcentjae: 𝑋(𝑛+1)𝑝% 100% siendo 0≤p%≤100 Por ejemplo: P50% = Me = X(n+1)(1/2) = X(n+1)(0.5) = La posición del percentil, pude presentar uno de tres resultados: (n+1)*p Si es número entero, esa es la posición del percentil Si es un decimal intermedio entre dos valores enteros entonces halle el promedio entre esos dos valores. Por ejemplo, si la posición resulta 7.5 como no hay dato X7.5, el percentil será el promedio entre las posiciones 7 y 8. Si es un caso diferente a los anteriores, aproxime al entero más cercano. 20 Ejemplo 1.12. Percentil 80% de un conjunto de 35 datos: X36*0.8= X28.8= X29. Ejemplo 1.14 Con los datos de una muestra sobre la Resistencias en Ohmios de 100 bobinas, halle: a) Los cuartiles b) los percentiles 5, 10, 90 y 95 a. 25.0*9125 XX = X22.75 = X23 = 33.2 X50 = X(91*0.50) = X45.5 = (X45 + X46)/2 = (33.4+33.4)/2 = 33.4 X75 = X(91*0.75) = X68.25 = X68 = 33.6 b. X5 = X(91*0.05) = X4.55 = X5 = X10 = X(91*0.10) = X9.1 = X9 = X90 = X(91*0.05) = X81.9 = X82 = X95 = X(91*0.95) = X86.45 = X86 = 1.8.1.4. Factores de forma Coeficiente de asimetría o de sesgo (3) También se lo conoce como “momento centrado de orden tres” y mide el sesgo de las obser- vaciones hacia un lado u otro de la distribución. Se denota con 3, tiene un punto crítico conside- rado normal en α3 = 0. Se lo calcula a través de: 𝛼3 = ∑ (𝑥𝑖−�̅�) 3∗𝑛𝑖 𝑚 𝑖=1 𝑛 𝑠3 O también: 𝛼3 = 𝑛 (𝑛−1)(𝑛−2) ∑ ( 𝑥𝑖−�̅� 𝑠 )3 ∗ 𝑛𝑖 𝑚 𝑖=1 De acuerdo al valor del sesgo existen tres tipos de distribuciones: Sesgada a la izquierda (sesgo -) α3 < 0 Simétrica (sin sesgo) α3 = 0 Sesgada a la derecha (sesgo +) α3 > 0 Para distribuciones unimodales se tiene: Una distribución sesgada a la izquierda, mientras x <Me Una distribución sesgada a la izquierda, mientras x >Me 21 Coeficiente de curtosis o apuntamiento (α4) También se lo conoce como “momento centrado de orden cuatro”, y mide el grado de concen- tración de los valores en función del alargamiento (apuntamiento). Se lo denota con 4 y tiene un punto crítico considerado normal en α4=3. Se lo calcula a través de: 𝛼4 = ∑ (𝑥𝑖 − �̅�) 4 ∗ 𝑛𝑖 𝑚 𝑖=1 𝑛 𝑠4 O también: 𝛼4 = 𝑛(𝑛+1) (𝑛−1)(𝑛−2)(𝑛−3) ∑ ( 𝑥𝑖−�̅� 𝑠 )4 ∗ 𝑛𝑖 − 3 (𝑛−1)2 (𝑛−2)(𝑛−3) 𝑚 𝑖=1 De acuerdo al valor de la curtosis estadarizado α4’ = α4 – 3, existen tres tipos de distribuciones: α 4 < 0 (Platicúrtica) α4 = 0 (Mesocúritica) α4 > 0 (Leptocúrtica) En libros de estadística matemática, se analiza el coeficiente de curtosis sin estandarizar. Ejemplo 1.15 Para una muestra de Resistencias en Ohmios de 100 bobinas, se han encontrado un resumen de medidas descriptivas en STATGRAPHICS y el histograma de frecuencias con SPSS. Estadísticas: Sample size Average Median Mode Variance Standard dev. Minimum Maximum Range Lower quartile Upper quartile Skewness 3 =( x -Mo)/S Kurtosis Coeficiente de variación resistencias 100 33.441 33.45 33.5 0.09638 0.31045 32.7 34.4 1.7 33.2 33.6 0.19857 o también -0.1929 por ser unimodal 0.15607 0.92837 Histograma de Resistencias - SPSS 22 a. Verifique los resultados b. Interprete los resultados. RESISTENCIA EN OHMIOS 34,38 34,25 34,13 34,00 33,88 33,75 33,63 33,50 33,38 33,25 33,13 33,00 32,88 32,75 20 10 0 Std. Dev = ,31 Mean = 33,44 N = 100,00 23 1.9. Ejercicios resueltos 1.9.1. Ejemplos de variables en el área de la acrividad física Variable Tipo Nivel de me- dida Codificación Ejemplo Clasificación de ciclistas por or- den de llegadaen la segunda etapa del Tour de Francia 2019 Cualitativa Ordinal 1. Primero 2. Segundo 3. Tercero, … 2 Clasificación de ciclistas por pun- tos en el Tour de Francia 2019 Cuantitativa Escala - 248 Evaluación del entrenamiento Cualitativa Ordinal 1. Deficiente 2. Bueno 3. Excelente 1 Desportes practicados con fre- cuencia Cualitativa Nominal □ Fútbol □ Básquet □ Vóley □ Natación □ Otros □ Fútbol □ Otros Tiempo en la prueba de 100m ve- locidad en Atletismo. Olimpiadas Rio2016 * Cuantitativa- continua Escala - 10,71 seg. La velocista jamaiquina Elaine Thompson ganó los 100 metros planos tras superar a una de las favoritas, las dos veces cam- peona olímpica, su compatriota Shelly- Ann Fraser-Pryce, quien conquistó la me- dalla de bronce. Thompson, de 24 años, paró el cronómetro a los 10,71 segundos. Recuperado el 2 de abril 2020 de: https://www.bbc.com/mundo/noticias- america-latina-37075920 https://www.bbc.com/mundo/noticias-america-latina-37075920 https://www.bbc.com/mundo/noticias-america-latina-37075920 24 1.9.2. Ejemplos de variables meteorológicas Variable Tipo Niv.mdi da Codificación Ejemplo Humedad relativa (%) Cuantitativa Escala - 100% Índice UV Cuantitativa Escala - 13 Índice UV (por cate- gorías de exposi- ción) Cualitativa, Discreta Ordinal http://www.ideam.gov.co/web/tiempo-y- clima/indice-ultravioleta-iuv- Presión atmosférica por ciudades (hecto- pascales: hPa) Cuantitativa Escala - 1029 hPa (Quito) Temperatura (°C) a las 06:00 Cuantitativa Escala - Prom. 7°C Velocidad del viento (k/h) a las 06:00 Cuantitativa Escala - 4 km/h Precipitacion (mm) Cuantitativa Escala - 0.7 mm Nubosidad Cuantitativa Escala - 89% Llueve Cualitativa Nominal Si No Si ¿Con qué sistemas georreferénciales está familiarizado? Cualitativa Nominal □ QASIG □ GRASS □ uDIG □ gvSIG □ Otros Otros ¿Cómo evaluaría el desempeño de QASIG? Cuantita- tiva-conti- nua Ordinal No satisface mis expectativas Satisfactorio Superó mis expectativas Satisfacto- rio http://www.ideam.gov.co/web/tiempo-y-clima/indice-ultravioleta-iuv- http://www.ideam.gov.co/web/tiempo-y-clima/indice-ultravioleta-iuv- 25 22 abril 2020 El tiempo en Quito para hoy es de 7ºC de temperatura mínima y 19ºC de máxima con un 76% de nubes y una probabilidad de lluvia del 86%. La sensación térmica en Quito podrá variar entre los diferentes momentos del día con 10ºC a las 07.00 h o los 12ºC de las 19.00 h. La velocidad del viento será de 4 km/h soplando de dirección noreste. http://tiempoytemperatura.es/ecuador/quito.html#por-horas 1.9.3. Ejemplos de otras variables Variable Tipo N. med Codificación Ejemplo Potencia de un microondas (wats) Cuantitativa Escala - 800 wats Tiempo (seg) para pasar de 0 a 10km/h Cuantitativa Escala - 14 seg Volumen (m3) Cuantitativa Escala - 8 m3 Tamaño del gen (Mb) de org- nismos y especies Cuantitativa Escala - 400 Mb (pez globo) ** Tipos de especies Cualitativa Ordinal Unicelular Pluricelular Pluricelular Dominios en el árbol de la vida Cualitativa Nominal Bacteria Archea Eucarya Eucarya Intensidad de corriente (A) Cuantitativa Escala - 80 amp Cantidad de sustancia (mol Cuantitativa Escala - 30 mol Fuerza de tracción (kg m s‐2) Cuantitativa Escala - Densidad del papel (g/m3) Cuantitativa Escala - Resistencia a la ruptura del papl (kg/cm) Cuantitativa Escala - Ingresos mensuales ($) Cuantitativa Escala - 750 $ Número días de la semana, en los que ha llovido Discreta Ordinal - 4 Número de defectos en un pro- ducto Discreta Ordinal - 3 (peso, longitud, diáme- tro) **: https://metode.es/revistas-metode/monograficos/el-tamano-del-genoma-y-la-comple- jidad-de-los-seres-vivos.html http://tiempoytemperatura.es/ecuador/quito.html#por-horas 26 1.9.4. Tabla de frecuencias, del tipo de uniforme usado para ir a clase en día lunes (la regla dice usar color verde). Este caso los valores de la variable y sus frecuencias absolutas se representan directamente en la tabla para luego hallar las frecuencias relativas. Uniforme ni fi Verde Blanco Gris Otros 19 1 1 2 19/ 23 = 0.82 0.04 0.04 0.08 total 23 1.00 El 82% cumple con la disposición, usando el uniforme reglamentario El 17% no cumple con la disposición 1.9.5. Tabla de frecuencias, de la frecuencia cardíaca en reposo de estudiantes de la CAFDE Xi 60 72 66 48 40 74 68 50 56 80 62 Total ni 13 3 4 1 1 8 4 6 3 2 12 57 Se hará una distribución en clases con límites enteros, puesto que esta variable solo toma este tipo de valores. Paso 1: n= 57 k= 1+3.322*log(57) = 6,88 = 7 Paso 2: Rango = 80–40 =40 L = Rango/k = 40/7 = 5,7; pero por conveniencia se toma L=6 Verificar Rango =L*k = 6*7 = 42, exceso = 2 Paso 3: li = 40-1 = 39 ls = 80+1 = 81 Paso 4: Construcción de la table: Li Ls ni % 39 45 1 1,8% 45 51 7 12,3% 51 57 3 5,3% 57 63 25 43,9% 63 69 8 14,0% 69 75 11 19,3% 75 81 2 3,5% 57 100,0% 27 El 43.9% de los estudiantes tienen una frecuencia cardíaca mayor a 57 y menor o igual a 63. Mientras que, el 1.8% tienen una frencuencia cardiaca inferior a 45, (posiblemente deportistas élite, no es una afirmación). Y solo el 3.5% de los estudiantes tendrían una frecuencia cardiac superior a 75 (posiblemente esdudiantes con estrés en clase, situación que se debería consultar). 1.9.6. Realice un análisis comparativo entre el tiempo que se demorarán en ducharse los estu- diantes hombres y las estudiantes mujeres. X: Tiempo en la ducha M H 10 20 15 15 15 13 8 9 10 11 12 9 10 n1= 4 n2=9 Mujeres Hombres (completar) Medidas de tendencia central: �̅�1=10+20+15*2/4=15 min Me1=x2+x3/2=15 Mo1= 15 Medidas de dispersion s1²=[(10–15)²+(20–15)²+(15–15)²*2]/3= 16.57 s = 4.08 min Cv1= (4.08/15)*100= 27.2% moderada Rango 1 = 20 - 10 = 10 [min] 1.9.7. Realice un análisis comparativo entre los pesos (kg) de estudiantes hombres en dos estratos por edades, según los datos de la tabla. Estrato 1= estudiantes con el menor o igual que 22 años Estatus 2= estudiantes con edades mayores a 22 años X: peso (Kg) 28 Resumen de medidas descriptivas por grupos de edad Estrato 1: Hombres de hasta 22 años Estrato 2: Hombres mayores de 22 años n=15 Medidas de tendencia central: �̅�1=66,20Kg Me1= X7+X8/2=66+67/2=66.5 Mo1= no existe n=7 Medidas de tendencia central: �̅�2=66,71Kg Me1=X(n+1)/2 = X8/2 = X4 =68 Mo1= {59;74} “Distribución Binomial Medidas de dispersión Rango 1 = Máx.–mín. = 78-56,6 = 21,4Kg s1²= 38,81 s = 6,23 Cv1=6,23/66,20 9% Variación baja Medidas de dispersión Rango 2=Máx.–Min=74-59 =15Kg s1²= 47,89 Kg s = 6,92 Kg Cv1=6,92/66,71 10% Variación baja Medidas de posición P(25%) = X(n+1)p = X15* 0,25 = X4 = 63Kg P50%= x15*0.50=x66.5 P(75%) = X(n+1)p = X15* 0,75 = X11= 70Kg Medidas de posición P(25%) = X(n+1)p= X8*0,25 =X2 =59Kg P50%= x8*0.50=x68 P(75%) = X(n+1)p= X8* 0,75= X6=75Kg Medidas de forma α3=((59-66.71)³*2(61- 66.71)³+……….*7/6*5=-0.1259 α³=218.197*14/(6.23³ /10*13)=0.0810 α4=43572.2739/6.23̂ 4*14.15/13/12/11=- 0.3013 Estrato 1 Estrato 2 70 59 64,4 49 56,6 59 68 74 57,4 68 63 72 67,5 61 78 58 66 74 67 65 72 n1= 14 n2= 7 29 Tabla de cálculos para hallar las medidas de forma. Pesos xi- x (xi-x)³ni (xi-x)4ni 56.6 57.4 58.0 63.0 64.0 65.0 66.0 67.0 67.3 68 70 72 74 78 -9.6- 8.8 - 8.2 - 3.2 - 1.8 - 1.2 - 0.2 0.8 1.3 1.8 3.8 5.8 7.8 11.8 - 88 4.736 - 68 1.47 2 -55 1.36 8 -32.7 68 - 5.83 2 - 1.72 8 - 0.008 0.51 2 2.197 3.832 54.8072 195.112 47.552 16 43.0 32 84 93. 4659 5996. 9536 45 21.1176 164. 8576 10.49 66 2.0 736 0.00 16 0.40 96 2.85 61 10.49 66 208.5136 1131.64 96 3700.50 52 1938 7.770 Total 218.197 4357 2.27 39 Resumen de resultados Estrato 1 Estrato 2 X Me Mo Rango S s² CV P25% α³ α4 66.20 66.5 No existe 21.4 6.23kg 38.81 9% 63kg 0.081 -0.3013 66.73 68 {59.74} 15 6.92kg 47.89 10% 59% -0.1259 1.4820 Interpretación Prácticamente los estudiantes con edades hasta de 22 años tienen pesos que presentan sesgo ligeramente hacia la derecha mientras que el grupo de estudiantes mayores de 22 años tienen un ligero sesgo hacia la izquierda. Para el primer estrato, la distribución es platicúrtica, mientras que para el Segundo grupo es leptocurtica. 30 1.9.8. Realice un análisis descriptivo de la variable “distancia recorrida (metros) en el test de Cooper” aplicada a una muestra de 23 estudiantes de la PADFE. Usar Excel. Nombre distancia frecuencia cardíaca máxima edad civil o militar Francisco Bryan Stalin Ariel Richard Daniel Edith Andrés Michael Paulo Cristopher Leonardo Jairo Ismael Cristian Sebastián Jordi Marlon Jorge Raúl Jimmy Pamela Diana 2960 2500 2450 2600 2525 2900 3015 2300 2250 2500 2573 2410 2600 2600 2500 2395 2650 2300 2615 2410 2850 2200 2300 193 180 181 185 170 188 185 170 81 181 201 196 161 185 170 180 204 196 191 199 193 192 215 32 * 22 19 19 20 21 29 * 20 21 20 19 19 29 * 20 20 21 31* 21 22 22 23 21 19 militar civil civil civil civil civil militar civil civil civil civil civil Militar civil civil civil Militar civil civil civil civil civil civil Proceso en Excel: Seleccionar DATOS / Análisis de datos /Estadística Descriptiva Resumen de medidas descriptivas de la Distancia recorrida Test de Cooper (m) Media 2539,2609 Interpretación La distribución presenta sesgo, sin embargo, media y mediana son similares. Se observa un rango de variación de edades con- siderable, por lo que se reco- mienda obtener los resultados por edades para comprender me- jor los rendimientos obtenidos. Aunque en términos generales pareciera que la edad no influye medidas de dispersión. Error típico 46,5781 Mediana 2500 Moda 2500 Desviación estándar 223,3807 Varianza de la muestra 49898,9289 Curtosis -0,0937 Coeficiente de asimetría 0,6657 Rango 815 Mínimo 2200 Máximo 3015 Suma 58403 Cuenta 23 Calculados con fórmula Coeficiente de variación 0,0880 Percentil 5% 2255 Percentil 95% 2954 Curtosis -0,0937 31 1.10. Ejercicios propuestos 1.1. ¿Cuál es la diferencia entre población y muestra? 1.2. Explique la diferencia entre variables cualitativas y cuantitativas 1.3. Explique la diferencia entre variables discretas y continuas 1.4. En las siguientes variables identifique, su tipo y el nivel de medida Variable Tipo Nivel de medida a. Número de grietas superficiales b. Estado civil c. Peso [Kg] d. Ingresos mensuales ($) e. Número de mascotas en casa f. Distancia para llegar a casa. g. Nivel en la carrera h. Temperatura (°C) i. Resistencia () j. Velocidad (km/h) Discreta ________________ ________________ ________________ ________________ ________________ ________________ ________________ ________________ ________________ Razón ________________ ________________ ________________ ________________ ________________ ________________ ________________ ________________ ________________ 1.5. Identifique el tipo de pregunta: abierta, cerrada o mixta. Pregunta Tipo Codificación – Respuesta a. ¿Realiza actividad física durante la cuarentena? b. ¿Por qué escogió PAFDE? c. ¿Cuál es su género? d. ¿Está de acuerdo con quedarse en casa durante la pandemia? e. Número de chips defectuosos f. ¿Cuál es el ingreso de sus padres? g. ¿Cuál es el nivel de estrés que ha sentido durante la cuarentena? h. ¿Qué medidas de aseo ha tomado durante la cuarentena? __________ __________ __________ __________ __________ __________ __________ __________ 1. Si 2. No ........................................... 1. Femenino 2. Masculino 1. Si 2. No ¿Por qué?....................................... ........ $........ 1. Bajo 2. Medio 3. Alto 1. Gel en manos 2. Alcohol al in- gresar a casa 3. Lavado de ma- nos 4. Otros 1.6. Identifique el tipo de pregunta y si es posible codifique las respuestas. a. Número de circuitos defectuosos en una muestra de tamaño 23, b. Rango militar, c. Contextura Física, 32 d. Sexo, e. Nivel de Educación 1.7. Diseñe una ficha de observación sobre algunas características de automóviles. 1.8. Diseñe una ficha de observación sobre algunas características en una competencia de 100 metros velocidad natación. 1.9. ¿Cuál es la diferencia entre frecuencia absoluta y frecuencia relativa? 1.10. ¿Qué es una marca de clase? 1.11. ¿Puede ser el número de clases un número decimal? 1.12. Si el tamaño de la muestra es 60, ¿cuántas clases recomendaría? 1.13. ¿Qué tipo de gráficos se utilizan para las variables cualitativas y discretas?, ¿Por qué? 1.14. ¿Cuál es la diferencia entre un histograma y un gráfico de barras? 1.15. Consulte sobre datos de población por sexo y realice un pictograma 1.16. Consulte sobre datos de población por género y realice un pictograma 1.17. Complete y analice la variable X= Número de Alumnos de la ESPE 1.18. Complete y analice la variable X= Número de hijos por familia 1.19. Los siguientes datos corresponden a los salarios (en dólares) de un grupo de ejecutivos de nivel medio en: 185 196 257 274 282 299 273 186 281 221 232 299 322 201 230 242 197 252 258 323 187 275 289 198 225 234 253 268 314 323 a. ¿Qué porcentaje de ejecutivos tienen salarios de al menos 290 dólares? b. Realice el diagrama de Tallo y Hojas c. Realice la distribución de frecuencias en clases, el histograma de frecuencias. Asignatura Número de alumnos (ni) Fi Ni Fi % CCAA GEOGRÁFICA SISTEMAS 1200 80 1050 TOTAL: 2330 Número de hijos ni fi Ni Fi % 0 1 2 3 4 5 o más 2 4 7 10 6 4 TOTAL: 100 33 1.20. Los siguientes datos representan las observaciones referentes a colegiaturas (en $000) para residentes fuera del estado en 60 colegios y universidades de Texas. 7.2 4.8 3.6 11.0 7.9 8.0 4.9 4.7 2.4 4.9 4.9 3.5 10.7 8.3 8.5 3.9 5.8 4.9 6.4 4.8 7.7 4.4 11.6 4.1 4.8 8.3 4.9 4.9 10.3 3.9 4.7 6.4 8.6 4.9 3.4 3.5 4.6 6.6 12.0 8.0 3.9 4.8 6.0 4.5 4.9 3.6 5.0 5.9 5.4 8.0 7.0 7.4 3.9 3.6 10.4 3.8 8.8 4.9 3.9 5.8 Tomado del American’s Best College 1994 College Fuide”. U.S. News & World Report Realice: a. Diagrama de tallo y hojas b. Diagrama de cajas b. Tabla de distribución de frecuencias c. Histograma de frecuencias d. Resumen de todas las medidas descriptivas. e. Repita el ejercicio, usando Excel f. Repita el ejercicio, usando PSPP 1.21. Ejercicio 42, capítulo 2 del texto “Estadística para Administración y Economía”, Ma- son/Lind/Marchal. Supuestamente un cereal para desayuno incluye 200 pasas en cada caja. Una muestrade 60 cajas, el día de ayer, mostró el siguiente número de pasas en cada caja. (Ejercicio 42, Cap. 2 “Estadística para Administración y Econo- mía”, Mason/Lind/Marchal). Analice los datos de las videocámaras a través de una distribución de frecuencias. 1.22. Ejercicio. Prob. Y Estadistica aplicada a la Ing., Douglas Montgromery, George Run- gerCap.1, Ejerc. 1.7. Un artículo publicado en Tecnnometrics (Vol. 19, 1977, pág. 425) presenta los datos siguientes sobre el octanaje de varias mezclas de gasolina. 191 195 196 198 198 199 200 200 200 201 202 203 204 205 206 193 195 197 198 199 199 200 200 201 202 202 203 204 205 206 193 196 197 198 199 200 200 200 201 202 202 204 205 206 206 193 196 197 198 199 200 200 200 201 202 203 204 205 206 207 83,4 87,7 88,5 89,3 89,9 90,5 91,1 91,8 92,7 94,2 84,3 87,8 88,6 89,6 90,0 90,6 91,1 92,2 92,7 94,4 84,3 87,9 88,7 89,7 90,1 90,7 91,2 92,2 93,0 94,7 86,7 88,2 88,9 89,8 90,1 90,8 91,2 92,3 93,2 96,1 86,7 88,3 88,9 89,8 90,3 90,9 91,5 92,3 93,3 96,5 86,7 88,3 89,0 89,8 90,4 91,0 91,5 92,6 93,3 98,8 34 Realice lo siguiente: a. Diagrama de tallo y hojas b. Diagrama de caja c. Tabla de distribución de frecuencias d. Histograma de frecuencias e. Resumen de todas las medidas descriptivas f. Repita el ejercicio, usando Excel g. Repita el ejercicio, usando R-Studio 1.23. Con los datos de la Resistencia de 100 bobinas (Ohmios 32,7 33,1 33,2 33,3 33,4 33,5 33,5 33,6 33,7 33,8 32,8 33,1 33,2 33,3 33,4 33,5 33,5 33,6 33,7 33,9 32,9 33,1 33,2 33,3 33,4 33,5 33,5 33,6 33,7 33,9 32,9 33,1 33,2 33,3 33,4 33,5 33,5 33,6 33,7 33,9 32,9 33,1 33,2 33,3 33,4 33,5 33,6 33,6 33,7 33,9 33,0 33,1 33,2 33,3 33,4 33,5 33,6 33,6 33,8 34,0 33,0 33,1 33,2 33,3 33,4 33,5 33,6 33,6 33,8 34,0 33,0 33,1 33,2 33,3 33,4 33,5 33,6 33,7 33,8 34,1 33,0 33,1 33,3 33,4 33,4 33,5 33,6 33,7 33,8 34,1 33,0 33,2 33,3 33,4 33,4 33,5 33,6 33,7 33,8 34,4 Realice lo siguiente: a. Diagrama de tallo y hojas b. Diagrama de caja c. Tabla de distribución de frecuencias d. Histograma de frecuencias e. Resumen de todas las medidas descriptivas f. Repita el ejercicio, usando Excel h. Repita el ejercicio, usando R-Studio 1.24. Con los datos de los pesos en libras usado en el ejemplo de pesos de personas sometidas a pruebas físicas: a. Agrupe estos pesos en las siguientes categorías: Delgado: ≤ 135 libras, Normal: ]135, 160], obeso 1: ]160, 185], obeso 2: >185 libras. b. Con esta clasificación elabore una tabla de frecuencias y un gráfico de barras. 1.25. Realice una encuesta sobre un tema de interés relacionado con su ámbito de estudios con 10 preguntas. Aplique la encuesta con formulario google docs. Realice el informe. 87,4 88,3 89,2 89,9 90,4 91,0 91,6 92,7 93,4 98,8 87,5 88,4 89,2 89,9 90,4 91,0 91,6 92,7 93,7 100,3 87,6 88,5 35 1.11. Deber Realice los siguientes ejercicios propuestos: - Ejercicios 1.1 al 1.5 (papel, esferos, calculdora) - Ejercicios 1.17, 1.18 (Excel) - Ejercicio 1.21 ((papel, esferos, calculdora, pero en los literales de media, desviación es- tándar, coeficiente de asimetría, curtosis, tabla de frecuencia, hacerlo en Excel) - Ejercicio 1.22 (Excel) - Ejercicio 1.23 (En la interfaz R-Studio para R) Bibliografía Muestreo no probabilístico: Muestreo por conveniencia. Recuperado el 16 de marzo de 2020 dehttps://www.netquest.com/blog/es/blog/es/muestreo-por-conveniencia ¿Qué es una encuesta? Recuperado el 16 de marzo de 2020 de https://www.question- pro.com/es/una-encuesta.html Ejemplos de escalas de Likert. Recuperado el 16 de marzo de 2020 de https://www.question- pro.com/blog/es/ejemplos-de-escalas-likert/ Scheaffer, R., y Mendenhall, W. (2012). Elementary Survey Sampling. Seventh Edition. (pp. 7-15, pp. 217-220). University of Florida: Emeritu. Montgomery, D., y Runger, W. (2012). Elementary Survey Sampling. Seventh Edition. (pp. 7- 15, pp. 217-220). University of Florida: Emeritu. Scheaffer, R., y Mendenhall, W. (2012). Elementary Survey Sampling. Seventh Edition. (pp. 7-15, pp. 217-220). University of Florida: Emeritu. Montogomery D., y Runger G., (2003). Probabilidades y Estadistica aplicadas a la Ingenieria. Segunda Edición. Imusa. Lind D., Marchal W., Wathen S., (2012). Estadística Aplicada A Los Negocios y La Econo- mía. Décimo quinta Edición. McGraw-Hill/Interamericana Editores. https://www.netquest.com/blog/es/blog/es/muestreo-por-conveniencia https://www.questionpro.com/es/una-encuesta.html https://www.questionpro.com/es/una-encuesta.html https://www.questionpro.com/blog/es/ejemplos-de-escalas-likert/ https://www.questionpro.com/blog/es/ejemplos-de-escalas-likert/
Compartir