Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 1 SEGUNDA EDICIÓN FERNANDO MAUREIRA CID Fernando Maureira Cid ________________________________________________________________________ 2 © Texto: Fernando Maureira Cid © Estadística básica para educación física ISBN papel: 978-84-686-4579-7 ISBN digital: 978-84-686-4604-6 Impreso en España Código de barras Editado por Bubok Publishing S.L Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 3 Fernando Mauriera Cid Es PhD. en Educación, con especialización en neurociencia. Autor de más de 60 artículos científicos y varios libros sobre neurociencia, neuropsicobiología, ciencias cognitivas, metodología de la investigación y estadística. Profesor de la Escuela de Educación en Ciencias del Movimiento y Deportes, Universidad Católica Silva Henríquez. Santiago de Chile. Fernando Maureira Cid ________________________________________________________________________ 4 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 5 Dedicado a mis hermanas Miriam y Yessenia a mis padres Fernando y Nidia, a mi amor Elizabeth Fernando Maureira Cid ________________________________________________________________________ 6 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 7 La segunda edición de Estadística para educación física es una introducción al cálculo de diversas pruebas descriptivas e inferenciales, siendo en primera instancia un proceso manual y luego utilizando el programa estadístico SPSS. Este libro puede ser utilizado como base para un curso de estadística en carreras de educa- ción física o ciencias del deporte y/o magísteres o maestrías en dichas discipli- nas. Cada vez estoy más convencido de la importancia de conocer y entender los fundamentos de la estadística y su aplica- ción en el ámbito de la educación física, ya que esto nos permitirá generar nuevo conocimiento, expandiendo el campo de acción de nuestra disciplina y entregando sólidas bases a nuestro quehacer. Algunas características que se han mantenido de la primera edición del libro son: el enfoque pedagógico, realizando las pruebas estadísticas paso a paso, de manera que el estudiante pueda desarro- llar manualmente los estadísticos y así comprenda los fundamentos matemáticos que justifican la utilización de los diver- sos análisis; los ejemplos enfocados en situaciones y estudios en el ámbito de la educación física, de manera que la reali- dad analizada sea lo más cercana al lector; y la utilización del SPSS como herramienta computacional para realizar las pruebas de contraste de hipótesis. En esta nueva edición se incluyen definiciones más completas de los funda- mentos teóricos de la estadística y de las pruebas inferenciales; mayor número de análisis de datos; nuevos ejemplos para familiarizar al lector con la aplicación de las diversas pruebas; y la utilización de una versión más actualizada del SPSS. En esta nueva edición de Estadística para educación física quisiera volver a agradecer a mis estudiantes, los cuales gracias a sus necesidades y dudas rela- cionadas con los análisis de datos, fueron un estímulo para la redacción de este libro y para quienes espero este texto sea de utilidad. Santiago, Julio 2017 Fernando Maureira Cid Fernando Maureira Cid ________________________________________________________________________ 8 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 9 INTRODUCCIÓN 19 PARTE I. ESTADÍSTICA DESCRIPTIVA 21 Capítulo 1. Conceptos básicos en estadística 23 Capítulo 2. Estadística descriptiva: representación de datos 33 Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición 47 Capítulo 4. Estadística descriptiva: medidas de forma y gráfico de caja 61 PARTE II. MUESTRAS Y PROBABILIDADES 77 Capítulo 5. Muestra y Muestreo 79 Capítulo 6. Distribuciones de probabilidades 87 PARTE III. ESTADÍSTICA INFERENCIAL UNIVARIADA PARAMÉTRICA 101 Capítulo 7. Estadística inferencial: aspectos básicos 103 Capítulo 8. Normalidad de los datos 115 Capítulo 9. Homogeneidad de varianzas 127 Capítulo 10. Comparación de dos grupos 137 Capítulo 11. Análisis de varianza 155 Capítulo 12. ANOVA de medidas repetidas 169 Capítulo 13. Correlación y regresión 183 PARTE IV. ESTADÍSTICA INFERENCIAL UNIVARIADA NO PARAMÉTRICA 201 Capítulo 14. Comparación de dos grupos 203 Capítulo 15. Comparación de tres o más grupos 225 Capítulo 16. Asociación de variables 243 REFERENCIAS BIBLIOGRÁFICAS 255 ANEXOS 257 Fernando Maureira Cid ________________________________________________________________________ 10 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 11 INTRODUCCIÓN 19 PARTE I ESTADÍSTICA DESCRIPTIVA 21 Capítulo 1. Conceptos básicos en estadística 23 1.1 Definiciones básicas 23 1.2 Niveles de medición 25 1.2.1 Datos categóricos 25 1.2.2 Datos numéricos 25 1.3 Análisis de datos 26 1.4 Desarrollo histórico de la estadística 27 Capítulo 2. Estadística descriptiva: representación de datos 33 2.1 Tablas de frecuencia 33 2.2 Gráficos de barra y torta 36 2.3 Diagrama de tallo y hoja 36 2.4 Histograma, polígonos de frecuencia y ojiva 38 2.5 Representación de datos en SPSS 42 Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición 47 3.1 Medidas de tendencia central 47 3.1.1 Media aritmética 47 3.1.2 Mediana 48 3.1.3 Moda 50 3.2 Medidas de dispersión 51 3.2.1 Amplitud o rango 51 3.2.2 Varianza 51 3.2.3 Desviación estándar 53 3.3 Medidas de posición 54 3.3.1 Percentiles 54 3.3.2 Cuartiles 55 3.3.3 Quintiles y deciles 56 3.4 Medidas centrales, dispersión y posición en SPSS 57 Capítulo 4. Estadística descriptiva: medidas de forma y gráfico de caja 61 4.1 Asimetría 61 4.2 Curtosis 63 4.3 Distribución según su forma 65 4.4 Gráfico de caja (box-plot) 67 Fernando Maureira Cid ________________________________________________________________________ 12 4.5 Gráfico de dispersión (scatter-plot) 70 4.6 Medidas de forma en SPSS 72 4.7 Gráfico de caja en SPSS 74 PARTE II MUESTRAS Y PROBABILIDADES 77 Capítulo 5. Muestra y muestreo 79 5.1 Muestras en investigación 79 5.1.1 Calculo del tamaño de la muestra 79 5.1.2 Muestras para construir un instrumento de medición 82 5.2 Muestreo 83 5.2.1 Para muestras probabilísticas 83 5.2.2 Para muestras no probabilísticas 85 Capítulo 6. Distribuciones de probabilidades 87 6.1 Conceptos básicos en probabilidades 87 6.2 Distribuciones discretas 88 6.2.1 Distribuciónde Bernoulli 88 6.2.2 Distribución binominal 89 6.2.3 Distribución de Poison 92 6.2.4 Distribución hipergeométrica 93 6.3 Distribuciones continuas 94 6.3.1 Distribución normal 94 6.3.2 Distribución Z 95 6.3.3 Distribuciones con muestras pequeñas 97 PARTE III ESTADÍSTICA INFERENCIAL UNIVARIADA PARAMÉTRICA 101 Capítulo 7. Estadística inferencial: aspectos básicos 103 7.1 Conceptos básicos en estadística inferencial 103 7.1.1 Nivel de significancia 103 7.1.2 Métodos de inferencia estadística 104 7.2 Intervalos de confianza 107 7.3 Normalidad de los datos 114 7.4 Prueba de normalidad KS en SPSS 117 Capítulo 8. Normalidad de los datos 115 8.1 Prueba KS de normalidad 115 8.2 Prueba de normalidad de Shapiro-Wilks 118 8.3 Prueba KS de normalidad en SPSS 121 8.4 Prueba de normalidad de Shapiro-Wilks en SPSS 123 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 13 Capítulo 9. Homogeneidad de varianzas 127 9.1 Prueba de Cochran, Hartley y Bartlett 127 9.2 Prueba de homogenidad de varianzas en SPSS 134 Capítulo 10. Comparación de dos grupos 137 10.1 Prueba t de Student para muestras independientes 137 10.2 Prueba t de Student para muestras relacionadas 141 10.3 Prueba t para una muestra en SPSS 146 10.4 Prueba t para muestras independientes en SPSS 148 10.5 Prueba t para muestras relacionadas en SPSS 151 Capítulo 11. Análisis de varianza 155 11.1 Análisis de varianza de un factor 155 11.1.1 Comparaciones posteriores a F 160 11.2 ANOVA de un factor en SPSS 162 Capítulo 12. ANOVA de medidas repetidas 169 12.1 Análisis de varianza de un factor de medidas repetidas 169 12.1.1 Comparaciones posteriores a F 174 12.2 ANOVA de medidas repetidas en SPSS 176 Capítulo 13. Correlación y regresión 183 13.1 Coeficiente de correlación de Pearson 183 13.2 Regresión lineal simple 187 13.3 Correlación de Pearson en SPSS 191 13.4 Correlaciones parciales en SPSS 193 13.5 Regresión lineal simple en SPSS 195 PARTE IV ESTADÍSTICA INFERENCIAL UNIVARIADA NO PARAMÉTRICA 201 Capítulo 14. Comparación de dos grupos 203 14.1 Prueba U de Mann-Whitney 203 14.2 Prueba de rangos de Wilcoxon 206 14.3 Prueba de Chi-cuadrado 208 14.4 Prueba de Chi-cuadrado 2x2 211 14.5 Prueba de McNemar 213 14.6 Prueba Z de proprociones 214 14.7 Prueba U de Mann-Whitney en SPSS 215 14.8 Prueba de rangos de Wilcoxon en SPSS 218 14.9 Prueba de Chi-cuadrado en SPSS 219 14.10 Prueba de Chi-cuadrado 2x2 en SPSS 222 14.11 Prueba de McNemar en SPSS 223 Fernando Maureira Cid ________________________________________________________________________ 14 Capítulo 15. Comparación de tres o más grupos 225 15.1 Análisis de la varianza unifactorial de rangos de Kruskal-Wallis 225 15.2 Prueba de varianza por rango de Friedman 230 15.3 Prueba Q de Cochran 234 15.4 Prueba de Kruskal-Wallis en SPSS 236 15.5 Prueba de Friedman en SPSS 239 15.6 Prueba Q de Cochran en SPSS 241 Capítulo 16. Asociación de variables 243 16.1 Correlación de Spearman 243 16.2 Correlación de Phi 247 16.3 Correlación de Spearman en SPSS 249 16.4 Correlación de Phi en SPSS 251 REFERENCIAS BIBLIOGRÁFICAS 255 ANEXOS 257 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 15 Fórmula 1. Frecuencia relativa 34 Fórmula 2. Media 47 Fórmula 3. Mediana 49 Fórmula 4. Rango 51 Fórmula 5. Varianza 52 Fórmula 6. Desviación estándar 53 Fórmula 7. Percentil 55 Fórmula 8. Cuartil 56 Fórmula 9. Corrección cuartil 56 Fórmula 10. Coeficiente de asimetría de Fisher 62 Fórmula 11. Coeficiente de apuntamiento de Fisher 64 Fórmula 12. Distancia inter-cuartil 67 Fórmula 13. 1° cota 68 Fórmula 14. 2° cota 68 Fórmula 15. Tamaño de una muestra infinita 81 Fórmula 16. Tamaño de una muestra finita 82 Fórmula 17. Tamaño de una muestra estratificada 84 Fórmula 18. Probabilidades 87 Fórmula 19. Probabilidad de Bernoulli 89 Fórmula 20. Probabilidad binominal 90 Fórmula 21. Posibilidad de Poisson 92 Fórmula 22. Modelo hipergeométrico 93 Fórmula 23. Calificación Z 95 Fórmula 24. Error estándar de la media con desviación estándar conocida 107 Fórmula 25. Error estándar de la media con desviación estándar desconocida 108 Fórmula 26. Diferencia de la media muestral y poblacional 108 Fórmula 27. Intervalo de confianza para una población con desviación estándar conocida 109 Fórmula 28. Intervalo de confianza para una población con desviación estándar desconocida 111 Fórmula 29. Intervalo de confianza para proporciones 112 Fórmula 30. Contraste de hipótesis para proporciones 113 Fórmula 31. Prueba de Shapiro-Wilk 119 Fórmula 32. Valor F 128 Fernando Maureira Cid ________________________________________________________________________ 16 Fórmula 33. R de Cochran 129 Fórmula 34. F de Hartley 130 Fórmula 35. B de Bartlett 132 Fórmula 36. Valor C 132 Fórmula 37. Valor S2p 132 Fórmula 38. Error estándar de la diferencia de medias independientes con desviación estándar conocida 138 Fórmula 39. Error estándar de la diferencia de medias independientes con desviación estándar desconocida 138 Fórmula 40. Intervalos de confianza de diferencia de medias independientes 139 Fórmula 41. Valor t de muestras independientes 139 Fórmula 42. Tamaño del efecto de la prueba t para muestras independientes 140 Fórmula 43. Desviación típica combinada 140 Fórmula 44. Suma de cuadrados de la diferencia 143 Fórmula 45. Desviación estándar de diferencia de medias relacionadas 143 Fórmula 46. Error estándar de diferencia de medias relacionadas 143 Fórmula 47. Intervalos de confianza de diferencia de medias relacionadas 144 Fórmula 48. Valor t de muestras relacionadas 145 Fórmula 49. Tamaño del efecto de la prueba t para muestras relacionadas 145 Fórmula 50. Suma de cuadrados totales 156 Fórmula 51. Suma de cuadrados inter-grupos 157 Fórmula 52. Suma de cuadrados intra-grupos 157 Fórmula 53. Cuadrados medios inter-grupos 158 Fórmula 54. Cuadrados medios intra-grupos 158 Fórmula 55. Valor F de análisis de varianza 158 Fórmula 56. Cuadrado medio intra-grupo promedio 160 Fórmula 57. Error estándar de una media 161 Fórmula 58. Valor D 161 Fórmula 59. Suma de cuadrados totales 170 Fórmula 60. Suma de cuadrados inter-grupos 171 Fórmula 61. Suma de cuadrados inter-sujetos 171 Fórmula 62. Suma de cuadrados residual 172 Fórmula 63. gl inter-grupos 172 Fórmula 64. gl inter-sujetos 172 Fórmula 65. gl residual 172 Fórmula 66. gl total 172 Fórmula 67. Media cuadrática inter-grupos 172 Fórmula 68. Media cuadrática residual o intra-grupos 173 Fórmula 69. Valor F 173 Fórmula 70. Intervalos de confianza para pares de medias 175 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 17 Fórmula 71. Covarianza 184 Fórmula 72. Correlación de Pearson 185 Fórmula 73. Coeficiente de determinación 186 Fórmula 74. Regresión lineal 188 Fórmula 75. Suma de los errores al cuadrado 188 Fórmula 76. Valor β1 188 Fórmula 77. Valor SSxy 188 Fórmula 78. Valor SSxx 188 Fórmula 79. Valor β0 189 Fórmula 80. Varianza residual 190 Fórmula 81. Estadístico de contraste t para regresión lineal 191 Fórmula 82. ValorU de Mann-Whitney 204 Fórmula 83. Puntuación Z de la U de Mann-Whitney 205 Fórmula 84. Puntuación Z de la prueba de Wilcoxon 208 Fórmula 85. Media de la T de Wilcoxon 208 Fórmula 86. Desviación estándar de la T de Wilcoxon 208 Fórmula 87. Frecuencia esperada 209 Fórmula 88. Prueba de Chi-cuadrado 210 Fórmula 89. Grados de libertad de Chi-cuadrado 210 Fórmula 90. Valor de Chi-cuadrado para tabla de 2x2 212 Fórmula 91. Valor X2 de McNemar 213 Fórmula 92. Prueba Z de proporciones 214 Fórmula 93. Valor de Kruskal-Wallis sin empates 227 Fórmula 94. Valor de Kruskal-Wallis con empates 227 Fórmula 95. Valor crítico de diferencias de KW 229 Fórmula 96. Valor de Friedman sin empates 232 Fórmula 97. Valor de Friedman con empates 232 Fórmula 98. Valor crítico de diferencias de Friedman 233 Fórmula 99. Valor Q 235 Fórmula 100. Correlación de Spearman sin empates 245 Fórmula 101. Correlación de Spearman con empates 246 Fórmula 102. Correlación de Phi 248 Fernando Maureira Cid ________________________________________________________________________ 18 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 19 La estadística es un elemento funda- mental para desarrollar nuestras investí- gaciones científicas, ya que ella nos per- mite clasificar, comparar y asociar nues- tros datos, de manera tal que podamos generar conclusiones e inferencias. Una vez que determinamos nuestro tipo de investigación (exploratoria, descriptiva, correlacional o explicativa), nuestro dice- ño (experimental o no experimental), nuestros instrumentos y recogemos los datos, debemos proceder a aplicar diver- sos análisis estadísticos para obtener nuestros resultados. Existen falencias en los conocimien- tos y aplicaciones de la estadística por parte de los estudiantes y profesionales de la educación física, por lo que surge la idea de este libro con los aspectos básicos de esta ciencia, orientado a los lectores que estudian por primera vez esta área de conocimiento, ya sea por la exigencia de un curso o por la necesidad de realizar una investigación orientada a la obten- ción de una licenciatura o magíster. El libro está dividido en 4 partes: la primera corresponde a la estadística des- criptiva, constituida por cuatro capítulos donde se explican algunos conceptos fun- damentales para esta ciencia, se presenta una clasificación de los principales análi- sis, se realiza un breve resumen de la his- toria de esta rama de las matemática, se muestra el paso a paso de los cálculos de frecuencia, las principales formas de representación gráfica de las mismas, los principales análisis de tendencia central, dispersión, posición y forma. Todos para presentar los datos de una investigación. En la segunda parte, constituida por dos capítulos, se estudia el cálculo del ta- maño de las muestras y las formas de muestreo. Además se analizan breve- mente las principales distribuciones de datos, tanto discretas como continuas. La tercera parte corresponde a la estadística inferencial univariada para- métrica y está constituida por siete capítulos. En ellos se realiza una intro- ducción a los conceptos más relevantes en estadística inferencial: nivel de signi- ficancia, estimaciones, contraste de hipó- tesis y cálculos de normalidad en la dis- tribución de datos. Luego se explican los cálculos de igualdad de varianzas y pruebas estadísticas para comparar dos y tres o más grupos diferentes (prueba t para muestras independientes y ANO- VA de un factor), dos y tres o más mediciones al mismo grupo (prueba t para muestras relacionadas y ANOVA de un factor de medidas repetidas) y asociaciones entre variables (correlacio- nes de Pearson y regresiones lineales simples). La cuarta parte corresponde a la estadística inferencial univariada no paramétrica, constituida por tres capítu- los. En ellos se explican los análisis para datos que no poseen una distribución normal, comparando dos y tres o más grupos diferentes (prueba U de Mann- Whitney, de Wilcoxon y Chi-cuadrado), comparando dos y tres o más mediciones al mismo grupo (Kruskal-Wallis, Fried- man y Q de Cochran) y asociación de variables (correlaciones de Spearman y de Phi). Fernando Maureira Cid ________________________________________________________________________ 20 Cada capítulo presenta los análisis de datos en su versión manual y en el programa estadístico SPSS 22.0. Es importante destacar que los ejem- plos mostrados en cada uno de los capítu- los y temas de este libro son FICTICIOS y solo formulados para ilustrar los análisis correspondientes. Espero que este libro pueda ser una guía para estudiantes de pre-grado y magíster en educación física, como así también para profesionales del área que deseen explorar y desarrollar la inves- tigación científica y ayuden de este modo al crecimiento de nuestra disciplina. Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 21 Fernando Maureira Cid ________________________________________________________________________ 22 Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 23 ________________________________________________________________________ La estadística es una rama de las matemáticas que reúne y clasifica los da- tos numéricos para generar conclusiones e inferencias a partir de ellos. General- mente se cuenta sólo con un pequeño con- junto de datos, ya que puede resultar difí- cil medir a todas las unidades que posean las características que interesan al investí- gador. Pese a ello es posible inferir parti- cularidades del conjunto total de unida- des con sólo un pequeño grupo de ellas. Por ejemplo, es posible conocer con cierta precisión la estatura promedio de todos los estudiantes de un colegio, aun cuando sólo evaluemos a algunos de ellos. La particularidad de describir e infe- rir información es lo que hace de la esta- dística una disciplina tan atractiva para cualquier ámbito de conocimiento. Debi- do a la necesidad de incorporar esta rama de las matemáticas a la educación física es que comenzaremos nuestro estudio con la aclaración de algunos conceptos funda- mentales y que se utilizarán a los largo de este libro. 1.1 DEFINICIONES BÁSICAS a) Población: conjunto total de sujetos o unidades de análisis sobre los que de- seamos hacer conclusiones. En gene- ral este conjunto es demasiado grande para abarcarlo en su totalidad. Por ejemplo: los 10.000 estudiantes de enseñanza media de los colegios de la comuna de Santiago Centro, los 5.000 adultos mayores de la zona oriente de Santiago, los 700 estudian- tes de enseñanza básica de un colegio de Iquique, las 1.200 personas que asisten a un gimnasio de la comuna de Providencia, etc. b) Muestra: subconjunto de la pobla- ción a la cual tenemos acceso y sobre quienes se realizarán verdaderamen- te las mediciones. Por ejemplo: 250 estudiantes de enseñanza media de 5 colegios de la comuna de Santiago Centro, 160 adultos mayores de la zona oriente de Santiago, 80 estu- diantes de enseñanza básica de un colegio de Iquique, 130 personas que asisten a un gimnasio de la comuna de Providencia, etc. c) Variable: es una característica obser- vable que varía entre los diferentes individuos de una población. Por ejemplo: la edad, estatura, peso, porcentaje de grasa corporal, fuerza, resistencia, etc. d) Dato: un valor particular de una va- riable,también llamado observación o medición. Por ejemplo: 28 años, 1,82 mts. de estatura, 84 kilos, 21% de Fernando Maureira Cid ________________________________________________________________________ 24 grasa corporal, 7 minutos en el test de Naveta, etc. e) Parámetro: Cantidad numérica calcu- lada sobre una población. Por ejem- plo: la estatura media de los 10.000 estudiantes de enseñanza media de los colegios de la comuna de Santiago Centro, la fuerza del tren superior de los 5.000 adultos mayores de la zona oriente de Santiago, la resistencia de los 700 estudiantes de enseñanza básica de un colegio de Iquique, el porcentaje de grasa de las 1.200 personas que asisten a un gimnasio de la comuna de Providencia, etc. f) Estadístico: Cantidad numérica calcu- lada sobre la muestra. Por ejemplo, la estatura media de 250 estudiantes de enseñanza media de los colegios de la comuna de Santiago Centro, la fuerza del tren superior de 160 adultos mayores de la zona oriente de Santiago, la resistencia de 80 estudiantes de enseñanza básica de un colegio de Iquique, el porcentaje de grasa de 130 personas que asisten a un gimnasio de la comuna de Providencia, etc. g) Censo: datos de una o más variables de toda la población. Por ejemplo: el CENSO poblacional que se realiza en nuestro país cada 10 años. h) Unidad de análisis: corresponde al objeto estudiado. Por ejemplo, una Variable Caso Observación Figura 1.1 Conceptos importantes en un conjunto de datos. Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 25 persona, una familia, un colegio, una región, un país, etc. i) Caso o registro: corresponde al con- junto de mediciones realizadas sobre una unidad de análisis. Por ejemplo: el sexo, la edad, el curso y el IMC de una persona; la fuerza, velocidad, resistencia y flexibilidad de un depor- tista, etc. 1.2 NIVELES DE MEDICION Los datos obtenidos de nuestras va- riables evaluadas pueden ser de dos ti- pos: a) categóricos; b) numéricos. Deter- minar correctamente el nivel de medición (o naturaleza de los datos) es fundamen- tal en estadística, ya que esto determinará finalmente que tipos de análisis podemos realizar con ellos. 1.2.1 Datos categóricos Las variables categóricas son las que registran la presencia de un atributo. Es importante destacar que las categorías deben ser excluyentes, es decir, un mismo sujeto no puede estar en dos categorías al mismo tiempo. La cantidad de categorías va a depender de las características del atributo medido. Son ejemplos de datos categóricos la puntuación baja, media y alta de un test; la presencia y ausencia de una cualidad; el tipo de colegio (munici- pal, subvencionado y particular), etc. Las variables categóricas se dividen a su vez en dos grupos: a) Variables categóricas nominales: Son aquellas donde las categorías no po- seen un orden, todas valen los mismo. Estas variables pueden ser dicotó- micas (cuando poseen dos catego- rías) o policotómicas (tres o más ca- tegorías). Por ejemplo: Sexo de un sujeto: masculino-feme- nino (variable dicotómica) Presencia o ausencia de un atributo: embarazada – no embarazada (varia- ble dicotómica) Religión: cristiano, musulmán, pro- testante, budista, etc. (variable poli- cotómica) Estado civil: soltero, casado, separa- do, viudo (variable policotómica). Comuna de residencia: Santiago Cen- tro, Recoleta, Providencia, Ñuñoa, Maipú, etc. (variable policotómica). b) Variables categóricas ordinales: Son aquellas donde las categorías poseen un orden jerárquico, es decir, hay categorías mayores o más importan- tes que otras. Por ejemplo: Cursos del colegio (1°, 2°, 3°, 4°, etc.) Nivel de desarrollo de patrones mo- tores (bajo, medio y alto) IMC (bajo-peso, normal, sobrepeso, obeso) Puesto de trabajo (rector, director, subdirector, jefe de UTP, profesor, etc.) 1.2.2 Datos numéricos También conocidas como variables continuas o discretas. Las variables nu- méricas son las que presentan el resul- tado de sus observaciones como núme- ros, permiten ordenar los valores en un continuo y el intervalo entre cada par de valores es siempre el mismo indepen- diente del lugar donde este (el intervalo entre el 4 y el 5 es el mismo que entre el Fernando Maureira Cid ________________________________________________________________________ 26 81 y 82). Estas variables se clasifican en dos grupos: a) Variables intervalares: Son aquellas que miden atributos donde el cero es arbitrario y no significa la ausencia del atributo. También puede tomar valores negativos. Por ejemplo: Las puntuaciones en las pruebas. Las puntuaciones de coeficiente inte- lectual. Las puntuaciones de un test cognitivo (atención, memoria, planificación, etc.). La temperatura (en grados Celsius o Fahrenheit). Las puntuaciones de un test de motri- cidad, agilidad, coordinación, etc. b) Variables de razón: Son aquellas que miden atributos donde el cero no es arbitrario, sino que indica la ausencia de dicha característica. No existen los valores negativos. Por ejemplo: Edad, peso, estatura, etc. Número de hermanos (el cero indica que no se tiene hermanos). Velocidad, fuerza, resistencia, etc. Número de ingreso y egreso de una carrera, etc. Como se dijo anteriormente, es muy importante definir correctamente el tipo de datos al que corresponden nuestros valores medidos, ya que eso determina que tipos de análisis estadísticos son posibles de realizar y cuáles no. Por ejemplo, obtener el promedio de una variable numérica tiene sentido en cambio determinar el promedio de una variable categórica no lo tiene. 1.3 ANALISIS DE DATOS La estadística se divide en dos gran- des áreas: la estadística descriptiva o aná- lisis exploratorio de datos (presentación de los datos organizados y resumen de los mismos) y la estadística inferencial (conjunto de métodos que permiten pre- decir características de un fenómeno). La estadística descriptiva contiene las tablas de frecuencia, gráficos, medi- Figura 1.2 Tipos de datos. Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 27 Figura 1.3 Tipos de análisis en la estadística descriptiva. das de tendencia central, medidas de dis- persión, medidas de posición y medidas de forma (Fig. 1.3). Por su parte, la estadística inferen- cial se divide en Univariada (cuando en la investigación existe una sola variable dependiente, pudiendo existir 1 o más va- riables independientes) y Multivariada (cuando en la investigación existen dos o más variables dependientes, pudiendo existir una o más variables independien- tes). La estadística univariada puede divi- dirse en paramétrica y no paramétrica, existiendo en ambos casos prueba para comparar grupos y para realizar asocia- ciones entre variables (Fig. 1.4). Por su parte, la estadística multivariada se divide en métodos de dependencia, métodos de interdependencia y métodos estructurales (en este libro se abordará la estadística descriptiva y la univariada). 1.4 DESARROLLO HISTÓRICO DE LA ESTADÍSTICA La estadística es tan antigua como la escritura y corresponde a un elemento complementario a todas las ciencias. La historia de esta disciplina puede clasifi- carse en 4 etapas: Censos, Aritmética Po- lítica, Cálculo de probabilidades y Esta- dística moderna. a) La primera etapa de la estadística se conoce como los censos, ya que se basa en la descripción de la población y riquezas por parte de los gobernan- Fernando Maureira Cid ________________________________________________________________________ 28 Figura 1.4 Tipos deanálisis en la estadística inferencial univariada. tes para lograr mejorar la administra- ción de los estados. A continuación se presentan los hechos más relevan- tes de esta etapa: Los primeros indicios se remontan al antiguo Egipto unos 3.050 años A.C., con los censos de población y registro de las riquezas. Situación similar ocurre en China en el año 2238 A.C. Los romanos fueron quienes más uti- utilizaron la estadística con censos, registros de nacimientos, defunción, matrimonios, riquezas, etc. b) La segunda etapa de la estadística: la aritmética política. Durante los mil años posteriores a la caída del imperio romano se realiza- ron muy pocas operaciones estadísti- cas, con la excepción de las compila- ciones de tierras de la iglesia realiza- Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 29 da por el rey franco Pipino el Breve en 758 D.C. En el año 1532 Enrique VII exige el registro de las defunciones en Ingla- terra, debido al temor que tenía a la peste. Misma época en que los cléri- gos franceses debían registrar los nacimientos, defunciones y matrimo- nios. En 1540 Sebastián Muster realiza una compilación de datos sobre la organi- zación política, comercio y recursos militares de Alemania. En 1632 se publican las Cuentas de Mortalidad en Inglaterra con los datos de nacimientos y defunciones. En 1662 John Graunt publica Observa- ciones Políticas y Naturales hechas a partir de las Cuentas de Mortalidad, donde utiliza registros de 30 años para efectuar predicciones sobre la muerte de personas por diversas en- fermedades, siendo el primer intento de inferencia estadística del que se tiene registro. c) La tercera etapa de la estadística es denominada cálculo de probabilida- des. Las probabilidades comenzaron a ser formalizada por los franceses Blaise Pascal y Pierre Fermat en 1654 quie- nes encontraron la solución a cómo repartir las apuestas de un juego que no había finalizado, mediante las pro- babilidades de ganar que tuviese cada participante en ese momento. En 1665 Blaise Pascal publica Tratado sobre el triángulo aritmético que se basa en las propiedades combinatorias del posteriormente llamado triángulo de Pascal (una representación de los coeficientes binominales ordenados en forma de triángulo). Figura 1.5 En las imágenes superiores Pipino el Breve (izquierda) y Enrique VII (derecha); en las imagenes inferiores Sebastián Muster (izquierda) y John Graunt (derecha). Figura 1.6 En las imagenes superiores Blaise Pascal (izquierda) y Pierre Fermat (derecha); en las imagenes inferiores Jacob Bernoulli (izquierda) y Godofredo Achenwall (derecha). Fernando Maureira Cid ________________________________________________________________________ 30 Figura 1.7 En las imágenes superiores Thomas Bayes (izquierda) y Pierre Laplace (derecha); en las imagenes inferiores Karl Gauss (izquierda) y Jacques Quételec (derecha). En 1687 se publica la obra póstuma El arte de la Conjetura del matemático Suizo Jacob Bernoulli, donde se en- cuentra entre otras cosas, las bases del teorema de Bernoulli (frecuencia aproximada que un suceso a la proba- bilidad p ocurra a medida que se repite un experimento). En 1760 Godofredo Achenwall, pro- fesor alemán, acuño el término esta- dística que proviene del latín status que significa estado o situación. En 1764 se publica la obra póstuma de Thomas Bayes Ensayo sobre la resolución de un problema en la doctrina del azar, la cual fue ignorada por sus contemporáneos, pero 2 siglos des- pués sirvió para formulación de la inferencia bayesiana, la cual asigna probabilidades a fenómenos no alea- torios, pero cuyos resultados no son conocidos. En 1812 Pierre Simón Laplace publi- ca Teoría analítica de probabilidades donde estudia los problemas de las probabilidades continuas. También descubre y demuestra el teorema de límite central y fusiona el cálculo de probabilidades y la estadística. En 1823 Karl Friedrich Gauss desa- rrolla la teoría de errores (conjunta- mente con Bessel y Laplace) estable- ciendo el método de mínimos cua- drados. Además de esto, el estudio de la distribución normal fue el gran aporte de Gauss al cálculo de proba- bilidades. En 1835 Jacques Quételect (matemá- tico belga) es quien aplica por prime- ra vez la estadística a las ciencias so- ciales. d) La cuarta etapa de la estadística es denominada Estadística moderna. En 1837 Simeón Poisson publicó Tratado de probabilidades que contiene la ley de probabilidades conocida como distribución de Poisson y la generalización de la ley de los gran- des números de Bernoulli. En 1888 Francis Galton introdujo el término correlación para hacer refe- rencia a la influencia relativa de una variable sobre otra. También trabajo en regresión lineal, componentes de varianza y diseño curvas normales inversas llamadas ojivas. Sus trabajos en la ley normal bivariada de proba- bilidades dieron origen a la ley nor- mal multivariada, base de la estadís- tica multivariante. En 1892 Karl Pearson publica La gramática de la ciencia, donde estudió curvas asimétricas y generó el test de Chi-cuadrado. También trabajó y perfeccionó los análisis de correla- Capítulo 1. Conceptos básicos en estadística ________________________________________________________________________ 31 ción de Galton, desarrollando la correlación de Pearson. En 1902 el inglés William Sealey Gosset publica un artículo con las ba- ses de la distribución t de Student (seudónimo con el cual publicó dicho artículo). En 1925 Ronald Arnold Fisher, matemático y biólogo inglés, publica su libro Métodos estadísticos para inves- tigadores. Creo el análisis de varianza, numerosos análisis multivariados y del método de máxima verosimilitud para la estimación de parámetros. Desarrollo el diseño experimental en bloques, la aleatorización y los dice- ños factoriales. Considerado el más grande estadístico del siglo XX. En 1933 el ruso Andrei Kolmogorov desarrolló una teoría de probabilida- des totalmente basada en axiomas fundamentales totalmente rigurosos. En 1934 el polaco Jerzy Neyman introduce la teoría de los intervalos de confianza. También publica el pri- mer trabajo en muestreos de pobla- ciones finitas. En 1936 Jerzy Neyman y Egon Pear- son (hijo de Karl Pearson) presentan una teoría sobre la prueba de hipóte- sis en estadística. La década de 1930-1940 fue el auge de la estadística multivariada con Maha- lanobis (1936), Fisher (1936), Hotte- ling (1936), Bartlett (1938), etc. En 1945 el estadounidense Frank Wilcoxon publicó un trabajo donde reemplazó los datos por sus rangos, de manera que fue posible conocer propiedades distribucionales de los mismos, creando así la prueba de rangos de Wilcoxon. Esta idea es la Figura 1.8 En las imágenes superiores Francis Galton (izquierda) y Karl Pearson (derecha); en las imagenes inferiores Ronald Fisher (izquierda) y Frank Wilcoxon (derecha). base de la estadística no paramétrica. En 1952 los estadounidenses William Kruskal y Allen Wallis publican el análisis de rangos que lleva su nom- bre. A partir de la segunda mitad del siglo XX, la estadística está fuerte- mente asociada a la computación, ya que el desarrollo de software estadís- ticos permite la realización de cientos o miles de cálculos en tiempos redu- cidos o el trabajo con decenas de variables al mismo tiempo. Por ejem- plo el programa SPSS fue creado en 1968 y en el 2016 se lanzó su versión 24.0. Los programas estadísticos más usados en la actualidad son: SPSS, SAS, R, Statistica, Stata, Matlab, Minitab, etc. Fernando Maureira Cid ________________________________________________________________________ 32Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 33 ________________________________________________________________________ La estadística descriptiva o análisis exploratorio de datos ofrece modos de presentar y evaluar las características más importantes de un conjunto de datos. Esto a través de tablas, gráficos y medidas re- súmenes. Es importante recordar que la finalidad de estos análisis no es el de obtener conclusiones sobre las variables que se están midiendo, sino solamente mostrar las características que presentan los datos que hemos recolectado. 2.1 TABLAS DE FRECUENCIA Nivel de medición: Nominal y Ordinal La tabla de frecuencia es el modo más sencillo de presentar los datos, en ella se observa: El nombre de las categorías: grupos en los cuales se clasifican los datos obtenidos. Por ejemplo: presión arte- rial baja, presión arterial media y pre- sión arterial alta; soltero, casado, di- vorciado, viudo; colegio municipal, colegio subvencionado, colegio parti- cular, etc. La frecuencia absoluta: número de sujetos que componen cada catego- ría. Por ejemplo: de 155 personas evaluadas 20 de ellas poseen una pre- sión arterial baja, 80 personas una presión arterial media y 55 personas una presión arterial alta. La frecuencia relativa: porcentaje que representa el número de sujetos en cada categoría en relación al total de observaciones. Por ejemplo: el 12,9% de las personas evaluadas po- seen una presión arterial baja, el 51,6% poseen una presión arterial media y el 35,5% posee una presión arterial alta. La frecuencia acumulada: porcentaje acumulado que corresponde a la su- ma de los porcentajes de cada catego- ría más las categorías anteriores. Por ejemplo: el 12,9% de las personas evaluadas posee una presión arterial baja, el 64,5% posee una presión arte- rial baja-media y el 100% posee una presión arterial baja-media-alta. Los pasos de elaboración de una ta- bla de frecuencias se observan en el ejemplo 2.1. También es posible utilizar tablas de frecuencia con datos de naturaleza numérica, sin embargo, aquí es necesario realizar un agrupamiento de los datos en intervalos de clases, donde cada inter- valo corresponde a una categoría y con ellas es posible seguir los pasos para construir la tabla. Este proceso se observa en el ejemplo 2.2. Fernando Maureira Cid ________________________________________________________________________ 34 Ejemplo 2.1 Un profesor busca conocer el IMC de 15 estudiantes de primer año básico de un colegio de Santiago, para ello mide la talla y el peso de ellos y luego calcula el IMC obteniendo los siguientes resultados: Paso 1: Para elaborar la tabla de frecuencia debemos agrupar los valores del IMC obtenidos en diversas categorías: Bajo peso (<18,5) = 1 sujeto Normal (18,5 a 24,9) = 6 sujetos Sobre-peso (25 a 29,9) = 4 sujetos Obesidad I (30 a 34,9) = 2 sujetos Obesidad II (35 a 39,9) = 1 sujetos Obesidad III (>40) = 1 sujeto Paso 2: Calculamos la frecuencia relativa (fr) de cada categoría con la siguiente fórmula: (fórmula 1) fr = n1 * 100 N n1 = número de observaciones de una categoría N = número de todas las observaciones Aplicamos la fórmula de la fr a los datos obtenidos en el paso 1: Bajo peso = 1 sujeto (1/15)*100 = 6,7 Normal = 6 sujetos (6/15)*100 = 40,0 Sobre-peso = 4 sujetos (4/15)*100 = 26,7 Obesidad I = 2 sujetos (2/15)*100 = 13,2 Obesidad II = 1 sujetos (1/15)*100 = 6,7 Obesidad III = 1 sujeto (1/15)*100 = 6,7 Paso 3: Calculamos la frecuencia acumulada con la frecuencia relativa de la primera categoría, luego la frecuencia relativa de la segunda más la primera categoría, luego la tercera más la segunda y más la primera, así sucesivamente. Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 35 Bajo peso 6,7 Normal = 40,0 + 6,7 = 46,7 Sobre-peso = 26,7 + 40,0 + 6,7 = 73,4 Obesidad I = 13,2 + 26,7 + 40,0 + 6,7 = 86,6 Obesidad II = 6,7 + 13,2 + 26,7 + 40,0 + 6,7 = 93,3 Obesidad III = 6,7 + 6,7 + 13,2 + 26,7 + 40,0 + 6,7 = 100,0 Paso 4: Elaboramos la tabla de frecuencia con los datos anteriores: En la tabla de frecuencia podemos observar que la categoría normal presenta el mayor número de sujetos (6) y por ende la mayor frecuencia relativa (40,0%). Por otra parte, la categoría bajo peso, normal y sobre-peso presentan una frecuencia acumulada de 73,4%, es decir, las tres categorías suman ese porcentaje de sujetos de la muestra. Ejemplo 2.2 Un profesor desea conocer cómo se distribuyen las notas de sus estudiantes en el último control realizado. Los resultados obtenidos fueron los siguientes: Paso 1: Debido a que la variable es numérica es necesario establecer intervalos de clases: Notas entre 2,0 y 2,9 Notas entre 4,0 y 4,9 Notas entre 6,0 y 6,9 Notas entre 3,0 y 3,9 Notas entre 5,0 y 5,9 Fernando Maureira Cid ________________________________________________________________________ 36 Paso 2: Construimos la tabla de frecuencia como en el ejemplo 2.1: *Nota: generalmente los intervalos de clases poseen la misma longitud. 2.2 GRÁFICOS DE BARRA Y TORTA Nivel de medición: Nominal y Ordinal Una vez que hemos desarrollado una tabla de frecuencias es posible gene- rar una representación de esta mediante gráficos. El gráfico de barras se utiliza para representar variables categóricas nomi- nales u ordinales. La altura de cada barra indica un valor de frecuencia absoluta o relativa (Fig. 2.1), por lo tanto, es posible comparar visualmente las diferencias en- tre cada categoría. También es posible uti- lizar el gráfico de barra para comparar dos o más distribuciones (Fig. 2.2). El grafico de torta (también conoci- do como circular o de sectores) repre- senta la frecuencia como un ángulo y una porción dentro de un círculo (Fig. 2.3). Para calcular los grados de arco que co- rresponden a cada categoría es necesario multiplicar la frecuencia por 360 (que corresponde a la cantidad total de grado de un círculo) y el resultado dividirlo en 100. Por ejemplo: en un grupo evaluado el 40% son varones, por lo tanto el valor de frecuencia relativa debe multiplicarse por 360 (40*360 = 14.440) y ese resultado se divide por 100 (14.440 / 100 = 144), siendo la porción del grafico de torta que representa a los varones de 144°. Este tipo de grafico es igual de útil que el de barra para representar la dis- tribución de un grupo, pero resulta me- nos eficiente para representar a dos o más grupos siendo necesario utilizar va- rios gráficos (uno por cada población o muestra). 2.3 DIAGRAMA DE TALLO Y HOJA Nivel de medición: Intervalar y de razón Corresponde a una alternativa a gráficos como el de barra, con la ventaja que no se pierde la información original. En este diagrama las decenas co- rresponden al tallo y las unidades a las hojas, las cuales deben ubicarse siempre Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 37 Figura 2.1 Gráfico de barra del porcentaje de IMC en estudiantes de primer año medio de un colegio de la ciudad de Santiago. Figura 2.2 Gráfico de barra del IMC comparando estudiantes de sexo masculino y femenino de primer año medio de un colegio de la ciudad de Santiago. Fernando Maureira Cid ________________________________________________________________________ 38 Figura 2.3 Gráfico de torta de la distribución de una muestra según sexo. Los varones representan el 40% (144° del círculo) y las damas el 60% (216° del círculo).a la derecha. En el ejemplo 2.3 se explica el proceso para generar un diagrama de estas características. 2.4 HISTOGRAMA, POLÍGONOS DE FRECUENCIA Y OJIVA Nivel de medición: Intervalar y de razón Es el más conocido de los gráficos para representar variables numéricas. A diferencia del gráfico de barra, en un histograma no existe separación entre categorías (a menos que una categoría tenga valor cero), ya que sus valores son continuos. En el ejemplo 2.4 se observa la re- presentación de una tabla de frecuencia en forma de histograma. Es importante destacar que la representación visual de este tipo de gráfico depende de la canti- dad de clases que utilicemos (divisiones de los datos como categorías). Muchas clases provocarán que po- cos datos queden dentro de cada clase y por ende el histograma presentará una distribución uniforme. Por el contrario, pocas clases provocarán que muchos da- tos queden dentro de una clase y el gráfi- co mostrará pocas características impor- tantes. El número ideal de clases se ha calculado entre 6 y 15. Los histogramas pueden utilizarse tanto con las frecuencias relativas, como con las frecuencias acumuladas y repre- sentan la base para elaborar polígonos de frecuencia, que corresponden a una gráfica lineal que se construye uniendo los puntos centrales de cada barra del histograma (ejemplo 2.5). Así obtenemos una imagen de la curva que genera la distribución de la variable. Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 39 Ejemplo 2.3 Un entrenador evalúo la flexibilidad de 18 gimnastas varones (edades entre 9 y 11 años) mediante una prueba de elevación frontal de la pierna. Los resultados fueron los siguientes: Paso 1: El primer dígito de cada valor se convierte en el tallo y el segundo en la hoja, ubicando los tallos en forma ascendente. Luego el segundo dígito se ubica a la izquierda del tallo: 5 7 6 0 3 5 6 9 7 0 4 8 8 1 4 8 9 0 0 1 2 4 5 En el diagrama es posible observar que la mayor cantidad de casos se encuentran en el rango de 90 cms. o más, en tanto el rango de 50 a 59 cms. solo presenta un sujeto. E Ejemplo 2.4 Un profesor evaluó el desarrollo de los patrones motores en 42 estudiantes de tercer año básico de un colegio de Santiago. El test presenta una puntuación de 1 a 5 (1=muy bajo; 2=bajo; 3=ni bajo ni alto; 4=alto; 5=muy alto). A continuación se presenta la tabla de frecuencia con los resultados: La frecuencia relativa de las puntuaciones del test de patrones motores de tercer año básico se presenta en el siguiente histograma: Fernando Maureira Cid ________________________________________________________________________ 40 Figura 2.4 Histograma de las puntuaciones de los patrones motores de 42 estudiantes de tercer año básico de un colegio de la ciudad de Santiago. Ejemplo 2.5 Un profesor evaluó la coordinación de 15 niños de 6 años de un colegio de Santiago, mediante una escala de 1 a 5 (1=muy baja; 2=baja; 3=ni baja ni alta; 4=alta; 5=muy alta) y obtuvo los siguiente resultados: Se construyó la tabla de frecuencia: .. Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 41 Paso 1: Elaboramos el histograma y unimos el centro de cada barra con una recta, entregando la forma del polígono de frecuencia: Figura 2.5 Polígono de frecuencia relativa de los puntajes de la coordinación. Paso 2: Elaboramos el histograma con la frecuencia acumulada y unimos las barras con una recta, entregando la ojiva. Figura 2.6 Ojiva de los puntajes de la coordinación. Fernando Maureira Cid ________________________________________________________________________ 42 Finalmente, si construimos el histo- grama con la frecuencia acumulada y se unen los puntos de cada barra se obtiene un polígono de frecuencia acumulada, también llamada ojiva, la que resulta ser una curva ascendente que comienza con la 1° frecuencia acumulada y termina con un 100%. En este gráfico es posible conocer cómo van sumando las categorías y tener una visión de la evolución de la frecuencia de los datos. 2.5 REPRESENTACIÓN DE DATOS EN SPSS En la actualidad existen muchos programas estadísticos que pueden ayu- darnos a realizar los cálculos necesarios para nuestras investigaciones. A conti- nuación se utilizará el programa SPSS (Statistical Package for the Social Scien- ces) para trabajar los análisis descripti- vos. Tras instalar el SPSS en nuestro computador abrimos el programa mostrando una pantalla como la figura siguiente: Figura 2.7 Pantalla inicial del SPSS 22.0. Luego debemos ingresar los descriptores de las variables que utilizaremos presionando Vista de variables en la barra inferior, con esto aparece una pantalla como la figura 2.8. En la primera columna colocamos los nombres de las variables. En la columna Tipo aparece el concepto de numérico (en variables numéricas) o cadena (en variables categóricas, con nombres en lugar de números). En la columna Decimales podemos modificar la cantidad de decimales de nuestros valores. Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 43 Figura 2.8 Descripción de las variables en el SPSS 22.0. Si la variable es categórica debemos describir dichas categorías presionando en la columna Valores, así aparecerá una pantalla como la siguiente: Figura 2.9 Valores de las variables. En el recuadro Valor colocamos el número asignado a cada grado de la categoría. Por ejemplo, si la variable es sexo, un valor será 1 para femenino y 2 para masculino. En el recuadro de Etiqueta escribimos el nombre de la categoría. Una vez introducidos ambos valores presionamos Añadir para grabar los datos y comenzamos a realizar lo mismo nuevamente con la siguiente categoría de la variable. Recuerde que las variables numéricas no necesitan completar esta información. Una vez completada la información de todas las variables volvemos a Vista de varia- bles y podemos escribir los valores para cada variable hasta completar el traspaso de datos. Fernando Maureira Cid ________________________________________________________________________ 44 Figura 2.10 Pantalla con los datos en el SPSS 22.0. Para realizar todos los análisis estadísticos debemos ir a Analizar que se ubica en la barra superior y se desplegará el índice general de pruebas. Cuando seleccionamos una de estas alternativas se desplegará un nuevo índice con los análisis particulares para cada caso. Figura 2.11 Desplegar los analisis estadisticos del SPSS 22.0. Capítulo 2. Estadística descriptiva: representación de datos ________________________________________________________________________ 45 Para obtener una tabla de frecuencia y los gráficos en el SPSS 22.0 vamos en el menú a: Analizar Estadísticos descriptivos Frecuencia Figura 2.12 Pantalla de frecuencia en el SPSS 22.0. En el cuadro de la izquierda aparece la lista de nuestras variables. Tomamos la variable categórica y la llevamos al cuadro derecho (Variables). Luego presionamos Gráficos y marcamos Gráfico de barra, Gráficos circulares o Histograma (Fig. 2.13). Figura 2.13 Pantalla de graficos en el SPSS 22.0. Tras esto presionamos Continuar para volver a la pantalla de frecuencia y presionamos Aceptar. La hoja de cálculos del programa nos entrega una tabla como la siguiente: Fernando Maureira Cid ________________________________________________________________________ 46 Tabla 2.1 Tabla de frecuencia En la tabla de frecuencia observamoslos nombres de las categorías de la variable, la frecuencia (número de sujetos en la categoría), el porcentaje o frecuencia relativa, el porcentaje válido (porcentaje que se ajusta cuando existen casos perdidos) y el porcentaje acumulado o frecuencia acumulada. La hoja de cálculos del programa también nos entregará el gráfico que se ha escogido. Figura 2.14 Grafico de barras entregado por el SPSS 22.0. Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 47 ________________________________________________________________________ 3.1 MEDIDAS DE TENDENCIA CENTRAL (MTC) Nivel de medición: Intervalar y de razón Son medidas resúmenes de posición central alrededor de los cuales se encuen- tran las observaciones realizadas. Tam- bién pueden ser definidas como el com- portamiento más común en un conjunto de datos. Las medidas de tendencia cen- tral más usadas son la media, la mediana y la moda. 3.1.1 Media aritmética La media aritmética, media o pro- medio es la MTC más utilizada y corres- ponde a la suma de los valores de cada observación y cuyo resultado se divide por la cantidad de datos. El cálculo de la media se aprecia en los ejemplos 3.1 y 3.2. La media de una muestra se desig- na con la letra y la media de una pobla- ción se designa con la letra griega µ (mu). La media representa el punto de equilibrio de los datos y es muy sensible Ejemplo 3.1 Un profesor ha evaluado la velocidad en 30 metros lanzados de nueve estudiantes de primer año medio de un colegio de Santiago y ha encontrado los siguientes resultados: Paso 1: Calculamos la media aritmética con la siguiente fórmula: = ∑ Xi n (fórmula 2) ∑ X1 = suma del valor de todas las observaciones o datos n = número total de observaciones . Fernando Maureira Cid ________________________________________________________________________ 48 Ahora con los datos del ejemplo 3.1 reemplazamos en la fórmula de la media: = 7,30 + 8,15 + 4,60 + 9,10 + 6,40 + 5,50 + 7,25 + 6,30 + 8,05 = 6,96 9 La media de velocidad de los 9 estudiantes en el test de 30 mts. es de 6,96 segundos. Ejemplo 3.2 En un partido de básquetbol de la liga nacional ocho jugadores de un equipo realizan lanzamientos a la canasta (independiente que estos terminen en puntos o no) y su entrenador registra el número de intentos de cada uno de ellos y obtiene la siguiente tabla: . En la primera columna vemos el número de jugadores, en la segunda los lanzamientos a la canasta realizadas en el primer tiempo por cada uno de ellos que generan una media de 5,25. Finalmente, en la tercera columna observamos una cantidad similar de lanzamientos excepto en el jugador seis que de 2 lanzamiento aumento a 75, por lo tanto, la media aumento a 14,38. Esto sirve para graficar como un solo dato outlier produce grandes variaciones en la media de un conjunto de datos. a los datos extremos (outliers), es decir, datos demasiado atípicos o extremos pro- ducen cambios importantes en ella (ejem- plo 3.2). 3.1.2 Mediana Corresponde al dato que ocupa la posición central al ordenar las observacio- nes de menor a mayor. Esta se obtiene con el número total de observaciones y la suma de una unidad, luego el resultado es dividido en 2 entregando el lugar don- de se encuentra la mediana (ejemplo 3.3). Este análisis se utiliza con datos numé- ricos, pero también con datos ordinales y es una medida robusta, muy poco sen- sible a los datos outliers. Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 49 Ejemplo 3.3 Un profesor evaluó la motricidad de 15 niños de edades pre-escolares de un jardín infantil de Santiago y los resultados del test se presentan ordenados de menor a mayor en la siguiente tabla: Paso 1: Calculamos la mediana con la siguiente fórmula: Mediana = n + 1 2 (fórmula 3) n = número total de observaciones Mediana = 15 + 1 = 16 = 8 2 2 La mediana corresponde al valor ubicado en el lugar 8 en el orden de menor a mayor y que en esta base de datos corresponde a una puntuación de 10 en el test de motricidad. Si la cantidad de datos es par la mediana es el valor promedio de los dos datos centrales. Por ejemplo, si tomamos los 10 primeros casos del ejemplo anterior y utilizamos la fórmula 2 tenemos: Mediana= (10 + 1) / 2 = 5,5 La mediana se encuentra en el centro de los valores 5 y 6. . Como los valores de los lugares 5° y 6° son 7 y 8, respectivamente, es necesario obtener la media aritmética de dichos valores: = (7 + 8) / 2 = 7,5 que corresponde a la mediana de estos datos. Fernando Maureira Cid ________________________________________________________________________ 50 3.1.3 Moda Es el dato que ocurre con mayor frecuencia en el conjunto de observacio- nes, pudiendo utilizarse en datos numé- ricos y categóricos. Cuando una distribución presenta una sola moda recibe el nombre de uni- modal, cuando presenta dos modas se denomina bimodal y cuando presenta tres o más modas se designa como dis- tribución multimodal (Fig. 3.1). Ejemplo 3.4 Un entrenador evaluó la cantidad de abdominales en un minuto que realizan 18 seleccionados universitarios de fútbol como parte del proceso de evaluación de su condición física y los resultados fueron los siguientes: La moda es el número 60, ya que es el valor que se presenta más veces en este conjunto de datos (6 en total). Figura 3.1 Distribuciones según sus modas. En la imagen superior izquierda se grafica una distribución unimodal, en la imagen superior derecha una distribución bimodal y en la imagen inferior una distribución multimodal. Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 51 3.2 MEDIDAS DE DISPERSIÓN Nivel de medición: Intervalar y de razón Las medidas de dispersión o varia- bilidad describe cuan cerca se encuentran los datos entre sí o cuan cerca se en- cuentran de alguna medida de tendencia central. 3.2.1 Amplitud o rango Corresponde a la diferencia de las observaciones extrema de un conjunto de datos (ejemplo 3.5). Es común que en los resultados se presenten el valor menor, el mayor y el rango, siendo este último muy sensible a los valores outliers. 3.2.2 Varianza La varianza (S2) es la media del cua- drado de las desviaciones respecto a la media de los datos. Esto permite conocer la diferencia promedio de los valores con respecto a su media, siendo la base de muchos análisis inferenciales. Este análisis siempre corresponde a valores positivos (debido a que los valo- res son elevados al cuadrado), siendo muy sensible a datos outliers. La medida de la varianza corresponde a la unidad de medida de la variable al cuadrado, por ejemplo, si la variable es expresada en centímetros la varianza será en cen- tímetros al cuadrado. El cálculo de la varianza se observa en el ejemplo 3.6. Ejemplo 3.5 Un entrenador evaluó la fuerza del tren superior en 14 seleccionados de Judo. Esto se realizó a través de una RM en press banca y los resultados fueron los siguientes: Paso 1: Calculamos el rango con la siguiente fórmula: Rango = Vmayor – Vmenor (fórmula 4) Vmayor = valor mayor de los datos Vmenor = valor menor de los datos Rango = 128 – 78 = 50 50 kilos corresponde al rango de estos datos. Fernando Maureira Cid ________________________________________________________________________52 Ejemplo 3.6 Un investigador desea conocer los niveles de memoria visual de 11 estudiantes de pedagogía en educación física de una universidad de Santiago y para ello se aplica un test neuropsicológico. Los resultados de las observaciones son los siguientes: Paso 1: Calculamos la varianza con la siguiente fórmula: (fórmula 5) S2 = ∑(Xi – 2 n – 1 ∑(Xi – )2 = suma de los cuadrados de la diferencia entre cada puntuación y la media de las puntuaciones n = número de datos Paso 2: Calculamos la suma de cuadrados para los datos de la memoria: Paso 3: Aplicamos la fórmula 5 para nuestros datos: Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 53 S2 = 28,55 = 28,55 = 2,855 11 – 1 10 En el ejemplo la varianza es de 2,855 3.2.3 Desviación estándar Corresponde al grado en que las puntuaciones de la variable se alejan de la media. Se calcula con la raíz cuadrada de la varianza (ejemplo 3.7). La desviación estándar muestral se designa con la letra S y la desviación es- tándar poblacional con la letra sigma (σ . Este análisis es muy útil para cono- cer cuánto se alejan los datos de la media de una muestra cuando esta posee una distribución simétrica. Esto ocurre cuan- do la mayoría de los datos obtenidos se encuentran en los puntajes centrales y muy pocos datos se encuentran en los extremos (Fig. 3.2). Por ejemplo, en un test de fuerza muy pocas personas tendrán valores muy bajos o muy altos, la mayoría obtendrán puntuaciones medias. Esta situación ocurre en la mayoría de los pro- cesos naturales si la muestra es lo sufí- cientemente grande (tiende a infinito). Si la desviación estándar de la muestra se encuentra entre la cuarta y quinta parte del rango se considera que la distribución es homogénea, es decir, los datos obtenidos de todos los sujetos evaluados se encuentran cercanos a la media. Si la desviación estándar no se en- cuentra en ese rango, la muestra se consi- dera heterogénea. Cuando ocurre esta segunda opción podría ser interesante Ejemplo 3.7 Utilizando la varianza del ejemplo 3.6 sobre la memoria de los estudiantes universitarios, calculamos la desviación estándar con la siguiente fórmula: S = √S2 (fórmula 6) √S2 = raíz cuadrada de la varianza S = √2,855 = 1,689 El promedio o media de los datos sobre la memoria de estudiantes de educación física fue de 5,64 y la desviación estándar fue de 1,689 esto quiere decir que todos los datos entre – 1 S (3,951) y + 1 S (7,329) se encuentran a una desviación de la media y siempre en este espectro se agrupa el 68% de los datos recolectados. Esto indica que casi el 70% de las observaciones obtuvieron puntajes entre 3,951 y 7,329. Fernando Maureira Cid ________________________________________________________________________ 54 Figura 3.2 Distribución simétrica. En estos datos la cantidad de observaciones que se encuentra entre una desviación estándar a la derecha y a la izquierda es del 68,26%, en dos desviaciones estándar es del 95,45% y en tres desviaciones es del 99,73%. comparar los resultados de los grupos extremos de datos que hemos obtenido, para saber si existen diferencias entre las puntuaciones más altas y más bajas. Para el ejemplo 3.6 de la memoria de los estudiantes universitarios: Rango = 6 S = 1,689 1/4 rango = 6/4 = 1,5 1/5 rango = 6/5 = 1,2 Como S =1,689 no se encuentra entre la cuarta y quinta parte del rango (1,5 y 1,2 respectivamente) esta muestra se con- sidera heterogénea. Para muestras homogéneas los valo- res de rango, varianza y desviación están- dar serán menores, debido a que los datos se encuentran más agrupados. En mues- tras heterogéneas ocurrirá lo contrario. 3.3 MEDIDAS DE POSICIÓN Nivel de medición: Intervalar y de razón 3.3.1 Percentiles Las medidas de posición se basan en el orden que poseen ciertos valores de las observaciones, comúnmente reciben el nombre de cuantiles y se define como el valor de la variable por debajo de la cual se encuentra una frecuencia acumu- lada α. Un percentil es un valor p% que deja una cantidad de p% de datos de bajo de él y 1-p% sobre él. Por ejemplo, un percentil 30 deja por debajo el 30% de las observaciones o datos y por encima un 70% de las observaciones. Los percentiles separan a la mues- Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 55 tra en grupos de 1% y la mediana siem- pre corresponde al percentil 50. Se repre- sentan con la letra P. En el ejemplo 3.7 se observa como calcular un percentil. 3.3.2 Cuartiles Son valores que dividen a las obser- vaciones en cuatro grupos con frecuen- cias similares (25% cada una). El primer Ejemplo 3.7 Un profesor midió la estatura de 21 estudiantes de cuarto año medio de un colegio de la comuna de Santiago en la clase de educación física. Los resultados fueron los siguientes: Paso 1: Los datos siempre deben ser ordenados de menor a mayor. Paso 2: Calculamos los percentiles con la siguiente fórmula: P = n * K 100 (fórmula 7) n = número de datos K = percentil que se desea conocer Si queremos conocer el percentil 20 reemplazamos: P20 = 21 * 20 = 420 = 4,2 100 100 El resultado corresponde al lugar de la lista de datos, ordenadas de menor a mayor, donde se encuentra el valor del percentil. Si el resultado es una fracción, el valor del percentil corresponde al lugar inmediatamente superior, en este caso el lugar 5 (1,68 mts.) corresponderá al percentil 20. Esto quiere decir que el 20% de los estudiantes medidos están bajo 1,68 de estatura y el 80% restante está sobre 1,68. Fernando Maureira Cid ________________________________________________________________________ 56 cuartil corresponde al percentil 25 (cuantil 0,25), el segundo cuartil corresponde al percentil 50 (cuantil 0,5) y el tercer cuartil corresponde al percentil 75 (cuantil 0,75). Los cuartiles sirven para establecer cuatro grupos de datos, así podemos transformar una variable numérica en categórica. Por ejemplo, los valores igua- les o bajo el cuartil 0,25 corresponden a un nivel bajo, valores entre el cuartil 0,25 y 0,50 a un nivel medio bajo, valores entre el cuartil 0,50 y 0,75 a un nivel medio alto y valores sobre 0,75 a un nivel alto. En el ejemplo 3.8 se toman los mis- mos valores de la estatura de 21 estu- diantes de 4° medio para calcular los cuartiles 3.3.3 Quintiles y deciles Los quintiles son valores que divi- den a las observaciones en cinco grupos con frecuencias similares (20%). El pri- mer quintil corresponde la percentil 20 (quintil 0,2), el segundo quintil corres- Ejemplo 3.8 Utilizando los mismos valores del ejemplo 3.7 Paso 1: Calculamos los cuartiles con la siguiente fórmula: (fórmula 8) Qx = K * (n + 1) 4 K = valor del cuartil (1, 2 o 3) n = número de datos En caso que el cálculo no corresponda con la posición exacta se utiliza la siguiente corrección: (fórmula 9) Qx = Li + K * (Ls – Li ) 4 Ls = límite superior del intervalo Li = límite inferior del intervalos . Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 57 Utilizando los datos de la estatura reemplazamos en la fórmula 8: Q1 = 1 * (21 + 1) = 22 = 5,5 4 4 Q2 = 2 * (21 + 1) = 44 = 11 4 4 Q3 =3 * (21 + 1) = 66 = 16,5 4 4 Q1 corresponde a los valores en la posición 5 y 6 (1,68 y 1,69); Q2 corresponde al valor en la posición 11 (1,74) y Q3 corresponde al valor en la posición (1,77 y 1,79). Para el cuartil 1 y 3 es necesario utilizar la fórmula 9 de corrección: ponde al percentil 40 (quintil 0,4), el ter- cer quintil corresponde al percentil 60 (quintil 0,6) y el cuarto quintil correspon- de al percentil 80 (quintil 0,8). Los deciles son valores que dividen a las observaciones en diez grupos con frecuencias similares (10%). El decil 1 co- rresponde al percentil 10, el decil 2 al percentil 20, el decil 3 al percentil 30 y así sucesivamente. La finalidad de los quintiles y deci- les es la misma que cuartiles: poder esta- blecer grupos y categorías más detalla- das de nuestros datos. 3.4 MEDIDAS CENTRALES, DISPER- SIÓN Y POSICIÓN EN SPSS En el paquete estadístico SPSS vamos en el menú a: Analizar Estadísticos descriptivos Frecuencia Fernando Maureira Cid ________________________________________________________________________ 58 Figura 3.3 Frecuencia en el SPSS 22.0. El programa mostrará una pantalla como la figura 3.4 con un cuadro a la izquierda que muestra nuestras variables, las cuales llevaremos al cuadro derecho (variables). Hecho esto presionamos Estadísticos abriéndose una pantalla como figura 3.5. Figura 3.4 Pantalla de frecuencia en el SPSS 22.0 En la pantalla de estadísticos marcamos las medidas de tendencia central: media, mediana y moda; también podemos marcar desviación estándar, varianza, rango, mínimo y máximo; en la sección valores percentiles podemos marcar cuartiles y en punto de corte para n grupos iguales indicamos el número de percentiles que deseamos (en este caso 10 para obtener los deciles). Capítulo 3. Estadística descriptiva: medidas centrales, dispersión y posición ________________________________________________________________________ 59 Figura 3.5 Pantalla estadísticos en el SPSS 22.0 Una vez marcados los estadísticos que deseamos presionamos Continuar para volver a la pantalla de frecuencia y presionamos Aceptar. La hoja de cálculos del programa nos entrega una tabla como la siguiente: Tabla 3.1 Estadísticos descriptivos de una variable. . En la tabla 3.1 observamos la cantidad de datos válidos, la cantidad de datos perdidos, la media, la mediana, la moda, la desviación estándar, la varianza, el rango de los datos, Fernando Maureira Cid ________________________________________________________________________ 60 el mínimo y el máximo de los datos, el cuartil 0,25 (percentil 25), el cuartil 0,50 (percentil 50) y el cuartil 0,75 (percentil 75) y los deciles que corresponden a los percentiles 10, 20, 30, etc. Capítulo 4. Estadística descriptiva: medidas de forma y gráfico de caja ________________________________________________________________________ 61 ________________________________________________________________________ 4.1 ASIMETRÍA Nivel de medición: Intervalar y de razón La asimetría corresponde a la forma de la curva de una distribución en rela- ción a su imagen derecha-izquierda. Una distribución es simétrica si la mitad iz- quierda es igual a su mitad derecha (Fig. 4.1) y por lo tanto, la mayor parte de los datos se encuentran cercanos a la media, existiendo pocos casos en los extremos. En este tipo de distribuciones la media, la mediana y la moda poseen igual valor. Figura 4.1 Distribución simétrica. Una distribución asimétrica es aque- lla donde los datos tienden a agruparse hacia alguno de los lados: Distribución asimétrica positiva: es aquella donde los datos se agrupan hacia la izquierda, dejando una cola hacia la derecha, por lo tanto, la ma- yoría de los datos se encuentran cerca de las puntuaciones más bajas. En estas distribuciones la media es mayor que la mediana (Fig. 4.2). Distribución asimétrica negativa: es aquella donde los datos se agru- pan hacia la derecha, dejando una cola hacia la izquierda, por lo tanto, la mayoría de los datos se encuentran cerca de las puntuaciones más altas. En estas distribuciones la media es menor que la mediana (Fig. 4.2). Para calcular la asimetría de una distribución existen varios análisis esta- dísticos, nosotros utilizaremos el coefi- ciente de asimetría de Fisher (g1), que se basa en la relación entre las distancias a la media y la desviación estándar. En el ejemplo 4.1 se estudian los pasos para calcular la asimetría de una distribución. El valor entregado por el coeficiente de asimetría se interpreta de la siguiente manera: Valores de asimetría de cero indi- can una distribución simétrica. Valores de asimetría sobre cero in- dican una asimetría positiva. Valores de asimetría bajo cero in- dican una asimetría negativa. Fernando Maureira Cid ________________________________________________________________________ 62 Figura 4.2 Distribuciones asimétricas. La figura izquierda corresponde a una distribución positiva y la figura derecha a una distribución negativa. Ejemplo 4.1 Un profesor evaluó la capacidad de planificación de los estudiantes de pedagogía en educación física de una universidad de Santiago. Los resultados de las puntuaciones fueron los siguientes: . Paso 1: Calculamos la asimetría con la siguiente fórmula: (fórmula 10) g1 = ∑(Xi – 3 n * S3 ∑(Xi – 3 = suma de cada observación menos la media de todas las observaciones elevada al cubo n = número de datos S3 = desviación estándar de los datos al cubo Paso 2: Calculamos la suma de cubos para los datos de la planificación: Capítulo 4. Estadística descriptiva: medidas de forma y gráfico de caja ________________________________________________________________________ 63 Paso 3: Para obtener el coeficiente de asimetría de Fisher reemplazamos en la fórmula 10: g1 = 0,52 = 0,52 = 0,52 = 0,014 (9 * 1,593) 9 * 4,02 36,18 El coeficiente de asimetría de Fisher es de 0,014 (distribución asimétrica positiva). 4.2 CURTOSIS La curtosis corresponde al grado de apuntamiento o aplastamiento de una distribución. Existen tres tipos de curto- sis: Platicúrtica: es aquella distribución que presenta una forma achatada, esto significa que existen muchos casos lejos de la media y pocos cerca de ella (Fig. 4.3). Mesocúrtica: es aquella distribución que presenta una elevación media, lo cual muestra un grado mediano de concentración de los datos alrededor del promedio (Fig. 4.3). Leptocúrtica: es aquella distribución que presenta una elevación alta, esto significa que existen pocos casos lejos de la media y muchos cerca de ella (Fig. 4.3). Para calcular la curtosis se puede utilizar el coeficiente de apuntamiento de Fisher (g2). En el ejemplo 4.2 se realiza un análisis paso a paso del cálculo de la curtosis de una distribución. El valor entregado por el coeficiente de curtosis se interpreta de la siguiente manera: Valores de la curtosis de cero indi- can una distribución mesocúrtica. Valores sobre cero indican una dis- tribución leptocúrtica. Valores bajo cero indican una dis- tribución platicúrtica. Fernando Maureira Cid ________________________________________________________________________ 64 Figura 4.3 Tipos de curtosis. Una distribución platicúrtica (imagen superior izquierda), una distribución mesocúrtica (imagen superior derecha) y una distribución leptocúrtica (imagen inferior). Ejemplo 4.2 Para el cálculo de la curtosis utilizaremos los datos de la planificación de los estudiantes de educación física: .
Compartir