Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 ESTADÍSTICA E INVESTIGACIÓN CON APLICACIONES DE SPSS GUILLERMO GAMARRA ASTUHUAMAN FRANCISCO WONG CABANILLAS OSCAR EUGENIO PUJAY CRISTOBAL TITO ARMANDO RIVERA ESPINOZA Nombre de la Editorial ( ) 2 Nombre de la Editorial ( ) Estadística e Investigación con aplicaciones de SPSS Guillermo Gamarra Astuhuamán Francisco Wong Cabanillas Oscar Eugenio Pujay Cristobal Tito Armando Rivera Espinoza Impresión 2015 Perú 3 PRÓLOGO Como es bien sabido, los investigadores, profesionales, estudiantes de pre y posgrado. La Estadística es necesario en el conocimiento humano donde se enfrentan a diversos problemas de la sociedad. Con este libro intentamos ayudar al usuario el análisis de los datos estadísticos en las necesidades que le surjan en el campo de la investigación social, que responde a la Educación Superior en nuestro país que está demandando la importancia de la aplicación de un programa estadístico en los estudios de la investigación social. Desde el punto de vista docente, abordamos en este libro la metodología la estadística informática entendida esta como el análisis de datos obtenidos a través de paquetes estadísticos. La experiencia docente nos dice que el usuario de paquetes estadísticos centra su interés en libros y/o textos, donde se encuentre guiado a través de ejemplos comentados, tanto en la parte necesaria para acceder a las técnicas estadísticas como el análisis de los resultados obtenidos al ejecutar dichas técnicas. Como docente, la metodología asumida ha sido proponer ejemplos prácticos en cada capítulo que han sido desarrollados, que al lector le permite encontrar sentido a las explicaciones teóricas expuestas. Así mismo se han desarrollado los ejemplos de manera lógica con la aplicación del programa estadístico de SPSS, con la finalidad que el estudiante obtenga los resultados con mayor exactitud. Así, mismo se ha construido un fichero de datos de los diferentes capítulos del presente libro con la finalidad de ayudar a los usuarios para que puedan contrastar los resultados de cada ejemplo propuestos y así puedan aplicar a otros estudios, además de archivos ya construidos para su utilización que se puede descargar escribiendo al correo electrónico de gmogamarra@gamail.com, opc200@hotmail.com, No queremos concluir sin agradecer a todas las personas que han hecho posible la realización de este libro. Los autores. mailto:gmogamarra@gamail.com mailto:opc200@hotmail.com 4 Contenido Prologo Introducción CAPÍTULO I ORGANIZACIÓN Y PRESENTACIÓN DE DATOS 1.1 Las variables y su clasificación 1.1.1 Según su naturaleza 1.1.2 Según el grado de complejidad 1.1.3 Según la función que desempeña en la investigación 1.1.4 Según su escala de medición 1.2 Distribución de frecuencia 1.2.1 Tablas personalizadas 1.2.2 Distribución de frecuencias para datos cualitativos 1.2.3 Representación gráfica para datos cualitativos 1.2.4 Distribución de frecuencia para datos cuantitativos 1.2.5 Representación gráfica para datos cuantitativos Ejercicios y problemas propuestos CAPÍTULO II MEDIDAS DE POSICIÓN Y DISPERSIÓN 2.1 Medias de posición 2.1.1 La media aritmética. 2.1.2 La mediana 2.1.3 La moda 2.1.4 Cuartiles 2.1.5 Percentiles 2.1.6 Trimedia 2.1.7 Comparación entre media, mediana y moda. 2.2 Medidas de dispersión 2.2.1 Rango 2.2.2 Varianza 2.2.3 Desviación estándar 2.2.4 Coeficiente de variación 2.3 Medidas de deformación 2.3.1 Coeficiente de asimetría 2.3.2 Coeficiente de apuntamiento Ejercicios y problemas propuestos CAPÍTULO III INTRODUCCIÓN A LA PROBABILIDAD 3.1 Definición de probabilidad 5 3.2 Reglas de la probabilidad 3.3 Probabilidad total 3.4 Teorema de Bayes 3.5 Distribución binomial 3.6 Distribución normal Ejercicios y problemas propuestos CAPÍTULO IV POBLACIÓN, MUESTRA Y ESTIMACIÓN 4.1 Población 4.2 Muestra 4.3 Tipo de muestreo probabilísticas 4.4 Tipo de muestreo no probabilísticas 4.5 Tamaño de la muestra 4.6 Teorema central del límite 4.7 Estimación puntual Ejercicios y problemas propuestos CAPÍTULO V INTRODUCCIÓN A LA PRUEBA DE HIPÓTESIS 5.1 Clasificación de hipótesis 5.2 Prueba de hipótesis 5.3 Tipos de pruebas de hipótesis 5.4 Nivel de significación 5.5 Evaluación de la cola de distribución 5.6 Región crítica para el rechazo de H0 5.7 Formulación de pruebas estadísticas 5.8 Procedimiento para evaluar una prueba de hipótesis. Ejercicios y problemas propuestos CAPÍTULO VI PRUEBAS ESTADÍSTICAS NO PARAMÉTRICAS DE ESCALA NOMINAL 6.1 Prueba de Ji Cuadrada de Pearson para muestras independientes. 6.2 Prueba de Ji Cuadrada de proporciones para muestras independientes. 6.3 Prueba de McNemar para muestras relacionadas 6.4 Prueba de Q de Cochran para tres o más muestras dependientes. CAPÍTULO VII PRUEBAS ESTADÍSTICAS NO PARAMÉTRICAS DE ESCALA ORDINAL 7.1 Prueba de la mediana para dos muestras independientes 7.2 Prueba del signo 7.3 Prueba de U de Mann – Whitney para dos muestras independientes 6 7.4 Prueba de Wilcoxon 7.5 Prueba de Friedman para más de dos muestras dependientes. 7.6 Coeficiente de correlación por rangos de Spearman 7.7 Prueba de Kendall o Coeficiente de Kendall Ejercicios y problemas propuestos CAPITULO VIII PRUEBAS ESTADÍSTICAS PARAMÉTRICAS DE ESCALA DE INTERVALO 8.1 Prueba del valor Z. 8.2 Prueba t de Student para dos muestras independientes 8.3 Prueba t de Student para dos muestras dependientes 8.4 Análisis de varianza de Fisher de una entrada 8.5 Análisis de varianza de Fisher de doble entrada 8.6 Coeficiente de Correlación de Pearson Ejercicios y problemas propuestos CAPITULO IX VALIDACIÓN Y CONFIABILIDAD DE UN INSTRUMENTO 9.1 Instrumento de medición 9.2 Validez 9.2.1 Validez de contenido 9.2.2 Validez de constructo 9.2.3 Valides de predictiva 9.2.4 Factores que afectan la validez de una prueba 9,3 Confiabilidad 9.3.1 Método de Test-Reset 9.3.2 Métodos de mitades partidas: Guttman, Spaerman-Brown 9.3.3 Método según intercorrelación de ítems: Cronbach y KR20 9.3.4 Interpretación del coeficiente de confiabilidad 9.3.5 Mejoramiento de la confiabilidad de la prueba 9.3.6 Importancia de la confiabilidad. TABLAS ESTADISTICA BIBLIOGRAFIA 7 INTRODUCCIÓN Breve reseña histórica Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o cosas. Hacemos la evolución de la estadística a través de la línea de tiempo: 8 9 Es desde estos tiempos que la estadística viene desarrollándose hasta nuestros días, cuyo objeto de estudio es tomar decisiones y hacer predicciones. El término estadística tiene origen diversos vocablos, en el texto solamente citaremos los siguientes: Del neolatín statisticum collegium (consejo de estado) y La palabra italiana statista (‘hombre de estado’ o político). La palabra alemana statistik, introducida primeramente por Godofredo Achenwall Definición La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con lainvestigación científica. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales. La estadística se clasifica en: 10 La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros. La estadística inferencial, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos. Población (N) Se entiende por población el "(…) conjunto finito o infinito de elementos con características comunes, para los cuales serán extensivas las conclusiones de la investigación. Esta queda limitada por el problema y por los objetivos del estudio". (Arias, 2006. p. 81). Es decir, se utilizará un conjunto de personas con características comunes que serán objeto de estudio. Población finita, Es aquella cuyo elemento en su totalidad son identificables por el investigador. Ejemplos: a) Número de estudiantes matriculados en el año 2014 en la región central del Perú. b) Número de hijos por familia en la Región Lima. c) Todos los docentes principales de la Universidad Nacional de Educación Enrique Guzmán y Valle. Población infinita, Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar. Ejemplos: a) Los números naturales. b) Los números de peces en Océano Atlántico 11 c) Si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita. Criterio de inclusión y exclusión en una población Criterio de inclusión, Son un conjunto de propiedades cuyo cumplimiento identifica a un individuo que pertenece a la población en estudio. Su objetivo es delimitar a la población o universo de estudio. Criterio de exclusión, Son un conjunto de propiedades cuyo cumplimiento identifica a un individuo que por sus características podría generar sesgo en la estimación de la relación entre variables. Su objetivo es reducir los sesgos, aumentar la seguridad del estudio de la investigación y la eficiencia en la estimación. Muestra (n) Subconjunto o porción de la población de personas, animales u objetos de la población, que se selecciona con el propósito de hacer el estudio de la información obtenida. Es decir que es una parte de la población de interés sobre la cual se recolectan datos. Por ejemplo: Ejemplo: a) Número de estudiantes matriculados en el año 2014 en la Institución Educativa San Ramón de Tarma de la Región Junín. b) Número de hijos por familia en la Región Lima, menores de 6 años en el año 2014. c) Docentes principales de la Universidad Nacional de Educación Enrique Guzmán y Valle, menores de 45 años de edad. Parámetro () Un parámetro estadístico es un número que se obtiene a partir de los datos de una distribución estadística. Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica. A continuación mencionamos los parámetros más utilizados: : La media poblacional (mu) 2: La varianza poblacional (sigma al cuadrado) : Desviación estándar poblacional (sigma) 2: El coeficiente de correlación poblacional (rho) : Proporción poblacional (pi) 12 Se debe entender que los parámetros se hallan en función a la población de estudio. Esto es: Ejemplo. Los salarios promedio de los docentes universitarios de la región central del Perú, puede ser un ejemplo de parámetro. Ejemplo. La calificación promedio de los estudiantes de idiomas de una universidad nacional en el año 2014. Estadígrafo Un estadígrafo o llamado también estadístico es el resumen de los elementos de una muestra, son las medidas descriptivas inherentes a una muestra, las cuales pueden usarse como estimación del parámetro. A continuación mencionamos los estadígrafos más utilizados: x : La media muestral s2: La varianza muestral s: Desviación estándar muestral r2: El coeficiente de correlación muestral p: Proporción muestral Se debe entender que los estadígrafos se hallan de la muestra de estudio. Esto es: x1 x2 x3 : xN = f (x1, x2, x3, …, xN) Población Parámetro x1 x2 x3 : xN = f (x1, x2, x3, …, xN) Muestra Estadígrafo 13 Ejemplo: Como ejemplo podría tomarse los salarios promedio de una muestra de los docentes universitarios de la región central del Perú. Unidad estadística o unidad de análisis Es la mínima unidad de investigación de la cual se obtendrá información (datos) y se establecerá las conclusiones. Las cuales puede ser una persona, una familia, un país, una región, una institución o en general, cualquier objeto en estudio. Ejemplo: Cada uno de los alumnos matriculados en la asignatura de Estadística Aplicada a la Investigación Educativa. Datos Son valores que se obtienen o recopilan de la unidad de análisis para conocer y analizar las características de una población de estudio. Es decir son los resultados de la observación, entrevista o recopilación general, podemos decir es la materia prima de la estadística. Ejemplos: a) Marca de dos zapatillas que utiliza un atleta. b) Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz. c) Número de docentes que laboran en una universidad. Etapas del método estadístico El método estadístico consiste en una secuencia de procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. Dicho manejo de datos tiene por propósito la comprobación, en una parte de la realidad, de una o varias consecuencias verificables deducidas de la hipótesis general de la investigación. Las características que adoptan los procedimientos propios del método estadístico dependen del diseño de investigación seleccionado para la comprobación de la consecuencia verificable en cuestión. El método estadístico tiene las siguientes etapas: 1. Planteamiento del problema 2. Recolección (medición) 3. Recuento (cómputo) 14 4. Presentación 5. Síntesis 6. Análisis Tales etapas siempre se encuentran en el orden descrito y cada una de ellas consiste, de manera resumida, en lo siguiente: Planteamiento del problema, El primer paso de la investigación es definir claramente los objetivos del estudio y relacionar este objetivo con los valore numéricos de las variables observables. La investigación científica es una actividad con propósito (finalidad, meta) y como tal para quedar enteramente caracterizado debe dar respuesta a las siguientes interrogantes fundamentales: ¿Sobre quién recae la investigación? ¿Cómo se va a investigar? ¿Quién va a realizar la investigación? ¿Dónde se va realizar? ¿Cuándo se va a realizar? Solocuando se está en condiciones de dar respuesta a todos ellos y cada una de esas interrogantes se puede redactar el protocolo o plan de un trabajo de investigación que es el documento básico. Los objetivos surgen al contestar la pregunta acerca de para que se va a realizar la investigación y están directamente vinculados a la justificación e importancia de la investigación proyectada. La hipótesis es una conjetura, supuesto a proposición acerca de determinados hechos que va más allá de los datos que intenta explicar. Es decir que una hipótesis es una herramienta en la tarea científica, que pretende explicar o interpretar ciertos hechos, pero que va más allá de los mismos, aspirando a dar cuenta explicativa o predecir también algunos hechos independientes de aquellos que los originaron. Recolección, En esta etapa se recoge la información cualitativa y cuantitativa señalada en el diseño de la investigación. En vista de que los datos recogidos suelen tener diferentes magnitudes o intensidades en cada elemento observado (por ejemplo el peso o la talla de un grupo de personas), a dicha información o datos también se les conoce como variables. Por lo anterior, puede decirse que esta etapa del método estadístico consiste en la medición de las variables. 15 La recolección o medición puede realizarse de diferentes maneras; a veces ocurre por simple observación y en otras ocasiones se requiere de complejos procedimientos de medición; en algunas ocasiones basta con una sola medición y en otras se requiere una serie de ellas a lo largo de amplios períodos de tiempo. La calidad técnica de esta etapa es fundamental ya que de ella depende que se disponga de datos exactos y confiables en los cuales se fundamenten las conclusiones de toda la investigación. Recuento (computo), En esta etapa del método estadístico la información recogida es sometida a revisión, clasificación y cómputo numérico. A veces el recuento puede realizarse de manera muy simple, por ejemplo con rayas o palotes; en otras ocasiones se requiere el empleo de tarjetas con los datos y, en investigaciones con mucha información y muchos casos, puede requerirse el empleo de computadoras y programas especiales para el manejo de bases de datos. En términos generales puede decirse que el recuento consiste en la cuantificación de la frecuencia con que aparecen las diversas características medidas en los elementos en estudio; por ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o el número de niños con peso menor a 3 kilos y el número de niños con peso igualo mayor a dicha cifra. Presentación, En esta etapa del método estadístico se elabora los cuadros y los gráficos que permiten una inspección precisa y rápida de los datos. La elaboración de cuadros, que también suelen llamarse tablas, tiene por propósito acomodar los datos de manera que se pueda efectuar una revisión numérica precisa de los mismos. La elaboración de gráficos tiene por propósito facilitar la inspección visual rápida de la información. Casi siempre a cada cuadro con datos le puede corresponder una gráfica pertinente que represente la misma información. Presentar la misma información tanto en un cuadro como en su correspondiente gráfico permite obtener una clara idea de la distribución de las frecuencias de las características estudiadas. Síntesis, En esta etapa la información es resumida en forma de medidas que permiten expresar de manera sintética las principales propiedades numéricas de grandes series o agrupamientos de datos. 16 La condensación de la información, en forma de medidas llamadas de resumen, tiene por propósito facilitar la comprensión global de las características fundamentales de los agrupamientos de datos. Entre las principales medidas de resumen para sintetizar a los datos cualitativos se encuentran las razones, las proporciones y las tasas. Entre las principales medidas para sintetizar los datos cuantitativos se encuentra la media, la moda y la amplitud, la mediana y los percentiles y el promedio y la desviación estándar. Análisis, En esta etapa, mediante fórmulas estadísticas apropiadas y el uso de tablas específicamente diseñadas, se efectúa la comparación de las medidas de resumen previamente calculadas: por ejemplo, si antes se han calculado los promedios de peso de dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos consiste en la comparación de ambos promedios con el propósito de decidir si parece haber diferencias significativas entre tales pro medíos. Existen procedimientos bien establecidos para la comparación de las medidas de resumen que se hayan calculado en la etapa de descripción, Tales procedimientos, conocidos como pruebas de análisis estadístico cuentan con sus fórmulas y procedimientos propios. Cada prueba de análisis estadístico debe utilizarse siempre en función del tipo de diseño de investigación que se haya seleccionado para la comprobación de cada consecuencia verificable deducida a partir de la hipótesis general de investigación. Ejercicio: 1.- Leer atentamente el siguiente resumen, del artículo de investigación. Resumen: Un profesor de ginecología, miembro de una prestigiada escuela de medicina, quiere determinar si un implante de tipo experimental para el control natal tiene efectos colaterales sobre el peso corporal y la depresión de las mujeres. Un grupo de 1000 féminas adultas, habitantes de una ciudad cercana, se presentan como voluntarias para el experimento. El ginecólogo elige a 100 de estas mujeres para participar en el estudio. 50 de las voluntarias se asigna al grupo 1y las otras 50 al grupo 2, de modo que los datos sobre peso corporal promedio y de depresión promedio de cada grupo sean iguales al principio del experimento. Las condiciones del tratamiento son las mismas para ambos grupos, excepto que las mujeres del grupo 1 se les realiza el implante del dispositivo experimental para el control natal, mientras que las mujeres del grupo 2 reciben un implante placebo. El peso corporal y el nivel de depresión se miden al inicio y al final de la prueba. Para medir la depresión se utiliza un cuestionario estándar, mientras más alto sea el puntaje en este cuestionario, más deprimida estará la persona. Al final del experimento se comparan el peso corporal promedio y los niveles de 17 depresión promedio de cada grupo para determinar si el implante experimental tuvo algún efecto sobre estas variables. Para proteger a las mismas mujeres contra un embarazo no deseado, durante todo el experimento se utilizó otros métodos de control natal que no interfieren con el implante. Del experimento determina: a) las variables independientes b) las variables dependientes c) la muestra d) la población e) el dato f) los estadísticos g) los parámetros. 2.- Leer atentamente el siguiente resumen, del artículo de investigación titulado: Competencias docentes en los profesores de medicina de la Universidad Michoacana de San Nicolás de Hidalgo1 Resumen Para la identificación de un grupo de competencias docentes básicas en los profesores que se desempeñan en la licenciatura en medicina en la Facultad de Medicina “Dr. Ignacio Chávez”, objetivo fundamental del presente trabajo, se utilizaron métodos teóricos y empíricos. Se aplicó una encuesta a una muestra seleccionada de docentes y alumnos. Se emplearon procedimientos estadísticos para el análisis de los resultados y se elaboraron tablas. A partir de la identificación de las necesidades de aprendizaje de los profesores estudiados, en relación con la dirección del proceso enseñanza-aprendizaje y los referentes teóricos sobre el tema, se realizó un análisis integrador para valorar los datos obtenidos, lo que permitió la caracterización delos docentes objeto de investigación, en relación con las competencias docentes básicas propias de una gestión formativa pertinente. Se tomaron en consideración los principios metodológicos más actuales acerca de la formación de recursos humanos en la educación superior en sentido general y en particular en la educación médica superior. A partir de este resumen: 1. Defina la población. 2. Defina la muestra. 3. Defina la(s) variable(s) aleatoria(s). 4. Plantear un parámetro, y su respectivo estadístico, según respuesta 3. 1 MANZO RODRIGUEZ, Lidia; RIVERA MICHELENA, Natacha y RODRIGUEZ OROZCO, Alain. Competencias docentes en los profesores de medicina de la Universidad Michoacana de San Nicolás de Hidalgo. Revista Cubana de Educación Médica Superior. Vol. 20. Abril-Junio 2006, ISSN 18 CAPÍTULO I ORGANIZACIÓN Y PRESENTACIÓN DE DATOS En esta primera parte vamos a dedicarnos a la ordenación y al análisis de los datos observados. Es decir, realizamos la descripción de las características de un conjunto de datos. Que es necesario para realizar los estudios de la estadística. Los datos deben recogerse a través de un formato que nos permita el análisis estadístico, de tal manera que finalmente puedan resumirse en números, tablas y gráficos. Estos resúmenes, principalmente los numéricos, constituyen el medio y el fin de la estadística. Cualquiera que haya participado en la investigación educativa sabe que los problemas que se presentan en el análisis de los datos deben ser confrontados en las etapas de planeación de un proyecto de investigación, puestos que éstos sustentan la naturaleza de las decisiones que se tomen en todas las demás etapas. Tales problemas afectan con frecuencia aspectos del diseño de investigación y aun el tipo de instrumento que se emplearán al recolectar los datos. Por tal razón buscamos constantemente técnicas o métodos para mejorar la calidad del análisis de los mismos que nos apoyaremos de un programa estadístico para facilitar el análisis de estos datos obtenidos oportunamente. 1.1 Las variables y su clasificación La variable, es una característica, cualidad o propiedad que puede variar con relación a sí mismo o diferentes objetos a lo largo del tiempo y cuya variación es susceptible de observarse o medirse. Por ejemplo: edad, género, motivación, calidad de gestión, rendimiento académico, religión, estado civil, peso corporal, etc. Existen distintos tipos de variables según el criterio de clasificación que se utilice. Aquí veremos los criterios de clasificación más utilizados son: 1.1.1 Según su naturaleza, Las variables según su naturaleza se dividen en variables cualitativas y cuantitativas. Las primeras son aquellas que no son susceptibles de medida numérica, sus valores son atributos, por ejemplo: Genero (masculino y femenino), estado civil (soltero, casado, viudo, conviviente, etc.). Las variables cuantitativas sí son susceptibles de medida numérica, sus valores indican cantidad de variable. Este tipo de variable se divide a su vez en discretas y continuas. Una variable cuantitativa discreta es aquella que no admite un valor intermedio entre dos valores, por ejemplo el número de estudiantes. Mientras que la variable cuantitativa continúa admite infinitos valores entre dos variables cualesquiera, como ejemplo el peso y talla de los estudiantes. Resumiendo se tiene: 19 a) Cualitativas, Se expresan en datos no numéricos o atributos b) Cuantitativas, Se expresan en datos numéricos Dicotómicas, se expresan en dos categorías: Si o No Bueno o Malo Politómicas, se expresan en más dos categorías: Bueno Regular Malo SEGÚN SU NATURALEZA Discretas, asumen valores enteros positivos como: Número de hijos Estudiantes matriculados Continuas, asumen valores decimales o fraccionarios como: Peso de estudiantes Promedio de estatura 1.1.2 Según el grado de complejidad, se tienen de dos tipos simples y complejos, los primeros se manifiestan directamente como indicadores o unidades de medida. No se descomponen en dimensiones; por ejemplo la edad se manifiesta en edades cumplidas. Las complejas son aquellas que se pueden descomponerse en dos dimensiones como mínimo, por ejemplo la actitud se estudia en los aspectos cognitivo, procedimental y actitudinal. 1.1.3 Según la función que desempeña en la investigación, Esta clasificación divide las variables en función del papel que a cada una se le atribuye en las relaciones causales: dependiente, independiente, interveniente y extrañas. Las variables dependiente (criterio o explicada), es la variable objeto de estudio, es decir, es la variable en la que observamos las consecuencias, el efecto. Esta es la variable que se supone debe variar como consecuencia de la variación de la otra variable, la independiente. Los resultados dirán si realmente la variable dependiente es o no es dependiente de la variable independiente. La variable independiente (predictora o explicativa), como ya se puede haber deducido, es la variable que recibe la consideración de influir sobre, provocar cambios en o afectar a la otra variable dependiente. Las variables intervenientes son aquellos sobre las que se tiene fundada sospecha de que una presencia influye en la relación entre independiente – dependiente. Estas variables pueden controlarse despojándolas de su condición variable, es decir, manteniendo constantemente sus valores. Las variables extrañas, Son factores que escapan del control del investigador y ejercen alguna influencia en los resultados. Es decir cuando existe una variable independiente no relacionada con el propósito de estudio, pero que puede presentar efectos sobre la variable dependiente decimos que tenemos una variable extraña. 20 SEGÚN SU NATURALE ZA 2. dependiente, Se refiere al objeto sobre el que se realizará la investigación. Se modifica por acción de la variable dependiente 1. Independiente, Son las causas que generan y explican los cambios en la variable dependiente 3 Intervenientes, Son las que se interponen entre las variables independiente y dependiente pudiendo influir en la modificación de esta última 4. Extrañas, Son factores que escapan del control del investigador y ejercen alguna influencia en los resultados 1.1.4 Según su escala de medición a) Escala nominal, Esta es la más simple de todas las escalas. En ella los números desempeñan el papel de señales y sirven para detectar y diferenciar los objetos estudiados (por ejemplo, la numeración de los jugadores del equipo de fútbol). Los números que componen la escala de denominaciones pueden intercambiar sus lugares. En esta escala no existen relaciones del tipo “mayor-menor”, por eso algunos plantean que el empleo de la escala de denominaciones no amerita considerarse una medición. Al emplearse la escala de denominaciones pueden realizarse solamente algunas operaciones matemáticas. Por ejemplo, sus números no se pueden sumar o restar, pero puede contarse cuántas veces (con qué frecuencia) se presente el mismo número. No obstante, gracias a los programas estadísticos procesan números con mayor eficacia, a veces numeramos las categorías de estas variables con códigos. Por ejemplo se tiene en el siguiente cuadro: VARIABLES CATEGORIAS CÓDIGO Género Masculino Femenino 1 2 Lugar de nacimiento Lima Junín Pasco Huánuco Otro 1 2 3 4 5 Estado civil Soltero Casado Viudo Otro 1 2 3 4 Tipo de sangre OH+ OH- Otros 1 2 3 21 La variable género fue asignado 1 para el masculino y 2 para femenino, la elección de los números es arbitrario; también se hubiera elegido 1 para femenino y 2 para masculino. b) Escala ordinal, En esta escala, los números que la componen se encuentran ordenados por rangos (es decir,por el lugar que ocupan), por los intervalos entre ellos no se pueden medir con exactitud. A diferencia de la escala de denominaciones, las escalas de rango permiten establecer no solo el hecho de la igualdad o desigualdad de los objetos medidos, sino también determinar el carácter d la desigualdad en forma de apreciación “mayor-menor”, “mejor- peor”, etcétera. Por ejemplo se tiene: VARIABLES CATEGORIAS CÓDIGO Clase social Alta Media Baja 1 2 3 Grado de instrucción Superior Secundaria Primaria Inicial 1 2 3 4 Calidad de servicio Buena Regular Mala 1 2 3 Motivación hacia la carrera docente Alta Media Baja 1 2 3 c) Escala de intervalo, se tiene una escala intervalar, cuando los valores asignados a las unidades estadísticas no sólo permiten ordenarlas, sino que además, las diferencias iguales entre éstos indican diferencias iguales en las cuantías de las propiedades a medir. El inicio de la escala (0) es arbitrario, convencional; es decir el cero es relativo: no indica ausencia total de medición. Ejemplo de variables en escala de intervalo: La temperatura, Coeficiente de inteligencia, rendimiento académico, etc. d) Escala de razón, cuando los valores asignados a las unidades estadísticas no sólo permiten que éstas pueden ser ordenadas, sino que además, las diferencias iguales entre éstos indican diferencias reales en las cuantías de las propiedades a medir. El valor cero, representa ausencia de la característica que se mide. Ejemplo de variables en escala de razón: el peso, los ingresos, utilidades, estatura, tiempo, etc. 22 Esta clasificación ha sido asumida por inmensa mayoría de autores. La propuesta de Stevens fue una contribución significativa a la psicofísica y a la teoría de la medición. Stevens introdujo la idea de la relación entre las escalas de medida y la estadística, condicionando los diferentes procedimientos estadísticos a las escalas de medida de las variables. A continuación vamos empezar procesar un fichero al SPSS. Algunos de los ficheros que vamos a construir, así como sus modificaciones, los utilizaremos posteriormente para el análisis en capítulos siguientes: Ejemplo 1.1 Se tiene una muestra de 23 docentes para hacer una base de datos sobre el sexo, estado civil, motivación hacia la carrera, estatura, peso y horas de dedicación a los estudiantes que a continuación se muestran: ID Genero Estado civil Motivación hacia la carrera Estatura (cm) Peso (kg) Horas de dedicación 1 Masculino Soltero Alta 180 70 5 2 Femenino Casado Baja 160 70 3 3 Femenino Conviviente Media 171 85 3 4 Masculino Soltero Media 166 68 4 5 Femenino Casado Alta 155 54 6 6 Masculino Conviviente Media 176 80 3 7 Femenino Soltero Baja 160 61 2 8 Masculino Soltero Baja 160 68 2 9 Masculino Casado Media 158 60 3 10 Masculino Casado Baja 159 62 2 11 Femenino Casado Baja 145 52 3 12 Femenino Conviviente Media 148 51 4 13 Masculino Soltero Media 155 65 4 14 Masculino Conviviente Baja 165 72 3 15 Femenino Conviviente Baja 167 69 3 16 Femenino Casado Media 157 68 4 17 Masculino Conviviente Baja 170 82 4 18 Masculino Soltero Baja 168 70 3 19 Femenino Soltero Media 156 65 4 20 Femenino Casado Alta 153 57 6 21 Femenino Casado Alta 152 51 5 22 Masculino Conviviente Baja 160 63 3 23 Femenino Conviviente Media 151 56 4 23 Construya una base de datos en SPSS. Solución Al ingresar a SPSS usted tendrá abierta la ventana del editor de datos del programa estadístico SPSS, puede seleccionar, en la parte inferior de la ventana: vista de datos ó vista de variables. En la Figura se muestra la vista de datos cuando aún no hay ningún dato ingresado. Así: Pero antes de ingresar los datos, es necesaria la definición de variables objeto de estudio en vista de variables, usted puede escribir las variables de estudio como variables cualitativas y cuantitativas: 24 La pestaña de vista de variables presenta las siguientes opciones que se deben definir para cada una de las variables que serán utilizadas: Nombre: Sirve para definir un nombre corto de la variable, teniendo como restricción no utilizar algunos caracteres como: $ o #, tampoco permite dejar espacios en blanco. Tipo: Es utilizado para definir y/o modificar el formato de variable que será ingresada. Cuando se da clic en aparece la siguiente ventana: Los principales formatos de variables son: Numérico: Para ingresar números. Aquí se puede definir el ancho (cantidad de dígitos) del número en su parte entera y decimar. Cadena: Para ingresar datos de tipo alfanumérico. Anchura: Permite definir la cantidad de caracteres que tendrá un dato. Decimales: Solo es activada para datos de tipo numérico y moneda. Permiten indicar la cantidad de decimales que serán utilizados en los datos. Etiqueta: En esta opción se puede definir un nombre más completo para las variables. Aquí se permite espacios en blanco. 25 Valores: Es utilizada para definir los nombres de las categorías en datos de tipo cualitativo. Cuando se da clic en aparece la siguiente ventana: Perdidos Es utilizado para indicar que valores son codificados como datos perdidos y serán excluidos del análisis Columnas Permite definir el ancho que tendrá cada columna y esto será visualizado en la ventana de ingreso de datos. Alineación Esta opción permite definir cómo será la alineación de los datos en la ventana de ingreso de datos. Los tipos de alineación son: Izquierda, Derecha y Centrado. Medida Sirve para definir el tipo de variable. SPSS permite el ingreso de tres tipos de variables: Nominal: Cuando se utilizan variables medidos en escala nominal. Ordinal: Cuando se utilizan variables medidas en escala ordinal. Escala: Cuando se utilizan variables medidas en escala intervalo y razón. 1.2 Distribución de frecuencia 1.2.1 Representación tabular de los datos Toda tabla consta de tres elementos: título, cuerpo y nota de pie o fuente. Como norma general, el diseñador debe tener en cuenta que es preferible elaborar dos o más tablas que saturar una sola con demasiada información. 26 Título, Debe ser claro y conciso, que especifique la naturaleza de los datos (qué), la manera de obtenerlos (cómo), el tiempo transcurrido al obtener la información (cuándo) y su procedencia (dónde). Aun cuando es preferible la brevedad, hay que respetar la claridad del texto. Cuerpo, Consta de tres elementos: encabezamiento, columna matriz y la columna de datos, como se muestra en la figura. Fuente, Si los datos no son originales debe mencionarse detalladamente la fuente de información. Tablas univariables, Son tablas en cuyo orden presentan una sola variable, análisis o característica y su clasificación va definida en columna matriz. Así por ejemplo: Tablas bivariables, Son aquellas que están representado por dos variables, análisis o características relacionadas donde una va definida en columna matriz y la otra en encabezado. Así por ejemplo. 27 1.2.2 Tablas estadísticas Consideramos una población estadística de n individuos, describe según un carácter o variable “x” cuyas modalidades han sido agrupados en un número k de clases, que denotamos mediante x1, x2, x3, . . ., xk. Para cada una de las clases xi, i = 1, 2, 3, …, k. VARIABLE FRECUENCIA ABSOLUTA FRECUENCIA RELATIVA (Valor) Simple fi Acumulada Fi Simple hi Acumulada Hi x1 f1 f1 h1= f1/n h1 x2 f2 f1 + f2 h2 = f2/n h1 + h2 x3 f3 f1+ f2 + f3 h3 = f3/n h1+ h2 + h3 : : : : : xn-1 fn-1 f1+ f2 +… +fn-1 hn-1= fn-1/n h1+ h2 +… +hn-1 xn fn F = n hn= n H = n n hi = 1 Siendo xi los distintos valores que puede tomar la variable Siendo fi el número de veces que se repite cada valorSiendo hi el porcentaje que la repetición de cada valor supone sobre el total Frecuencia absoluta, de la clase fi es el número de ni de observaciones que presentan una modalidad perteneciente a esa clase. Frecuencia relativa, de la clase hi es el cociente fi entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir: n f h ii Obsérvese que hi es el tanto por uno de observaciones que están en la clase fi multiplicado por 100 % representa el porcentaje de la población que comprende esa clase. 28 Frecuencia absoluta acumulada, Fi, se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad fi. Fi = f1+ f2 +… + fn-1 + fn = n i if 1 Frecuencia relativa acumulada, Hi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna clase y que representa una modalidad inferior o igual a hi, es decir: Hi = h1+ h2 +… + hn-1 + hn = n i ih 1 = 1 1.2.3 Distribución de frecuencias para datos cualitativos En este caso los datos de una muestra de estudio no se agrupan ya que estos datos son del tipo nominal u ordinal y se puede presentar en una tabla de la siguiente forma: EJERCICIO 1.2 El Departamento de Tutoría de la Institución Educativo Daniel Alcides Carrión calificó la conducta escolar de 50 estudiantes en 4 categorías: Muy buena (MB), Buena (B), Regular (R) y Deficiente (D), cuyos resultados fueron: B MB MB D MB B B MB R R MB R R B R R B B R R R B B R B MB R B R R D B R B R R D R R R B R B MB B B R B B B a) Elabora una tabla de distribución de frecuencia aplicando SPSS. b) ¿Qué porcentaje de estudiantes tiene la conducta muy buena y deficiente? Solución 29 a) Elaborando la tabla de frecuencia 1. Ingresar los datos en la ventana: vista de variable, Hacer clic en vista variable para ingresar nombre de la variable: CONDUCTA, en Etiqueta dar nombre completo: CONDUCTA DE LOS ESTUDIANTES, CLIC en valores para ingresar las sub categorías: (1 = Muy buena, 2 = Buena, 3 = Regular y 4 = Deficiente) tal como se observa en la figura: 2. Para calcular la frecuencia de datos hacer clic en Analizar Estadísticos descriptivos Frecuencias el gráfico será: 3. Hacer clic en Gráficos Gráficos de barra continuar Finalmente aceptar. 30 4. Luego aparecerá la ventana de visor, es decir el resultado. b) Respondiendo la pregunta b: Se observa en la tabla anterior que el 14% de los estudiantes de la Institución Educativa Daniel Alcides Carrión obtuvieron la conducta de muy buena; mientras que sólo un 6% de estos estudiantes tienen la conducta de deficiente. EJERCICIO 1.3 Los siguientes datos son de 36 trabajadores de las instituciones educativas estatales y privadas que fueron encuestados sobre el método de enseñanza que aplican a sus estudiantes y cuyos resultados son: 31 No INSTITUCIÓN EDUCATIVA MÉTODO UTILIZADO GENE RO No INSTITUCIÓN EDUCATIVA MÉTODO UTILIZADO GENE RO 01 Estatal Tradicional M 19 Estatal Nuevo M 02 Privada Nuevo F 20 Estatal Tradicional F 03 Privada Nuevo F 21 Privada Tradicional M 04 Estatal Nuevo F 22 Privada Nuevo F 05 Estatal Tradicional M 23 Estatal Nuevo M 06 Estatal Nuevo M 24 Estatal Nuevo F 07 Privada Tradicional M 25 Privada Nuevo M 08 Estatal Tradicional F 26 Estatal Tradicional F 09 Estatal Nuevo F 27 Estatal Nuevo M 10 Privada Nuevo M 28 Estatal Nuevo M 11 Privada Nuevo F 29 Privada Tradicional M 12 Estatal Tradicional M 30 Estatal Nuevo F 13 Estatal Nuevo F 31 Privada Tradicional F 14 Estatal Nuevo M 32 Privada Nuevo F 15 Privada Tradicional M 33 Privada Nuevo F 16 Privada Tradicional F 34 Estatal Nuevo F 17 Estatal Nuevo F 35 Privada Tradicional M 18 Estatal Nuevo F 36 Privada Nuevo M Elabora: 1) Una tabla de doble estrada con respecto al método de utilizado y la institución educativa utilizando SPSS. 2) Interpreta los resultados obtenidos. Solución a) Hacer clic en vista de variable para dar nombre de la variable. Dar nombre completo en Etiqueta, para luego dar valor a las categorías: Para la Institución educativa: 1=Estatal, 2=Privado; para el método aplicado: 1=Tradicional 2=Nuevo y final mente para el género: 1=Masculino y 2=Femenino. 32 b) Ingresamos los 36 datos en la vista de datos: c) Para obtener la tabla de doble entrada Institución educativa hacer clic en Analizar Tablas Tablas personalizadas Restablecer: Fila: Institución Educativa Columna: Método de enseñanza. Selecciona Institución educativa: Categorías y totales… Mostrar: Total Aplicar. Estadísticos: % del N de Columnas Aplicar a sección. Selecciona Método de enseñanza: Categorías y totales… Mostrar: Total Aplicar. d) Finalmente hacer clic en aceptar y el resultado aparecerá en la ventana de visor de resultados: 33 Tanto para el método tradicional y nuevo y total, la columna de recuentro nos muestra la frecuencia absoluta fi; la columna de % del N total de la tabla nos muestra la frecuencia relativa en % es decir, fi.100 = (%)100 n f i ; así por ejemplo, para el tradicional del método de enseñanza se haría %2.46100 13 6 . 1.2.3 Representación gráfica para datos cualitativos Barras, Un gráfico de barras se compone de una serie de barras verticales u horizontales, donde la longitud de la barra representa la frecuencia de una categoría de una variable nominal u ordinal. a) Gráficos de una sola variable. Del ejemplo 2 representamos el género de los trabajadores de una institución educativa. 34 b) Gráficos de dos variables, Del ejemplo 2 representamos el método de enseñanza y la Institución Educativa. Pastel o circular, Los diagramas circulares se utilizan para variables generalmente cualitativas y de pocas clases: éstas se presentan mediante sectores circulares que se reparten los 3600 de la circunferencia. Los sectores son proporcionales a la frecuencia de las clases y se calculan mediante una regla de tres simple: Ángulo θ = hi . 3600 hi, es la frecuencia relativa. Con un transportador de ángulos, dibujamos en un círculo el sector (de ángulo θ), y repetimos el proceso para los demás sectores de las categorías. Como ejemplo se muestra el gráfico del ejemplo 2 de la institución educativa aplicando SPSS. Gráficos cuadro de diálogos antiguos Sectores Definir Definir sectores por: Institución Educativa % de casos aceptar, y aparecerá el gráfico de sectores. Para obtener una gráfico de tres D hacer clic dos veces en el gráfico Propiedades: Profundidad y ángulo aceptar y así habrás obtenidos un gráfico de tres dimensiones o 3D. 35 Pictogramas, También llamada gráfica de imágenes o pictografía. Es un diagrama que utiliza imágenes o símbolos para mostrar datos para una rápida comprensión. En un pictograma, se utiliza una imagen o un símbolo para representar una cantidad específica. Por ejemplo: 1.2.4 Distribución de frecuencia para datos cuantitativos La distribución de frecuencias por intervalos Ii clase o llamado también distribución para datos agrupados, se usa cuando la variable estadística es continua o cuando el número de valores es muy grande, esta distribución se obtiene dividiendo el rango de variación de los datos en k intervalos y determinando el número de datos que contiene cada intervalo: 36 Para construir la distribución de frecuencia de intervalos debemos tener en cuenta lo siguiente: 1. Elegir no más de 20 intervalos ni menos de 5, ya que podrán complicar los cálculos así como pocos intervalos podrían omitir características importantes,es recomendable elegir intervalos de igual amplitud(A). 2. El número de intervalos elegidos debe dar una distribución de frecuencias mono modal, es decir las distribuciones van en aumento progresivo hasta una frecuencia máxima y luego van disminuyendo progresivamente. Para construir una tabla de frecuencia por intervalos o datos agrupados se debe seguir algunas consideraciones: 1. Determinar el rango (R) de variación de los datos de la muestra de estudio que se define por: R = xmáx. – xmín. Donde: xmáx.= Valor máximo de la muestra Xmín.= Valor mínimo de la muestra. 2. Determinar el número de intervalos (Ii), Un valor aproximado del número de intervalos Ii, nos proporciona la regla de Sturges, donde: Ii = 1+ 3,3 log(n); Los valores decimales se redondean al entero inmediato superior. Por ejemplo. Si se tiene n = 50 datos, entonces Ii = 1 + 3,3 log(50) Ii = 1 + 3,3 (1,6990) Ii = 6,6067 37 Luego k podrá tomar los valores de 6, 7 ó 8, siguiendo las recomendaciones del primer paso. 3. Determinar la amplitud (A) del intervalo, dividiendo el rango entre el número de intervalo, es decir: A = I R i Si la división no es exacta en el número decimal, se aproxima por exceso de manera que se cubra el rango. A = Li - Ls Siendo: Li = Límite inferior de la clase Ls = Límite superior de la clase. Ejemplo 1.4 Sean los pesos de los estudiantes de una universidad “x” de la ciudad de Lima con obesidad expresados en kilogramos: 73 102 90 97 98 106 108 93 87 88 100 87 104 85 90 95 80 98 82 98 104 112 90 98 101 94 105 98 93 82 91 84 93 88 97 103 84 105 92 114 96 100 104 96 101 75 93 82 100 95 Construir una tabla de frecuencia para datos agrupados e interpretar algunos resultados de la tabla. Solución: Para construir la tabla aplicados las consideraciones expuestas anteriormente: Paso 1: Determinamos el rango (R): R = xmáx. – xmín. R = 114 – 73 R = 41 Paso 2: Determinando el número de intervalos (k): Ii = 1+ 3,3 log(n) Ii = 1 + 3,3 log(50) 38 Ii = 6,6067, redondeando será k = 7 Paso 3: Determinado la amplitud del intervalo (A): A = I R i = 7 41 A = 5,857, redondeando será A = 6 Paso 4: Con estos datos construimos la tabla de frecuencia para datos agrupados. Intervalos Conteo Frecuencia fi Fi hi Hi Pi(%) 73 – 79 II 2 2 0,04 0,04 4 % 79 – 85 IIIII - I 6 8 0,12 0,16 12 % 85 – 91 IIIII - III 8 16 0,16 0,32 16 % 91 – 97 IIIII – IIIII - I 11 27 0,22 0,54 22 % 97 - 103 IIIII – IIIII - III 13 40 0,26 0,80 26 % 103 - 109 IIIII - III 8 48 0,16 0,96 16 % 109 - 115 II 2 50 0,04 1,00 4 % Total n =50 1.00 100 % Interpretación: f1 = 2 Existe dos estudiantes de la universidad “x” de la ciudad de Lima cuyos pesos son mayores e iguales a 73 kilogramos y menores que 79 kilogramos de peso. F4 = 27 Existen 27 estudiantes de la universidad “x” de la ciudad de Lima que tienen pesos menores e iguales a 73 kilogramos y menores a 97 kilogramos de peso. h4 = 22% El 22% de los estudiantes de la universidad “x” de la ciudad de Lima, pesan entre 91 a 96 kilogramos de peso. H5 = 80% El 80% de los estudiantes de la universidad “x” de la ciudad de Lima, tienen entre 73 a 102 kilogramos de peso. Hallando las frecuencias absolutas acumuladas (Fi), de acuerdo a la definición anterior explicado, determinamos las frecuencias respectivas: 39 F1 = 1 1i if F1 = 2 F1 = 2 F2 = 2 1i if F2 = 2 + 6 F2 = 8 : : : F7 = 7 1i if F7 = 2+6+16+ … + F7 = 50 Hallando la frecuencia relativa (hi), del cuadro anterior h1 = n f1 h1 = 50 2 = 0,04 h2 = n f2 h2 = 50 6 = 0,12 : : h7 = n f7 h7 = 50 2 = 0,04 Hallando la frecuencia porcentual p1 = 100x n f1 p1 = 100x 50 2 = 4% p2 = 100x n f2 p2 = 100x 50 6 = 12% : : p7 = 100x n f7 p7 = 100x 50 2 = 4% Ejemplo 1.5 Los resultados que se presentan corresponden a una serie de datos evaluados a una muestra aleatoria de estudiantes de Maestría de la UNE, obtenidos del trabajo de investigación. Cabe señalar que el marco para el correspondiente diseño muestral fue obtenido por los estudiantes de Doctorado en Educación, quienes también realizaron la toma de datos en el marco de la asignatura de Estadística Aplicada a la Investigación. Asimismo presentamos el resto de las variables de los estudiantes elegidos: 40 Coeficiente de inteligencia Rendimiento en Matemática Método de Enseñanza Estad o Civil Horas de estudio SEXO Rendimiento en Didáctica de la Mat. 120 15 N C 4 F 9 112 11 N C 3 F 3 110 11 N C 2 F 7 120 14 N C 5 M 10 103 11 N S 6 M 11 126 16 N S 7 F 12 113 11 T S 7 M 13 114 14 T S 5 F 15 106 11 T S 4 F 16 108 10 T S 9 F 12 128 16 T S 8 M 12 110 12 N S 8 F 13 120 13 N S 10 F 14 118 16 N S 11 F 11 117 15 N S 10 F 9 112 11 T C 5 M 9 112 11 T C 4 M 8 110 11 T C 5 M 7 100 9 T C 6 F 5 120 14 T C 3 F 12 122 16 T C 2 M 11 111 11 T S 1 M 10 121 12 T C 6 F 11 120 14 T S 7 M 11 120 13 N C 3 M 12 130 16 N S 4 F 14 129 12 N S 5 F 15 100 10 N S 7 F 12 132 15 T S 7 F 11 41 122 12 T S 9 M 9 108 12 T S 8 M 11 118 11 T C 4 M 12 117 11 T C 5 F 8 115 12 N C 3 F 7 134 14 N S 4 M 14 114 9 N C 2 M 5 X1: Coeficiente de inteligencia X2: Rendimiento académico de Matemática X3: Método de enseñanza: N = Nuevo T = Tradicional X4: Estado civil: C = Casado(a) S = Soltero(a) X5: Horas de estudio (fuera de horas de clase) X6: Sexo: F = Femenino M = Masculino X7: Rendimiento académico en Estadística Preguntas: 1. Introducir las variables y datos en vista de variables y vista de datos. 2. Elabora la tabla de frecuencia para datos agrupados con SPSS 3. Elabora una tabla personalizada con SPSS de las variables categóricas. Solución 1. Creamos los archivos y luego guardamos dichos datos en SPSS, como se observa en la siguiente ventana. 2. Elaboramos la tabla de frecuencia para datos agrupados, para ello seguimos los siguientes pasos: 42 Paso 1: Determinamos el rango (R): R = xmáx. – xmín. R = 134 – 100 R = 34 Paso 2: Determinando el número de intervalos (k): Ii = 1+ 3,3 log(n) Ii = 1 + 3,3 log(36) Ii = 6,135, redondeando será k = 6 Paso 3: Determinado la amplitud del intervalo (A): A = I R i = 6 34 A = 5,667, redondeando será A = 6 Paso 4: Clic en Transformar Recodificar en distintas variables Coe_Int (variable de resultado, Nombre: Coef_Intl1; Etiqueta: Coeficiente de Inteligencia 1) clic Cambiar clic valores antiguos y nuevos Clic RANGO: Desde 100 … hasta … 105, valor 1 añadir , continuar 106 … 111, valor 2 añadir continuar … 130 … 135, valor 6 añadir y aceptar. En vista de variables hacer clic en valores: Valor: 1 Etiqueta de valor: [ 100 – 106 > Valor: 2 Etiqueta de valor: [ 106 – 112 > : Valor: 6 Etiqueta de valor: [ 130 – 136 > Hacer clic en Analizar Estadístico descriptivos Frecuencia Coeficiente de inteligencia 1 aceptar y luego aparece el resultado. 43 Interpretación: - Existe 3 estudiantes de Maestría de la UNE tiene un coeficiente de inteligencia menor de 106 y mayor e igual a 100. - 52,8% de los estudiantes de Maestría de la UNE, tiene un coeficiente de inteligencia menor que 118. - 30,6% de los estudiantes de Maestría de la UNE obtuvieron un coeficiente de inteligencia de 118 a 123 puntos respectivamente. 3. Procedimiento para determinar la tabla personalizada con SPSS Solución: Analizar Tabas Tablas personalizadas… Restablecer: todas las pestañas Columna: Método de enseñanza Fila Estado civil y Sexo. Clic derecho Método enseñanza: Categorías y totales… Mostrar: TotalClic derecho Sexo de los estudiantes: Categorías y totales… Mostrar: Total. Finalmente acepta y aparecerá la tabla personalizada. Método de enseñanza Sexo de los Estudiantes Femenino Masculino Total Estado Civil Estado Civil Estado Civil Casado Soltero Casado Soltero Casado Soltero Nuevo 6 6 2 3 8 9 Tradicional 4 4 6 5 10 9 Total 10 10 8 8 18 18 44 1.2.5 Representación gráfica para datos cuantitativos a) Histograma de frecuencia: Se utiliza para graficar las frecuencias absolutas o relativas de variables continuas. Es un conjunto de regiones rectangulares cuyas bases coinciden con la longitud de intervalo de clase (eje X), y las alturas correspondientes a las frecuencias absolutas o relativas (eje Y). b) Ojivas: Esta representación es válida para graficar las frecuencias absolutas acumuladas de una variable continua. A cada límite superior le corresponde la frecuencia acumulada de la clase correspondiente, iniciando con el límite inferior del primer intervalo. Para graficar los datos con SPSS, seguimos los siguientes pasos: Gráficos Cuadros de diálogos antiguos Líneas Simple Definir Nuevo Coeficiente de Inteligencia La línea representativa: N acum. Aceptar y aparece el gráfico: 45 Un polígono de frecuencia acumulada (o gráfico de líneas de frecuencia acumulada) se llama ojiva. c) Gráficos de caja o bigote (Box-and – Whisher Plot): Los diagramas de caja o box-plot pueden interpretarse como representaciones gráficas construidas para mostrar las características principales de la muestra, así como para identificar la posible presencia de observaciones atípicas. Para graficar los datos con SPSS, seguimos los siguientes pasos: Gráficos Diagrama de cajas Arrastra a la presentación preliminar del gráfico Elija la variable aceptar: - La caja es el rectángulo cuyos bordes inferiores y superior son los percentiles 25 y 75, respectivamente. Dentro de la caja queda comprendida por lo tanto el 50% de los valores centrales de la variable. La línea horizontal que atraviesa la caja representa la mediana. - Las líneas verticales que salen de la caja se extienden hasta los valores más altos y más bajos de la variable, que no llegan a ser atípicos. - Los casos señalados con un círculo o un asterisco corresponden a valores que se alejan demasiado del resto, siendo: Atípicos (señalados con un círculo): los valores que se alejan (hacia arriba contando desde el percentil 75 o hacia abajo contando desde el percentil 25)1,5 veces del rango intercuartil. Extremos (señalados con asterisco): valores que se alejan tres veces la distancia intercuartil, a partir de los mismos límites anteriores. 46 Estos diagramas aportan información sobre la simetría de la distribución: las cajas con la mediana centrada sugieren distribuciones simétricas, al menos en relación con los valores centrales d) Gráfico de tallo y hoja (stem and leaf): Aunque no es exactamente un gráfico, los diagramas de tallos y hojas se utilizan para describir variables cuantitativas y presenta la particularidad de permitir visualizar globalmente la distribución manteniendo la individualidad de los datos. Así: Analizar Estadísticos descriptivos Explorar Lista de independiente: elige la variable gráficos descriptivos: de tallo y hojas continuar aceptar, aparece le gráfico. Es una representación similar al histograma, pero se diferencia de él en que nos da información sobre los valores que hay dentro de cada intervalo. De la misma manera, se hace con intervalos de la misma longitud. Analizando el gráfico anterior se tiene: El mínimo valor es el 82, con frecuencia 5, y el máximo es 140, también con frecuencia 3. Además de verlo en la columna de las frecuencias, podemos observar que, como cada número representa un caso. No hay valores extremos. Ejemplo 1.6 En la siguiente tabla se representan la cantidad de estudiantes que realizan CPU del interior del país, en la ciudad de Lima. 47 Región Frecuencia Huancavelica 123 Junín 245 Pasco 89 Huánuco 201 Ayacucho 154 Ica 300 Arequipa 213 Tacna 57 Trujillo 256 Tumbes 34 Cusco 123 Moquegua 89 Determina la frecuencia absoluta, relativa de los datos anteriores, empleando SPSS e interpreta algunos resultados. Solución Aplicando SPSS, obtenemos el resultado; para ello copiamos los datos en la vista de datos, luego en vista de variables escribimos: Región y Frecuencia, ponderamos estos datos de la forma siguiente: Clic en Datos Ponderar casos pasar frecuencia a Ponderar casos mediante Aceptar. Luego hacemos clic en Analizar Estadísticos descriptivos Frecuencia Pasar Región a la ventana de variable Formato Recuento ascendente activar mostrar tablas de frecuencia aceptar y aparece la tabla de frecuencia: 48 Región fi Fi hi % Hi % Tumbes 34 34 1,8 1,8 Tacna 57 91 3,0 4,8 Moquegua 89 180 4,7 9,6 Pasco 89 269 4,7 14,3 Cusco 123 392 6,5 20,8 Huancavelica 123 515 6,5 27,3 Ayacucho 154 669 8,2 35,5 Huánuco 201 870 10,7 46,2 Arequipa 213 1083 11,3 57,5 Junín 245 1328 13,0 70,5 Trujillo 256 1584 13,6 84,1 Ica 300 1884 15,9 100,0 Total 1884 100,0 Interpretación: f1 = 34: Indica que 34 estudiantes de la Región están realizando CPU en la ciudad de Lima. F3 = 180: Indica que 180 de los 1884 estudiantes están realizando CPU en la ciudad de Lima, que corresponden a las regiones de Tumbes, Tacna y Moquegua. H5 = 6,5%: Existe un 6,5% de los estudiantes de las regiones Cusco y Huancavelica que están realizando CPU en la ciudad de Lima. 49 EJERCICIOS Y PROBLEMAS PROPUESTOS 1. Indique el tipo de escala de medición, en los siguientes enunciados: a). Juana termino primero el examen de estadística y Jorge último ______________ b). Guillermo habla italiano, pero Lucho no ______________ c). Jessica tiene una estatura de 1,56 metros ______________ d). Rodolfo en el examen de estadística obtuvo una puntuación de 135. ______________ e). Peso de los estudiantes de primaria ______________ 2. En la línea escribe si se trata de datos discretos o continuos en los siguientes enunciados: a). Número de defectos en cada unidad de lotes de libros para niños ______________ b). Puntajes de 30 estudiantes en el examen de conocimientos ______________ c). Peso perdido por los estudiantes de secundaria después de jugar ______________ d). Números de hijos de los padres de familia ______________ e). Números de carpetas para una escuela primaria ______________ 3. Indique con verdadero (V) o (F) y justifique, el valor de las siguientes proposiciones: a). La suma de las frecuencias relativas acumuladas es 1. ( ) b). La suma de las frecuencias absolutas es “n”. ( ) c). Para las frecuencias absolutas acumuladas se cumple: fi = Fi – Fi-1. ( ) d). d). Para las frecuencias absolutas relativas se cumple: hi = Hi – Hi-1. ( ) e). e). Si la información es falseada por error o a la fuerza, decimos que la información es sesgada. ( ) f). f). Los parámetros son obtenidos de las población. ( ) g). g). Los estadígrafos son obtenidos de las muestras. ( ) h). h). La muestra es el subconjunto de la población. ( ) i). i). La frecuencia absoluta acumulada de la última clase, es siempre igual a “n”, esto es: FK = n. ( ) j). j). La caja del diagrama de Boxplot representa el 50% de los valores alrededor de la mediana. ( ) 50 4. Se ha realizado una encuesta a 80 docentes sobre el tipo de material didáctico que usa en el proceso de enseñanza – aprendizaje y se obtuvo los resultados: H E T E S H E T S H T T S H E T H S H S S E T S H T H T S H H T H H E S E T E H T S E E T S H H S T S H E E HE T E H T H E T T S E H S E H S S S S T S S T S H Código en el proceso de datos: E = Estructurado T = No estructurado S = No usa H = Sin respuesta a) Determina la tabla de frecuencia haciendo el uso del Programa SPSS. b) ¿Qué porcentaje de docentes utilizan los materiales estructurados y no estructurados? c) Elabore gráfico de barras y pastel haciendo uso el Programa SPSS. 5. Al realizar una encuesta de 50 estudiantes de una Universidad Pública. Se obtuvieron los siguientes resultados. EDAD GENERO ESTATURA (cm.) CARRERA CONDICIÓN SOCIAL HER MANOS LUGAR DE PROCEDENCIA C_I 18 Mujer 156 Educación Bajo 4 Pasco 120 17 Hombre 164 Minas Medio 3 Pasco 112 18 Hombre 165 Minas Alto 2 Huánuco 110 17 Mujer 156 Administración Medio 3 Huánuco 120 19 Mujer 145 Contabilidad Medio 3 Junín 103 18 Mujer 155 Minas Medio 2 Junín 126 21 Hombre 166 Minas Bajo 4 Lima 113 17 Hombre 157 Civil Medio 2 Pasco 114 18 Hombre 161 Administración Medio 2 Lima 106 19 Hombre 164 Minas Alto 2 Lima 108 19 Hombre 155 Civil Medio 2 Junín 128 18 Mujer 156 Educación Alto 3 Junín 110 19 Mujer 160 Educación Medio 3 Pasco 120 22 Mujer 160 Contabilidad Medio 3 Pasco 118 51 19 Hombre 161 Civil Medio 3 Pasco 117 20 Mujer 170 Contabilidad Medio 3 Pasco 112 17 Mujer 156 Administración Medio 3 Junín 112 20 Hombre 158 Civil Medio 3 Huánuco 110 20 Mujer 160 Civil Bajo 3 Huánuco 113 18 Mujer 163 Civil Medio 1 Lima 120 20 Mujer 148 Contabilidad Medio 1 Junín 112 22 Mujer 156 Contabilidad Medio 1 Pasco 110 19 Hombre 157 Minas Medio 1 Pasco 120 18 Hombre 158 Minas Medio 2 Pasco 103 23 Hombre 163 Civil Medio 2 Junín 126 19 Hombre 165 Educación Medio 3 Pasco 113 19 Mujer 160 Contabilidad Alto 3 Lima 114 24 Mujer 166 Educación Medio 2 Pasco 106 19 Hombre 156 Civil Medio 2 Pasco 108 23 Mujer 158 Civil Medio 2 Lima 128 19 Mujer 159 Administración Alto 1 Huánuco 110 19 Mujer 161 Contabilidad Alto 1 Pasco 120 19 Mujer 160 Contabilidad Alto 1 Pasco 118 20 Hombre 163 Minas Alto 1 Junín 117 22 Hombre 167 Minas Alto 2 Junín 112 20 Hombre 168 Minas Medio 2 Lima 112 25 Mujer 156 Civil Medio 2 Pasco 110 22 Hombre 160 Minas Medio 3 Pasco 100 23 Hombre 158 Minas Bajo 2 Pasco 120 21 Mujer 149 Contabilidad Bajo 4 Pasco 122 22 Mujer 152 Contabilidad Medio 2 Pasco 111 22 Mujer 154 Administración Medio 3 Huánuco 121 17 Hombre 165 Civil Medio 3 Pasco 120 18 Hombre 159 Minas Alto 1 Pasco 120 18 Hombre 158 Minas Medio 1 Junín 130 19 Mujer 158 Administración Medio 2 Pasco 129 16 Hombre 163 Educación Bajo 3 Pasco 100 16 Mujer 157 Contabilidad Medio 1 Pasco 132 19 Mujer 159 Contabilidad Alto 2 Pasco 122 20 Mujer 163 Contabilidad Medio 3 Pasco 108 21 Mujer 166 Contabilidad Medio 2 Lima 118 22 Hombre 158 Administración Medio 2 Pasco 117 20 Hombre 168 Minas Bajo 3 Pasco 115 19 Hombre 169 Minas Medio 1 Huánuco 134 52 17 Hombre 170 Civil Medio 2 Huánuco 114 17 Mujer 158 Administración Medio 1 Junín 120 18 Mujer 156 Administración Medio 1 Pasco 112 20 Hombre 150 Administración Medio 1 Pasco 110 19 Mujer 150 Civil Alto 2 Pasco 120 18 Mujer 156 Administración Medio 1 Pasco 112 X1: Edad de los estudiantes X2: Género de los estudiantes. Hombre y Mujer X3: Talla de los estudiantes en centímetros X4: Carrera profesional del estudiante. Educación, Contabilidad, Administración, Civil y Minas X5: Nivel socio económico. Alto, Medio y Bajo. X6: Número de hermanos. X7: Lugar de procedencia. Pasco, Junín, Lima y Huánuco. X8: Coeficiente de Inteligencia de los estudiantes. Determina: a) Un archivo llamado PRACTICA 1, usando SPSS. b) Una tabla de distribución de frecuencias absolutas y relativas para las variables cualitativas usando SPSS e interpreta los resultados obtenidos. c) Una tabla de doble entrada para las variables género y nivel socioeconómico, usando SPSS. d) Una tabla de distribución de frecuencias absolutas y relativas para las variables cuantitativas usando SPSS e interpreta los resultados obtenidos (hermanos) e) Una tabla de frecuencia para datos agrupados usando SPSS para algunos datos cuantitativos (edad, estatura y CI). f) Todos los gráficos para las variables cualitativas utilizando SPSS. g) Un gráfico de barras para las variables Nivel socioeconómico y lugar de procedencia. h) El gráfico tallo y hoja para las variables coeficiente de inteligencia utilizando SPSS. i) El gráfico cajas para las variables talla y CI utilizando SPSS. 6. A un grupo de alumnos se les aplico una prueba de inteligencia, estos han sido: 87 105 88 103 114 125 108 107 118 114 129 100 106 113 105 111 94 115 89 82 141 92 132 112 97 135 101 104 130 99 114 91 144 95 101 115 104 87 108 115 103 132 110 113 102 109 124 98 140 107 93 108 122 117 114 141 116 108 102 101 53 118 138 99 105 112 94 96 132 118 123 108 131 127 100 91 Agrupa los datos en intervalos de amplitud 9 y confecciona una tabla de frecuencias para datos agrupados e interpreta algunos resultados y determina los gráficos de histograma, caja y tallo con SPSS. 7. Se tiene la asistencia del encuentro científico de estudiantes de América Latina realizado en Argentina en la siguiente tabla. País Frecuencia Argentina 65 Bolivia 9 Chile 38 Colombia 35 España 16 México 27 Perú 30 Venezuela 43 Aplicando SPSS halla la frecuencia absoluta y relativa e interpreta algunos resultados. 8. En una Institución Educativa Estatal, el Director divide a los padres de familia según el nivel socio económico y el nivel de participación en los diferentes programas escolares, obteniéndose los resultados en la siguiente tabla: Participación en Programas Nivel Socio Económico Alto Medio Bajo Siempre 13 52 45 Muchas veces 35 45 30 Regularmente 40 30 22 Pocas veces 10 48 12 Nunca 11 45 12 a) Determina con SPSS el porcentaje de total por nivel socio económico y participación en los programas. b) Construya con SPSS un gráfico de barras agrupadas según resultado del nivel socio económico y nivel ade participación de los padres de familia. 54 9. Un Director de una Institución Educativa recibió la donación de tres compañías mineras carpetas en las siguientes condiciones: Compañía Minera Condición de las carpetas Buena Regular Malo A B C 50 30 40 30 25 30 10 15 10 a) Construir un gráfico según la compañía minera b) Construir el gráfico según la condición de las carpetas. c) Construir un gráfico de barras agrupados por compañía minera y condición de las carpetas. d) Construir un gráfico de sector circular según compañía minera. e) Construir un gráfico de sector circular según la condición de las carpetas. (todos los gráficos deben ser construidos con SPSS) 55 CAPÍTULO II MEDIDAS DE POSICIÓN Y DISPERSIÓN 2.1 Medias de posición Una medida de posición es aquel resumen que nos informa del valor más representativo de la distribución de la variable de estudio. Gracias a las medidas de posición podemos conocer en torno a qué valor gira la distribución y cuál es el valor más frecuente de ésta. Las medidas de posición tienen por objeto proporcionar valores en torno a los cuales se encuentran las observaciones muestrales. Alguna de ellas, como la media, mediana y moda suelen denominarse medidas de posición, porque suelen situarse por el centro del conjunto de datos 2.1.1 La media aritmética. Este es la medida más famosa y utilizada. Es el centro de la gravedad de la distribución. Lamedia aritmética es también conocida como el promedio. No es más que el cociente entre la suma de los n valores y n. Es decir: n x n x...xxx x n 1i i n321 donde, x denota la media muestral, x denota uma medida de la muestra, xi denota la suma de las medias de la muestra y n es el tamaño de la muestra. La media aritmética se puede calcular tanto para muestras como para poblaciones, del mismo modo, pero se denota en forma diferente; la media muestral se denota por x y la media poblacional por la letra griega (pronúnciese mu.). La expresión media suele emplearse para referirse a la media aritmética, tal como haremos de aquí en adelante. No obstante, la media aritmética no es la única media. Existen, entre otras, la media ponderada, geométrica, armónica, cuadrática y la media recortada. Estas medias son las generalizaciones de la media aritmética. El uso de una u otra va a depender fundamentalmente de las características de los datos. Una forma de tener en cuenta esta importancia relativa es la de conceder distintos pesos en función de la importancia de las observaciones. Así tenemos: 56 n 1i i n 1i ii nn332211 p w wx n wx...wxwxwx x donde wi es la influencia o importancia que asignamos a la observación i. Ejemplo 2.1 Sean las calificaciones en la asignatura de investigación I: CRITERIOS NOTAS Xi PESO Wi PUNTAJE Xiwi Informe Trabajo en grupo Exposición 14 13 15 1 2 3 14 26 45 Reemplazando en la formula anterior se tiene: 141667,14 6 85 xp La media para datos agrupados, Sean x1, x2, x3, . . ., xn las marcas de clase y f1, f2, f3, . . ., fn las frecuencias absolutas simples y n el tamaño de la muestra de estudio. La media para datos agrupados definimos como: n fx n fx...fxfxfx x n 1i ii nn332211 También se puede utilizar: A u fu xxhxx i n 1i ii donde hi es la frecuencia relativa, xi es la marca de clase que toma el origen del trabajo, fu es el producto de la frecuencia por la desviación unitaria y A es la amplitud del intervalo de la clase de la media. Propiedades de la media aritmética. 1. La sumatoria de las restas de cada término respecto de la media es igual a cero. Comprobemos la anterior propiedad con un caso sencillo. Se tiene que para los datos 5, 7, 9, 11 y 13; la media aritmética es 9. 57 La sumatoria de las restas de cada término respecto de la media es la siguiente: (9 – 5) + (9 – 7) + (9 – 9) + (9 – 11) + (9 – 13) = 4 - 4 + 2 - 2 = 0 Se cumple que La sumatoria de las restas de cada término respecto de la media es igual a cero. 2. Media aritmética de una constante. Esta propiedad nos dice que si una serie de datos está formada por la repetición de un mismo dato, la media aritmética es ese dato constante. Para el caso se tiene que la media aritmética de 8, 8, 8, 8, 8, 8... es 8. 3. Media aritmética del producto de una constante por una variable. Ya vimos que para 5, 7, 9, 11 y 13; la media aritmética es 9. Multipliquemos cada número por la constante 5. Obtenemos: 25, 35, 45, 55 y 65. La media aritmética de estos números es 45. Pero 45 es el producto de la constante por la media aritmética original: 5(9) = 45. De lo anterior se concluye que la media aritmética del producto de una constante por una variable es igual al producto de la constante por la media de la variable. 4. Media aritmética de la suma o resta de una constante y una variable. Ya vimos que para 5, 7, 9, 11 y 13; la media aritmética es 9. Sumémosle la constante 5 a cada dato. Obtenemos: 10, 12, 14, 16 y 18. La media de estos datos es 14. Pero 14 es 9 + 5. Lo que es lo mismo: la media aritmética original + la constante. Si en vez de sumar restamos, obtenemos: 0, 2, 4, 6 y 8. Siendo x = 4. Pero 4 es 9 – 5. Lo que es lo mismo: la media aritmética original la constante. De lo anterior se concluye que la media aritmética de la suma o resta de una constante y una variable es la media de la variable más o menos la constante. Ejemplo 2.2 Sean los puntajes obtenidos por los estudiantes de la Escuela de Posgrado de una Universidad “X” de un test mental aplicado durante el año 2013 y los resultados fueron: 67 80 72 82 86 67 57 59 73 58 73 69 93 85 72 63 76 73 60 79 58 66 68 63 67 70 56 77 67 52 64 54 61 58 88 68 67 70 69 47 57 84 77 77 46 70 67 74 76 70 94 Determina la media e interpreta el resultado. Solución P1: Calculando el rango R = xmáx. – xmín. R = 94 – 46 R = 48 P2: Determinando el número de intervalos I = 1 + 3,3 log(50) I = 1 + 5,606 I = 6,606 7 P3: Calculando la amplitud del intervalo A = I R A= 785,6 7 48 Elaboramos la tabla de frecuencia con estos datos x Conteo fi xi fixi u fu [ 46 – 53 III 3 49,5 148,5 -3 -9 [ 53 – 60 IIIII – II 7 56,5 395,5 -2 -14 [ 60 – 67 IIIII – I 6 63,5 381 -1 -6 [ 67 – 74 IIIII-IIIII-IIIII-IIII 19 70,5 1339,5 0 0 [ 74 – 81 IIIII-III 8 77,5 620,0 1 8 [ 81 – 88 IIII 4 84,5 338,0 2 8 [ 88 – 95 III 3 91,5 274,5 3 9 n = 50 fixi= 3497 fu = -4 a) Calculamos con la fórmula: n fx x n 1i ii b) Calculando con la formula A n fu xx i xi= [ 67 – 74 (67 + 74)/2 = 70.5 59 fixi= 3497 n = 50 94,69 50 3497 x A = 74 – 67 = 7 n = 50 fu = -4 7 50 4 5,70x 69,94 Interpretación Los estudiantes de la Escuela de Posgrado de una Universidad “X”, en promedio tienen 69,94 puntos en el test mental de las 50 observaciones obtenidas en el año de 2013. 2.1.2 La mediana, La mediana es el punto medio que divide la distribución en dos partes iguales, en el cual cae el 50% de las observaciones por debajo y por encima de ella. La mediana simbolizamos por Me. Al trabajar con los datos en bruto (no agrupados), es fácil determinar la mediana. En primer lugar ordenamos los datos en forma ascendente o descendente: a) Cuando el número de datos de la muestra es impar. Ejemplo: Halla la mediana de las edades de: 17 – 18 – 14 – 21 – 20 Ordenando se tiene: 14 – 17 – 18 – 20 – 21. Luego 18 es la mediana a) Cuando el número de datos de la muestra es par. Ejemplo: Halla la mediana de las edades de: 17 – 18 – 14 – 21 – 20 – 16 Ordenando se tiene: 21 – 20 – 18 – 17 – 16 –14 Se observa dos valore centrales Entonces Me = 2 1718 Por lo tanto la Me = 17,5 años La mediana para datos agrupados, cuando los datos están agrupados en una tabla de distribución de frecuencia, entonces es más propicio hablar de intervalo mediano; por comodidad se selecciona un solo punto del mismo. La expresión de la mediana está definida por la fórmula: Me = A f F l i 1i2 n i donde li es el límite inferior de la clase mediana, n/2 es el elemento intermedio del tamaño de la muestra, Fi-1 es la frecuencia acumulada de la clase anterior a 60 la clase mediana, fi es la frecuencia absoluta del intervalo mediano y A es la amplitud del intervalo de la clase mediana. Propiedad: a) La mediana hace mínima la suma de todas las desviaciones absolutas de los valores de la variable respecto a una constante k cualquiera. Es decir, i k i ii k i ei nkxnMx 11 para cualquier constante k. b) Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. c) En variables ordinales puede ser calculada pero sólo indica una clase dentro de la distribución. Por ejemplo, si se analiza el nivel educativo podría suceder que al menos el 50% tienen
Compartir