Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística descriptiva e inferencial CARLOS DE LA PUENTE VIEDMA EDICIONES IDT BUSINESS ANALYTICS BIG DATA INFORMACION CONOCIMIENTO RUIDO Estadísticos e-Books & Papers Estadística descriptiva e inferencial Estadísticos e-Books & Papers Estadísticos e-Books & Papers Estadística descriptiva e inferencial Carlos De La Puente Viedma Estadísticos e-Books & Papers Queda rigurosamente prohibida sin la autorización escrita de los titulares del Copyright, bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografía y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamo público. © 2018 by Carlos de la Puente Viedma © 2018 by Ediciones IDT CB. Madrid ‐ Spain ‐ Europe. e‐mail: ediciones‐idt@ediciones‐idt.es Primera edición: junio de 2018 ISBN: 978‐84‐943724‐7‐6 Estadísticos e-Books & Papers A Rosa, Daniel y Jaime A la memoria de mi padre y de mi madre A la memoria de Juan Miguel y Enriqueta Estadísticos e-Books & Papers Estadísticos e-Books & Papers Índice 1 Prólogo ................................................................................................................................................. 13 Primera Parte Preparación para estudiar y aplicar la estadística. La matriz de datos 2 Introducción a la Estadística ........................................................................................................... 17 2.1 Estadística, preguntas y variables ................................................................................................. 17 2.2 Matriz de datos ............................................................................................................................. 25 2.2.1 La codificación estructura de la matriz y grabación de datos ...................................................... 26 Segunda Parte Estadística Descriptiva Univariable y gráficos básicos 3 Estadística Descriptiva Univariable ................................................................................................. 39 3.1 Estadísticos de Tendencia Central ................................................................................................ 39 3.1.1 La moda ........................................................................................................................................ 39 3.1.2 La mediana ................................................................................................................................... 41 3.1.3 La media ....................................................................................................................................... 42 3.1.3.1 Propiedades de la media ............................................................................................................... 44 3.2 Estadísticos de Dispersión ............................................................................................................ 48 3.2.1 Rango o Amplitud de la variable .................................................................................................. 48 3.2.2 La varianza ................................................................................................................................... 48 3.2.2.1 Propiedades de la varianza ........................................................................................................... 50 3.2.3 La desviación típica ...................................................................................................................... 53 3.2.3.1 Propiedades de la desviación típica .............................................................................................. 53 3.2.4 El coeficiente de variación ........................................................................................................... 55 3.3 Estadísticos de Forma ................................................................................................................... 57 3.3.1 Momentos o sitio, lugar ................................................................................................................ 57 3.3.2 Asimetría y apuntamiento ............................................................................................................ 58 3.4 Tabla de frecuencias ..................................................................................................................... 64 3.4.1 Tabla de frecuencias por intervalos. ............................................................................................. 66 3.5 Percentiles .................................................................................................................................... 72 3.6 Gráficos ........................................................................................................................................ 74 3.6.1 Introducción a los sistemas de representación gráfica ................................................................. 74 Estadísticos e-Books & Papers 3.6.2 Diagrama de barras ....................................................................................................................... 77 3.6.3 Histograma de intervalos de igual amplitud ................................................................................. 78 Tercera Parte Estadística Descriptiva Bivariable, probabilidades y tablas de contingencia. Contraste de hipótesis y modelo probabilístico 4 Estadística Descriptiva Bivariable ................................................................................................... 87 4.1 Variable categórica por categórica ............................................................................................... 87 4.2 Tabla de doble entrada ................................................................................................................. 88 5 Concepto de probabilidad y probabilidad condicionada (variables discretas) ................................... 95 5.1 Punto de vista objetivo clásico (“a priori”) .................................................................................. 95 5.2 Punto de vista objetivo frecuencista (“a posteriori”) ................................................................... 97 5.3 Probabilidad condicionada. ........................................................................................................ 100 5.4 Sucesos independientes. ............................................................................................................. 101 5.5 Prueba de Bernoulli y distribución binomial .............................................................................. 103 6 Puntuación directa, diferencial y típica. ......................................................................................... 109 6.1 Relación entre la distribución binomial y la normal .................................................................. 113 7 Concepto de probabilidad (variables continuas) ............................................................................ 115 7.1 Relación entre probabilidad discreta y continua ........................................................................ 121 7.2 Aplicación de la probabilidad (variables continuas) .................................................................. 121 7.3 Otras funciones: 2 , t y F (variables continuas). ........................................................................ 125 8 Asociación de tablas de contingencia ............................................................................................ 129 8.1Cálculo de la asociación y contraste de hipótesis ....................................................................... 130 8.2 Protocolo de contraste de Hipótesis ........................................................................................... 131 8.3 Proceso de contraste de Hipótesis .............................................................................................. 131 8.4 Contraste de hipótesis de una tabla de contingencia que presenta asociación ........................... 135 8.5 Contraste de hipótesis de una tabla de contingencia con variables ordinales ............................ 141 8.5.1 Estadísticos de dirección de la asociación con variables ordinales ............................................ 144 8.6 Restricciones de chi-cuadrado .................................................................................................... 150 9 Tabla de medias ............................................................................................................................ 151 Estadísticos e-Books & Papers Cuarta Parte Estadística inferencial 10 Muestreo. Probabilístico y no probabilístico .................................................................................. 155 10.1 Conceptos previos ...................................................................................................................... 158 10.2 Intervalo de confianza para la media .......................................................................................... 162 10.3 Intervalo de confianza para proporciones .................................................................................. 164 10.4 Técnicas de muestreo no probabilísticas .................................................................................... 165 10.5 Técnicas de muestreo probabilísticas ......................................................................................... 166 10.6 Extracción de una muestra ......................................................................................................... 173 10.7 Cálculo del tamaño de la muestra ............................................................................................... 176 10.8 Ejemplos de cálculo de tamaño de muestra y de error de muestreo ........................................... 179 11 Estadística Paramétrica ................................................................................................................. 183 11.1 Diferencia de proporciones ........................................................................................................ 186 11.1.1 Comparación de una proporción con el parámetro de la población ........................................... 186 11.1.2 Comparación de dos proporciones. Muestras independientes .................................................... 188 11.1.3 Comparación de dos proporciones. Muestras emparejadas ........................................................ 190 11.2 Diferencia de medias .................................................................................................................. 195 11.2.1 Comparación de una media con el parámetro de una población ................................................ 195 11.2.2 Comparación de dos medias. Muestras independientes ............................................................. 198 11.2.3 Comparación de dos medias. Muestras emparejadas ................................................................. 201 11.3 Contraste de hipótesis bilaterales y unilaterales ......................................................................... 204 11.4 Análisis de varianza.................................................................................................................... 204 11.5 Requisitos para aplicar la Estadística Paramétrica ..................................................................... 211 Quinta Parte Asociación lineal y modelo lineal 12 Asociación lineal (covarianza y correlación) ................................................................................. 215 12.1 Gráfico de dispersión de dos ejes ............................................................................................... 215 12.2 Cálculo de la covarianza ............................................................................................................. 217 12.3 Propiedades y características de la covarianza y el coeficiente r ............................................... 223 13 Análisis de Regresión Lineal Simple ............................................................................................. 229 13.1 Conceptos previos ...................................................................................................................... 229 13.2 Ajuste de una recta a una nube de puntos por mínimos cuadrados ordinarios ........................... 233 13.3 Calidad del ajuste ....................................................................................................................... 238 13.4 Requisitos para la aplicación de Análisis de Regresión Lineal Simple ...................................... 239 13.5 Violación de requisitos en el Análisis de Regresión Lineal Simple ........................................... 241 13.6 Predicción por intervalo ............................................................................................................. 242 13.7 Ejemplo de Análisis de Regresión Lineal Simple ...................................................................... 243 Estadísticos e-Books & Papers Sexta Parte Números Índice 14 Números Índice ............................................................................................................................ 253 14.1 Números índice simples ............................................................................................................. 253 14.2 Números índice compuestos sin ponderar .................................................................................. 254 14.2.1 Número índice media aritmética ................................................................................................ 255 14.2.2 Número índice agregativo simple ............................................................................................... 255 14.3 Números índice compuestos ponderados ................................................................................... 257 14.3.1 Número índice media aritmética ponderada ............................................................................... 258 14.3.2 Número índice agregativo compuesto ponderado ...................................................................... 259 14.4 Números índice de precios ......................................................................................................... 261 14.5 Números índice de valores, precios y cantidades ....................................................................... 264 15 Bibliografía .................................................................................................................................. 271 16 Anexo. Tabla de la Normal Estandarizada. .................................................................................... 273 17 Anexo. Tabla de Chi cuadrado. ..................................................................................................... 274 18 Anexo. Tabla de t-Student. ............................................................................................................ 275 19 Anexo. Tabla de F de Fisher-Snedecor (FS) ................................................................................... 276 20 Anexo. Tabla de números aleatorios ............................................................................................. 277 Estadísticos e-Books & Papers Capítulo 1 Prólogo 1 PrólogoEn el año 2009 publiqué un libro que estaba formado por dos partes diferenciadas, pero relacionadas, con el título “Estadística descriptiva e inferencial y una introducción al método científico”, con la Editorial Complutense. Posteriormente, en 2015, apareció una nueva edición con Ediciones IDT, pero que al ser una editorial distinta se consideró como primera edición, con el título “Estadística descriptiva e inferencial y una introducción al método científico. Con un apéndice al método”. El Apéndice hacía referencia a aspectos que consideré necesarios que se debían contemplar en la docencia y en el aprendizaje para complementar y ampliar el significado y dificultad que tiene la adquisición y generación del “conocimiento”. Ahora y para separar las dos partes diferenciadas, aunque relacionadas, se publican dos libros a partir del anterior. El primero es sobre el método y el conocimiento y el segundo trata exclusivamente de estadística. El primero lleva por título “El método, el conocimiento y el paradigma Neurocuántico. Viajando en un rayo de luz” (De la Puente, 2017a), y el segundo “Estadística descriptiva e inferencial” que es este libro que tiene en las manos, ambos con Ediciones IDT. Al llevar los dos un título diferente a la obra base, se han considerado primera edición, pero en realidad el del método contempla la parte de metodología, ampliando la importancia del paradigma Neurocuántico, añadiendo un artículo (De la Puente, 2014d) sobre los errores epistemológicos detectados en cuatro autores clásicos y un texto que relaciona el método y la construcción del conocimiento. En el libro de estadística se ha ampliado la parte de la definición de la estructura de la matriz de datos. La separación en dos libros obedece a criterios operativos y comerciales, porque no todos los que se acerquen a la generación de conocimiento estarán interesados en la estadística, o si lo están pueden elegir el manual deseado. Al mismo tiempo, no todos los que se acerquen a la estadística, necesitaran los capítulos relacionados con la generación del conocimiento. El libro está en dos columnas para hacer el renglón más corto y que la lectura sea más cómoda. No obstante, por cuestiones de maquetación, a veces ha sido necesario utilizar una sola columna, aunque se ha tratado que sea lo estrictamente necesario. Para diferenciar unas zonas de otras, se han trazado líneas horizontales de delimitación. Madrid, 1 de septiembre de 2018 Estadísticos e-Books & Papers 14 Estadística descriptiva e inferencial y una introducción al método científico Estadísticos e-Books & Papers Carlos de la Puente Viedma 15 Primera Parte Preparación para estudiar y aplicar la estadística. La matriz de datos Estadísticos e-Books & Papers 16 Estadística descriptiva e inferencial y una introducción al método científico Estadísticos e-Books & Papers Carlos de la Puente Viedma 17 Capítulo 2 Introducción a la Estadística 2 Introducción a la Estadística 2.1 Estadística, preguntas y variables Entendemos por Estadística “la disciplina científica que trata de la recolección, análisis, y presentación de datos” (Traducción propia).1 Por el interés de la obra, la Estadística se divide en Estadística Descriptiva (Tabulación) y Estadística Inferencial (Análisis o contraste de hipótesis). Otro grupo sería la Estadística Multivariable, que no es objeto de este tratado. Los datos se consideran de tres tipos: Tipo I, Tipo II y Tipo III. Los datos de Tipo I son los datos brutos, “raw data” o microdatos. Se dispone de los datos o valores que se tiene para todos y cada uno de los casos. En los datos Tipo II, se muestra la frecuencia, el número de casos que hay en cada categoría o valor distinto o el número de veces que se repite o aparece cada valor o categoría distinta (tabla de frecuencias). En los datos Tipo III, también se muestra la frecuencia o el número de casos, pero por intervalos (Tabla de frecuencias por intervalos). Los ejemplos se muestran en la Tabla 1. 1 "statistics" A Dictionary of Genetics. Robert C. King, William D. Stansfield and Pamela K. Mulligan. Oxford University Press, 2007. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 16 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t224.e6186. Tabla 1 Tipos de estructura de los datos Tipo I Estadísticos e-Books & Papers 18 Estadística descriptiva e inferencial Tabla 1 Tipos de estructura de los datos Tipo II Tipo III Paso de Tipo III a Tipo II 2 11' iii LL X 5,19 2 2118' 1 X 5,22 2 2421' 2 X 5,28 2 3027' 4 X En donde: Li-1: Límite inferior del intervalo Li+1: Límite superior del intervalo ' iX : Marca de clase del intervalo i-ésimo. La aplicación de los estadísticos se hace sobre los datos de Tipo I y Tipo II. Con los datos Tipo III se procede pasándolos a datos Tipo II, representando cada intervalo, estrato o categoría por el valor medio o marca de clase del intervalo. En este caso, a la variable se la denomina como prima (X’), (ver Tabla 1). Por el interés de este epígrafe se define pregunta, variable, espacio muestral, suceso elemental, respuesta y categoría. Pregunta: RAE: “Interrogación que se hace para que alguien responda lo que sabe de un negocio u otra cosa”. BDCD; “Un acto o instancia de pedir información en una investigación sistemática, a veces de interés público”. Ejemplos: P-1 Por favor, indique si Ud. es ... Varón 01 Mujer 02 P-2 Su estado civil es ... Soltero/a 01 Casado/a 02 Pareja 03 Separado/a 04 Divorciado/a 05 Viudo/a 06 P-3 Puede indicar su, Peso Estatura Edad Kg m años Respuesta: RAE: “Satisfacción a una pregunta, duda o dificultad”. BDCD: “Algo dicho o escrito en respuesta a una pregunta” Ejemplos: En las tres preguntas anteriores, la respuesta es marcar en la casilla correspondiente la respuesta dada a cada una. En la P-1, indicar cual es el sexo; en la P-2 el estado civil, y en cada una de las preguntas de la P-3, indicar el peso, la estatura y la edad, por este orden. 2 2 2 3 3 3 3 3 3 2 2 1 1 Edad 18 19 20 21 22 23 24 25 26 27 28 29 30 Frecuencia 9 9 8 4 Edad_R 18-21 21-24 24-27 27-30 Frecuencia 9 9 8 4 Marca de Clase 19,5 22,5 25,5 28,5 Frecuencia Estadísticos e-Books & Papers Carlos De La Puente Viedma 19 Categoría: RAE: “cualidad atribuida a un objeto”. DMM: “Cada grupo de cosas o personas de la misma especie de los que resultan al ser clasificadas por su importancia, grado o jerarquía”. BDCD: “Una de las clases distintas y fundamentales a la que pertenece una entidad o concepto”. “Una división dentro de un sistema de clasificación”. Ejemplos: De las tres preguntas anteriores, las categorías de la P-1 son: varón y mujer. En la P-2, las categorías son: soltero/a, casado/a, pareja, separado/a, divorciado/a y viudo/a. En la P-3, al ser variables numéricas, las respuestas no se consideran categorías, sino valores. No obstante, se podría considerar categoría cada uno de los valores distintos que pueden contestar, ya que, por ejemplo, sería la categoría de las personas con “18 años”. Variable: OROP:2 “En las ciencias sociales, el término se refiere a atributos que son fijos para cada persona u otra entidad social, el cual es observado a los diferentes niveles o cantidades de las muestras y otros grupos de agregados. Las variables miden una estructura social (como la clase social, edad, o tipo de albergue) y en cierto modo permite el análisis numérico. Así que el rasgo importante de una variable es que es capaz de reflejar la variación dentro de una población, y no es una constante”.3 RAE: “Que varía o puede variar”. BDCD: “Capaz o apto para variar: sujeto a variación o cambio”. 2 Oxford Reference Online Premium. 3 "variable" A Dictionary of Sociology. John Scott and Gordon Marshall. Oxford University Press 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 8 December 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t88.e2451. Ejemplos: En el ejemplo considerado, las variables se corresponden con las preguntas y así, las variables serían: sexo, estado civil, peso, estatura y edad. Espacio muestral: OROP: “Un conjunto completo de todos los posibles resultados de un experimento o procedimiento de observación. El concepto fue introducido por von Mises en 1931. El espacio muestral normalmente se representa por , S o E.4 DSTTMH:5 “Un concepto o término en teoría de probabilidades que considera todos los posibles resultados de un experimento, juego o similar, como puntos en un espacio”. Ejemplos: En la pregunta o variable sexo, el espacio muestral es: varón y mujer. En estado civil el espacio muestral está definido por: soltero/a, casado/a, pareja, separado/a, divorciado/a y viudo/a. Y en peso, estatura y edad, los espacios muestrales están definidos por todos los posibles valores de cada una de las preguntas o variables y que son finitos y conocidos. En el caso del peso y la estatura son los valores posibles de la población objetivo y la edad es la definida por los criterios de delimitación de la población. Suceso elemental: OROP: “Un suceso elemental es uno de los resultados posibles del espacio muestral”.6 DSTTMH: “Cada uno de los posibles resultados de un experimento aleatorio, es 4 "sample space" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2008.Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 8 December 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t106.e1433. 5 Diccionario de Términos Científicos y Técnicos. McGraw- Hill. 6 "sample space" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2008.Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 8 December 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t106.e1433. Estadísticos e-Books & Papers 20 Estadística descriptiva e inferencial decir cada uno de los elementos del espacio muestral”. Ejemplos: En la pregunta o variable sexo, los sucesos elementales del espacio muestral son: varón y mujer. En estado civil los sucesos elementales son: soltero/a, casado/a, pareja, separado/a, divorciado/a y viudo/a. Y en peso, estatura y edad, los sucesos elementales son todos los posibles valores de cada una de las preguntas o variables y que son finitos y conocidos. En el caso del peso y la estatura son los valores posibles de la población objetivo y de la edad los sucesos elementales están definidos por los criterios de delimitación de la población. NIVEL DE MEDIDA DE LAS VARIABLES Los niveles de medida se distinguen por propiedades de distancia y orden. Un ordenador no sabe las características de los valores que se le dan, por tanto, se deben determinar por el investigador los niveles de medida de los datos para poder aplicar las técnicas estadísticas apropiadas cuando se opera con programas estadísticos. Las variables se clasifican en dos grupos: variables cualitativas, categóricas o de frecuencias y variables cuantitativas o numéricas. En el primer grupo se incluyen las variables de nivel de medida nominal y ordinal, y en el segundo las de intervalo o escala y razón. Nivel de medida Nominal Las variables de nivel de medida nominal, son aquellas que sus datos son valores numéricos o códigos que se asignan a las categorías de la variable, entre los que no existe ninguna relación y cada valor define una categoría distinta, es el nivel considerado inferior. La asignación de valores o códigos a las categorías se llama codificación (Ver epígrafe 2.2.1). Con estos valores no se pueden realizar operaciones aritméticas, pero sí se pueden aplicar operadores lógicos y operaciones de clasificación. Son ejemplos de variables nominales: sexo, estado civil, carácter, religión, deportes practicados, productos comprados. Un tipo especial de variables nominales son las dicotómicas, variables con dos categorías, pero también se pueden considerar variables dicotómicas a las binarias o falsas binarias. En la Tabla 2 se presenta la diferencia entre dicotómica, binaria y pseudobinaria. Tabla 2 Variables dicotómicas, binarias y falsas binarias Dicotómica Binaria Falsa binaria Código Categoría 1 1 Categoría 2 2 Código Verdadero 1 Falso 0 Código Categoría 1 1 No categoría 1 0 Aplicación: Sexo Código Varón 1 Mujer 2 Asistir a clase Código Verdadero 1 Falso 0 Sexo Código Varón 1 No varón 0 No asistir a clase Código Verdadero 1 Falso 0 Sexo Código Mujer 1 No mujer 0 Las variables dicotómicas pueden ser consideradas numéricas e independientes en el Análisis de Regresión. Las binarias y falsas binarias también se pueden considerar numéricas porque se pueden calcular funciones estadísticas. Nivel de medida Ordinal Las variables de nivel de medida ordinal, son aquellas que sus datos son valores numéricos o códigos que se asignan a las categorías de la variable, cada valor define una categoría distinta, lo que le asigna la característica de las variables nominales. Entre sus valores se puede establecer un criterio de orden. La asignación de valores o códigos a las categorías se llama codificación (Ver epígrafe 2.2.1). Con estos valores no se pueden realizar Estadísticos e-Books & Papers Carlos de la Puente Viedma 21 operaciones aritméticas, pero sí se pueden aplicar criterios de ordenación, operadores lógicos y operaciones de clasificación. Son ejemplos de variables ordinales nivel de instrucción, categoría profesional, clase social. Nivel de medida de intervalo o escalar Las variables de nivel de medida de intervalo, son aquellas que sus datos son valores numéricos o códigos que se asignan a las categorías de la variable, cada valor define una categoría distinta, lo que le asigna la característica de las variables nominales. Entre sus valores se puede establecer un criterio de orden, lo que le asigna la característica de las variables ordinales. La característica que las diferencia es que se puede asumir distancia entre sus valores. La asignación de valores o códigos a las categorías se llama codificación (Ver epígrafe 2.2.1). La realización de operaciones aritméticas es compleja de determinar, pero se acepta la aplicación de funciones estadísticas. Se pueden aplicar criterios de ordenación, operadores lógicos y operaciones de clasificación. Son ejemplos de variables de intervalo los ítems de las escalas y las propias escalas y las escalas termométricas, con las que se verá un ejemplo. Un ejemplo típico es el termómetro, que mide temperatura en grados, entre los cuales existe la misma distancia entre dos puntos contiguos de la escala, pero no se pueden establecer magnitudes proporcionales. La diferencia entre 25 ºC y 26 ºC es la misma que entre 3 ºC y 4 ºC. Pero es incorrecto decir que 30 ºC sea el doble de calor que 15 ºC. Nivel de medida de razón Las variables de nivel de medida de razón, son aquellas que sus datos son valores numéricos o códigos significativos. Cada valor define una categoría distinta, lo que le asigna la característica de las variables nominales. Entre sus valores se puede establecer un criterio de orden, lo que le asigna la característica de las variables ordinales. Existe distancia entresus valores, lo que le asigna la característica de las variables intervalares. La característica que las diferencia es que el cero significa “ausencia de” “valor nulo”. A los valores de estas variables se les puede aplicar operaciones aritméticas, criterios de ordenación, operadores lógicos y operaciones de clasificación. Son ejemplos de medidas de razón: edad, peso, estatura, número de hijos, cantidad de productos comprados, salario. No obstante esta clasificación, en la etapa de tabulación y análisis, la consideración del nivel de medida de las variables puede ajustarse en función de ciertas necesidades y consideraciones, todas ellas argumentadas, como es el caso de variables dicotómicas, binarias y ordinales. La característica de ausencia de valor del cero, significa que se pueden comparar las magnitudes. Por ejemplo, es correcto decir que un adulto que mida 1,84 m. mide el doble que un niño de 0,92 m. o que una carrera de 300 m. es tres veces más larga que una de 100 m. Pero no es correcto decir que 40 ºC es el doble de calor que 20 ºC, sí se puede decir que 40 ºC es el doble del valor 20 ºC en la escala centígrada, en la que el 0 ºC es por convenio y es la posición en la que el agua se solidifica. Para que la temperatura se pueda comparar es necesario que esté referida a la escala de temperatura termodinámica o Kelvin en la que el cero tiene valor absoluto y se corresponde con los -273,16 ºC. El Gráfico 1 muestra que el segmento a con el valor 40 es el doble que el segmento b con el valor 20, según la escala Centígrada. Pero el segmento c no es el doble de calor que el segmento d, tomando como referencia el cero absoluto (0 K) que se corresponde con -273,16 ºC. Gráfico 1 Comparación de escalas Estadísticos e-Books & Papers 22 Estadística descriptiva e inferencial y una introducción al método científico Un ejemplo de las dificultades que se presentan en el momento de tomar la decisión de clasificar o medir a las unidades u objetos de observación, se puede ver al determinar la característica de si el objeto fuma o no. Dependiendo de cómo hagamos la pregunta, se considerará clasificación o medición, y determinará la implementación u operacionalización de la variable. La diferenciación entre clasificación y medición, lleva aparejada la consideración de fiabilidad, validez (del instrumento de medida) y error de la medida.7 La definición que se va a considerar de medir es la que facilita el Diccionario de la Real Academia Española (2008) que es “Comparar una cantidad con su respectiva unidad, con el fin de averiguar cuántas veces la segunda está contenida en la primera”. La definición considerada de clasificación es: “Ordenar o disponer por clases” (Real Academia Española, 2008), y de manera más amplia: “colocar (un grupo de personas o cosas) en clases o categorías según cualidades o características compartidas”8 (Traducción propia). Estas definiciones se pueden considerar iguales a la utilizada en Ingeniería. “Ordenación o categorización de partículas u objetos por un criterio establecido, como el tamaño, función, o color” (McGraw-Hill, 2002). Se considera validez del instrumento de medida: cuando el instrumento sirve para medir aquello que se quiere medir. Ejemplos de instrumento válidos son una balanza, una cinta métrica, un calibre. La balanza sirve para medir peso, la cinta métrica longitudes, etc. Se considera fiabilidad del instrumento de medida cuando al aplicar el instrumento de medida por distintos investigadores, a iguales o distintas personas, en iguales o distintos momentos, pero en las mismas condiciones ambientales, producen los mismos resultados si los objetos medidos son iguales en la característica medida. Ejemplo: si diferentes investigadores con la misma balanza 7 Una discusión detallada sobre el tema se puede ver en De la Puente (2007c). 8 "classify verb" The Oxford Dictionary of English (revised edition). Ed. Catherine Soanes and Angus Stevenson. Oxford University Press, 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 14 July 2008 <http://www.oxfordreference.com/views/ENTRY.html?subview= Main&entry=t140.e14265> pesan a la misma persona, deben obtener el mismo resultado, entendiendo que el peso de la persona no ha variado. La validez y fiabilidad del instrumento de medida son conceptos complejos ontológica y epistemológicamente y no se agotan con las definiciones dadas anteriormente, pero permiten saber de qué manera se usan en este texto, y se asume que es fácil dar la definición, pero puede ser compleja su aplicación. El error de la medición en Ciencia y Tecnología sería “cualquier diferencia entre un cálculo, observación o cantidad medida y el verdadero, específico, o teórico valor correcto de esa cantidad” (McGraw-Hill, 2002). Volviendo al caso mencionado antes, si se quiere saber si una persona, grupo de personas, muestra o universo fuma o no, se puede planificar la recogida de información de muchas maneras. Por ejemplo diseñando una pregunta con un espacio muestral exhaustivo, excluyente y dicotómico de tipo categórica, con dos sucesos elementales. La pregunta puede ser: P-1 ¿Fuma Ud.? Sí 1 No 2 Esta pregunta se implementaría o se operacionalizaría en una variable que tendría un espacio muestral exhaustivo, excluyente y dicotómico de tipo categórica, con dos sucesos elementales que al codificarla sería de nivel de medida nominal. El problema que presenta esta pregunta es de tipo epistemológico y ontológico combinado. El hecho o acto de fumar queda sometido al criterio de cada uno de los objetos, porque no fumar puede ser lo que entienda cada individuo: ningún cigarro al día, fumar sólo después de la comidas, algún cigarro al mes, etc. Por lo tanto, este instrumento de obtención de datos no sería ni fiable ni válido. Otra forma posible es hacer la pregunta de tipo categórica pero ordinal: P-1 ¿Considera Ud. que fuma...? Nada 1 Regular 2 Mucho 3 Pero plantea los mismos problemas que la anterior. Se puede optar por una pregunta de tipo Estadísticos e-Books & Papers Carlos de la Puente Viedma 23 escalar o intervalar: Escala de Intensidad de la siguiente manera: P-1 ¿Podría indicar cuánto fuma en una escala de 0 a 10 en la que el 0 significa nada y el 10 mucho? 0 1 2 3 4 5 6 7 8 9 10 En este tipo de pregunta se dan los mismos problemas que en las anteriores, además del problema indicado en las escalas termométricas. El criterio de subjetividad sería paradójico. Supongamos dos individuos A y B, siendo A que fuma 40 cigarrillos/día pero está en un grupo en el que cada individuo fuma 80 cigarrillos/día y el individuo B con 20 cigarrillos/día pero está en un grupo en el que cada individuo fuma 10 cigarrillos/día. En esta hipotética situación, el B podría situarse en la escala en el valor 8 mientras que el A podría situarse en el 4. Siendo que el A fuma el doble que el B, la escala mostraría que el B tiene el doble del valor de A. Probablemente este hecho no se producirá, pero si fuese así, no se podría controlar. Por último, la pregunta de tipo de razón sería: P-1 ¿Podría indicar cuántos cigarrillos fuma al día? Nº de cigarrillos ....................... ___ ___ Este tipo de pregunta o instrumento de obtención de datos se puede considerar válido, fiable y medición, ya que el elemento base, el cero, es ajeno al sujeto y al objeto. Pero no han terminado los problemas, porque ahora que cumple esos requisitos aparece en escena el problema del error. ¿Cuál es la diferencia entre la respuesta y lo real? ¿Qué es lo que considera cada uno fumar un cigarrillo? ¿Quienes dan la misma respuesta han fumado lo mismo? Por fumar un cigarrillo se puede entender encenderlo y tirarlo; encenderlo fumar la mitad y tirarlo, o encenderlo y fumarlo hastala boquilla. Evidentemente, estos tres individuos habiendo fumado el mismo número de cigarrillos no habrían fumado la misma cantidad de tabaco. Entonces la pregunta tendría que ser algo así: P-1 ¿De los cigarrillos que encendió “tal día”, podría indicar la longitud total que fumó? Longitud ........................... ___ , __ cm No obstante, seguiría existiendo el error, del instrumento de medida, el criterio de fallo humano, el redondeo utilizado. Se puede plantear la pregunta de diferentes maneras, pero todas ellas llevarían aparejado el problema del error. No obstante, se ha pasado de si el instrumento es válido y fiable a siendo válido y fiable cuál es el error que cometemos. El acto de fumar es aparentemente simple, pero su clasificación o medición es compleja, igual que cualquier otro acto humano. VARIABLES DISCRETAS Y CONTINUAS Además del nivel de medida, otra diferencia es la que se da entre variables continuas y variables discretas. Una variable se considera continua si entre cualesquiera dos valores, puede tomar otros que se pueden considerar infinitos. Aunque en realidad las posiciones intermedias dependen de la precisión del instrumento de medida y el concepto infinito es más una cuestión filosófica que real. También se puede considerar como una variable continua la que sus valores pertenecen a los números reales que se definen de manera axiomática como el conjunto de números que se encuentran en correspondencia biunívoca con los puntos de una recta infinita (continuum): la recta numérica. Ejemplos: salario, edad, estatura, peso. Una variable discreta sería la que entre cualesquiera dos valores contiguos no existen posiciones intermedias y se corresponderían con los números enteros, siendo que los números enteros se representan gráficamente en la recta de números enteros como puntos a un mismo espacio entre sí, desde menos infinito, ..., -3 , -2, -1, 0, 1, 2, 3, ... hasta más infinito. Ejemplos: número de hijos, número de cigarros fumados, veces que se ha ido al cine, número de días trabajados, edad. En Sociología sería más apropiado hablar de números naturales, puesto que las variables utilizadas no pueden tener valores negativos. No se puede tener peso negativo, número de hijos negativo, etc. La excepción son las escalas construidas que pueden estar en el ámbito de los números enteros negativos. A veces las variables tienen la doble consideración. Por ejemplo, la edad se trata siempre Estadísticos e-Books & Papers 24 Estadística descriptiva e inferencial y una introducción al método científico como variable discreta cuando se dice los años cumplidos, aunque en realidad es una variable continua. Sean consideradas continuas o discretas las variables, cuando se aplican funciones estadísticas (media [ X ], varianza [ 2S ], desviación típica [ S ], etc.) éstas se consideran valores continuos y se presentarán con decimales. LAS VARIABLES SEGUN SU RELACIÓN En los procesos de análisis las variables se consideran según la relación entre ellas. Genéricamente se consideran variables dependientes o independientes. El concepto de dependencia de una variable tiene varias definiciones. “En un estudio, análisis o modelo, una variable dependiente es el elemento social cuyas características o variaciones serán explicadas por la referencia a la influencia de otra, anterior, llamada variable independiente”9 (Traducción propia). En los métodos de investigación y estadísticos, “es una variable que potencialmente puede ser influida por una o más variables independientes. El propósito de un experimento es típicamente determinar si una o más variables independientes influyen en una o más variables dependientes de alguna manera”10 (Traducción propia). “En la regresión múltiple, un grupo de variables independientes o predictoras se combinan en un modelo lineal para proporcionar la mejor predicción de una variable dependiente que a veces se llama la variable criterio”11 (Traducción propia). Matemáticamente “si y es una función de x (y = f(x)), esto es, si la función asigna un solo valor a y por cada valor de x, entonces y es la variable dependiente” (McGraw-Hill, 2002) (Traducción propia). 9 "dependent variable" A Dictionary of Sociology. John Scott and Gordon Marshall. Oxford University Press 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t88.e551. 10 "dependent variable n." A Dictionary of Psychology. Andrew M. Colman. Oxford University Press, 2006. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t87.e2193. 11 Ibíd. La variable independiente (o explicativa) es la que “en un estudio, análisis o modelo, [...] es el elemento social cuyas características o variaciones forman y determinan la variable dependiente: En una situación experimental, pueden manipularse las variables independientes sistemáticamente, para que se pueda observar el efecto producido en la variable dependiente. El que una variable sea tratada como dependiente o independiente esta determinado por el marco teórico y el enfoque del estudio, pero las variables independientes deben preceder a la variable dependiente, y debe ser la causa”12 (Traducción propia). En un diseño experimental la variable independiente es “una variable que es controlada/manipulada por el experimentador, independientemente de las variables extrañas, para examinar sus efectos en la variable dependiente”13 (Traducción propia). Matemáticamente la variable independiente es “en una ecuación y = f(x), la variable de entrada x. También conocido como el argumento”14 (Traducción propia). Definir la variable dependiente (variable no controlada), asume la definición de la variable independiente (variable controlada). Los nombres que pueden recibir según los procedimientos estadísticos que se utilizan se muestran en la Tabla 3. 12 "independent variable" A Dictionary of Sociology. John Scott and Gordon Marshall. Oxford University Press 2005. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t88.e1083. 13 "independent variable n." A Dictionary of Psychology. Andrew M. Colman. Oxford University Press, 2006. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 11 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=M ain&entry=t87.e4110. 14 McGraw-Hill (2002). Dictionary of Scientific and Technical Terms. Estadísticos e-Books & Papers Carlos de la Puente Viedma 25 Tabla 3 Relación entre variables Procedimiento Estadístico Tabla de Contingencia Diferencia de medias Análisis de Varianza Regresión Muestras Independientes Muestras Emparejadas Variable Dependiente Variable Dependiente Agrupada y numérica No procede relación y son numéricas Agrupada y numérica Explicada o Predicha (Variable Criterio) Variable Independiente Variable Independiente Agrupamiento y categórica Agrupamiento y categórica Explicativa o Predictora (Variable argumento) 2.2 Matriz de datos En Sociología y según el Paradigma Cuantitativo, una de las técnicas de investigación más utilizada es la Encuesta y el principal instrumento de obtención de datos es el Cuestionario en sus diferentes modalidades. El trabajo de campo consiste básicamente en aplicar el cuestionario a las unidades de observación, (Manzano, Rojas, & Fernández, 1996; Alvira, 2004; García Ferrando, Ibañez, & Alvira, 1990/2005, págs. 167-202). A partir de los cuestionarios recogidos en campo yque se han rellenado con la información facilitada por los objetos o unidades de observación, se procede a crear la Matriz de Datos (Tabla 4) sobre la que posteriormente se aplicarán los procedimientos estadísticos y gráficos, a través de un programa estadístico. Tabla 4 Matriz de datos La matriz de datos es una matriz rectangular de dos dimensiones de casos por variables. Los casos definen las filas de la matriz y equivalen a las unidades de observación u objetos y cada una de las filas es un cuestionario de los que se recogió anteriormente (más adelante se tratan las matrices de más de dos dimensiones). Las columnas están definidas por las variables que se obtienen por la implementación u operacionalización de las preguntas, en una relación de uno-a-uno (a una pregunta le corresponde una variable) o de uno-a-muchos (a una pregunta le corresponde más de una variable). La cuadrícula o casilla que se define por el cruce de cada caso con cada variable se denomina celda. Cada celda contiene un valor, característica o atributo de la unidad de observación, que se denomina dato, y genéricamente, el dato se considera de dos tipos: válido y no válido. Una variable toma un valor válido, cuando se corresponde con uno de los sucesos elementales de su espacio muestral. El no válido, es cualquier otro valor no contemplado en el espacio muestral de la variable. Son ejemplos de valores no válidos el no contestar o la respuesta “Ns/Nc” (No sabe/No contesta). Una columna o variable es el conjunto de datos que se tiene para todos los casos, y deben ser de la misma unidad de medida y de la misma característica.15 De todos los datos de una variable, al menos uno, 15 Si la variable es el peso de las unidades de observación, la variable “peso” debe contener el peso de todas las unidades de observación y en la misma unidad de medida: kg, g, etc. No se puede, por ejemplo, grabar la estatura o el salario en la variable “peso”. Estadísticos e-Books & Papers 26 Estadística descriptiva e inferencial debe tener un valor distinto a los demás, porque si no, se denomina constante. Una fila es el conjunto de datos que se tiene para cada caso en todas las variables. Los valores de los datos serán del tipo y unidad de medida de la variable correspondiente. Una variable (Ver Epígrafe 2.1) “es la característica medida u observada cuando se realiza un experimento o una observación. Las variables pueden ser no-numéricas (categóricas) o numéricas. Desde una observación no-numérica siempre puede codificarse numéricamente, por lo que una variable, normalmente, siempre es numérica”16 (Traducción propia). Los distintos valores, atributos o categorías de una variable constituyen su espacio muestral y los denominaremos sucesos elementales del espacio muestral de la variable. El espacio muestral es “el conjunto de todos los resultados posibles de un experimento u observación. El concepto se introdujo por von Mises en 1931”17 (Traducción propia). El espacio muestral se representa con las letras: , S o E, y los posibles eventos o sucesos elementales por letras minúsculas (s1, s2, s3, ... sn) (Ver Epígrafe 2.1). Ejemplo 1: El espacio muestral de tirar un dado de seis caras tiene seis elementos o sucesos elementales: E = (s1, s2, s3, s4, s5, s6) De tal manera que el s1 = 1; el s2 = 2; s3 = 3; s4 = 4; s5 = 5, y s6 = 6. Así que el espacio muestral de tirar un dado es: E = (1, 2, 3, 4, 5, 6) Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles y son conocidos y excluyentes porque en cada ocasión sólo se puede obtener uno de los resultados posibles. Ejemplo 2: El E de género en cuanto a sexo tendrá dos elementos: E = (s1, s2) De tal manera que el s1 = Varón y el s2 = Mujer. Así que el E de sexo es: E = (Varón, Mujer) Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles y son conocidos, y excluyentes porque en cada ocasión sólo se puede obtener uno de los resultados posibles. Ejemplo 3: El E de Estado Civil, se puede considerar que tiene 6 elementos: E = (s1, s2, s3, s4, s5, s6) De tal manera que el s1 = Soltero; el s2 = Casado; s3 = Pareja; s4 = Separado; s5 = Divorciado, y s6 = Viudo. Así que el E de estado civil es: E = (Soltero, Casado, Pareja, Separado, Divorciado, Viudo) Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles y son conocidos y excluyentes porque en cada ocasión sólo se puede obtener uno de los resultados posibles. 2.2.1 La codificación estructura de la matriz y grabación de datos Se denomina codificación, a la asignación de valores o códigos numéricos a las categorías, características o atributos de las variables categóricas (nominales y ordinales) y a las escalares o de intervalo. Esta asignación como no tiene ningún significado, es arbitraria y aleatoria. En las variables ordinales que indican orden, y en las escalares que indican orden y distancia, una vez establecido el origen, los códigos deben mantener un 16 "variable" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2006. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1703. 17 "sample space" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2006. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1433. Estadísticos e-Books & Papers Carlos De La Puente Viedma 27 orden y en las escalares, además, distancia. Ejemplo 1: La variable “sexo” tiene dos características o atributos: Varón y Mujer. La asignación de códigos puede ser: Varón = 1; Mujer = 2. Ejemplo 2: La variable “estado civil” tiene seis características o atributos: Soltero, Casado, Pareja, Separado, Divorciado y Viudo. La asignación de códigos puede ser: Soltero = 1, Casado = 2, Pareja = 3, Separado = 4, Divorciado = 5 y Viudo = 6. Las características o atributos de las variables categóricas (nominal y ordinal), generalmente, son datos de tipo “texto” y su grabación presenta diferencias respecto de las variables numéricas (escalas y razón). Para que todas las variables sean numéricas, es necesario aplicar la codificación, que consiste en asignar códigos o valores numéricos a las características o atributos de las variables categóricas de forma aleatoria y arbitraria, sin ningún significado. Entonces la codificación de la variable “sexo” podría ser: Varón = 12,36 y Mujer: = 14,58. Aunque esta asignación puede ser válida, no cumple algunas de las reglas de la codificación. Para cumplir las reglas y de forma razonable, ya que es aleatorio y arbitrario, se codifica: Varón = 1 y Mujer = 2 o Varón = 0 y Mujer = 1 o Varón = 1 y Mujer = 3 o Varón = 2 y Mujer = 4. Las reglas que presenta la codificación son en parte obligatorias y en parte convencionales por opcionales, pero se van a tratar todas como obligatorias. Estas reglas se muestran en la Tabla 5. Tabla 5 Reglas de la codificación Evitan algunos errores. Explicación: Los atributos o características se pueden escribir de diferentes maneras: con mayúsculas, minúsculas, ambas, con acentos, sin acentos, etc. Así que sería diferentes tipos de “varón” los siguientes. Varon varon Varón varón VARON VARÓN. Si se codifica con un valor, por ejemplo el 1, éste sólo puede ser escrito de una manera. Ahorran tiempo en la grabación. Explicación: Esta regla se deriva de la anterior, ya que se tarda menos en escribir 1 que en poner Varón. El 1 tiene una única pulsación, mientras que Varón tiene 6 pulsaciones.En una celda el tiempo es imperceptible, pero si consideramos que en Sociología las matrices de datos pueden tener millones de casos y miles de variables, puede suponer muchas horas de trabajo/persona. Los lectores pueden hacer un cálculo de ejemplo con un millón de casos. Ahorran espacio en el soporte magnético. Explicación: El sistema binario de almacenamiento de la información en un ordenador precisa para cada carácter un “byte”, pero con ese mismo “byte” se pueden representar hasta 256 valores distintos (255 más el 0). La categoría Varón ocuparía 5 “byte”, mientras que el código 1 ocuparía 1 “byte”. Sugerimos a los lectores que realicen el mismo cálculo de antes para comprobar la diferencia de espacio requerido para el almacenamiento de un millón de casos. NOTA: es diferente el número 1 que el carácter “1”, de la misma manera que es diferente el código o número 255 que los caracteres “255”. El número 1 ocupa un “byte” el carácter “1” ocupa un “byte”. El número 255 ocupa 1 “byte” pero los caracteres “255” ocupan 3 “byte”. Ahorran tiempo de proceso. Explicación: El procesador de un ordenador procesa más deprisa la información numérica que la información de caracteres. El programa estadístico (realmente es el microprocesador del ordenador) trata matemáticamente los valores numéricos, pero los caracteres tienen un proceso distinto y más elaborado que supone más tiempo. Algunos procedimientos estadísticos precisan que las variables categóricas estén codificadas con números enteros y más concretamente naturales. Explicación: Los procedimientos de IBM SPSS: T-test, Análisis de Varianza, Regresión binomial, regresión polinomial, tienen este requerimiento, y no es probable ni deseable que cambie en versiones futuras. Estadísticos e-Books & Papers 28 Estadística descriptiva e inferencial Al grabar o escribir en la matriz de datos, los datos que se ponen en cada celda son las características, atributos o valores de las variables que se corresponden con las respuestas a las preguntas. Con la codificación, todos los datos son estrictamente valores numéricos o códigos. En la Tabla 16 se presenta un modelo de cuestionario, aplicado a un grupo de jóvenes, que servirá de ejemplo para la aplicación de los estadísticos posteriores. Este grupo se utiliza a modo de ejemplo y no tiene ninguna representatividad. El cuestionario se va a tratar por partes, dividiéndolo en un primer bloque de preguntas de respuesta única (preguntas de la P1 a la P7 de la Tabla 17 a la Tabla 22), un segundo bloque de preguntas de respuesta múltiple (preguntas P8 y P9. Tabla 23 y Tabla 24) y un tercer bloque de preguntas de tipo matricial (P10, P11 y P12, Tabla 25, Tabla 26 y Tabla 27). Tabla 6 Cuestionario Después de realizar el trabajo de campo y aplicado el cuestionario a las unidades de observación, se obtienen todos los cuestionarios, uno por cada unidad u objeto de observación. Para crear la matriz de datos, hay que transformar o implementar las preguntas del cuestionario (columna “Preguntas” de la Tabla 7 a la Tabla 17) en variables (columna “Variables” de la Tabla 7 a la Tabla 17). Procediendo por bloques y preguntas a partir Estadísticos e-Books & Papers Carlos De La Puente Viedma 29 del cuestionario y de la tabla de implementación de preguntas en variables, se genera la estructura de la matriz (Tabla 18 y Tabla 19) en la que después se van a grabar las respuestas. La primera pregunta es el identificador de cuestionario desde la que se implementa la variable “identificador de cuestionario”, aunque en esta ocasión no figura en este cuestionario. El formato que se va a utilizar para describir el proceso de la Tabla 7 a la Tabla 17 es, descripción textual de las características de las preguntas y variables, gráfico de la pregunta y tabla de implementación de la pregunta en variable. Tabla 7. Primer bloque. Identificador de cuestionario El “Número de cuestionario” permite identificar el cuestionario con la fila de la matriz de datos para posteriores revisiones o comprobaciones, ya que las entrevistas son anónimas y en la matriz de datos no se puede grabar información que identifique a las unidades de observación que estén protegidas por la Ley Orgánica de Protección de Datos (BOE, 1999). El nombre breve de la pregunta será ID. El espacio muestral está formado por los sucesos elementales numéricos 1, 2, 3, ... hasta n. Como los sucesos elementales son numéricos, la codificación no es necesaria y los propios números son los códigos. Esta pregunta del cuestionario se transforma en la variable “Número de cuestionario”. El nombre ID y su espacio muestral tiene los mismos sucesos elementales que la pregunta (1, 2, 3, ... hasta n), por lo tanto, la codificación tampoco es necesaria por el mismo motivo. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Identificador de cuestionario ID Numérico = Identificador de cuestionario ID Numérico = Tabla 8. Primer bloque. Primera pregunta A la pregunta género en cuanto a sexo, se le asigna el nombre P1, por ser el identificador que tiene en el cuestionario. Esta asignación es por cuestiones ergonómicas y nemotécnicas. Los sucesos elementales del espacio muestral son: “varón” y “mujer” y los códigos asignados 1 y 2, respectivamente. Las características de la pregunta son: dicotómica (dos categorías); exhaustiva (contempla todas las posibilidades que se pueden dar en la población) y por lo tanto es una pregunta cerrada, y es excluyente (sólo se puede pertenecer a uno de los sucesos elementales). Al ser excluyente la pregunta tiene una posible respuesta y sólo es necesaria una celda en la matriz de datos, por lo que sólo es necesario implementar una variable, “género en cuanto a sexo”; nombre P1; el espacio muestral tiene los sucesos elementales: “varón” y “mujer” y los códigos asignados son 1 y 2, respectivamente. Las características de la variable son: dicotómica (dos categorías); exhaustiva (contempla todas las posibilidades que se pueden dar en la población) por lo tanto es cerrada, y excluyente porque las unidades de observación sólo puede pertenecer a uno de los sucesos elementales. Todas las variables son excluyentes. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Por favor, indique si Ud. Es… P1 Varón 1 Por favor, indique si Ud. Es… P1 Varón 1 Mujer 2 Mujer 2 Estadísticos e-Books & Papers 30 Estadística descriptiva e inferencial Tabla 9. Primer bloque. Segunda pregunta La pregunta “Estado civil” tiene el nombre P2. Los sucesos elementales son los considerados en una sociedad de tipo occidental: “soltero/a”, “casado/a”, “pareja”, “separado/a”, “divorciado/a” y “viudo/a” a los que se añade la opción “Ns/Nc” como no sabe o no contesta. Los códigos asignados son: 1, 2, 3, 4, 5 y 6, y al Ns/Nc se le asigna el 9. Es politómica (más de dos sucesos elementales), exhaustiva por lo tanto cerrada y excluyente. Como el Ns/Nc es una opción no válida por no pertenecer al espacio muestral y por cuestiones nemotécnicas se le asigna el valor extremo, si es que no está ocupado por un suceso elemental válido. Como regla general, al Ns/Nc se le asigna el último código libre. Si el código de la pregunta tiene un número de una cifra, se asigna el 9. Si es de dos cifras el 99 o el 999 si son tres cifras y así sucesivamente. Como los sucesos elementales del espacio muestral de la pregunta estado civil son excluyentes, y sólo admite una respuesta, sólo es necesario implementar una variable en la matriz de datos: “estado civil”. El nombre P2. Los sucesos elementales: “soltero/a”, “casado/a”, “pareja”, “separado/a”, “divorciado/a” y “viudo/a” a los que se añade la opción “Ns/Nc” como no sabe o no contesta. Los códigos asignados son: 1, 2, 3, 4, 5 y 6, y al Ns/Nc se le asignael 9. Es politómica (más de dos sucesos elementales), exhaustiva por lo tanto cerrada y excluyente. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Su estado civil es… P2 Soltero/a 1 Su estado civil es… P2 Soltero/a 1 Casado/a 2 Casado/a 2 Pareja 3 Pareja 3 Separado/a 4 Separado/a 4 Divorciado/a 5 Divorciado/a 5 Viudo/a 6 Viudo/a 6 Ns/Nc 9 Ns/Nc 9 Tabla 10. Primer bloque. Tercera pregunta Esta pregunta tiene el nombre P3. Los sucesos elementales del espacio muestral son: “Cultural”, “Informativo”, Recreativo” y “Otros”. Los códigos asignados son: 1, 2 y 3. Es politómica, no es exhaustiva pero es excluyente porque sólo se pide una respuesta. Al no ser exhaustiva, no es cerrada, ya que no contempla todos los supuestos del especio muestral de la población. Entonces se considera una pregunta semicerrada o semiabierta. La opción “Otros” se contempla porque puede haber alguna unidad de observación en la muestra que indique otro tipo de programa de TV no contemplado. A medida que surgen nuevos tipos, se les asignan códigos correlativos. En este caso han sido: “Tele realidad” y “Documentales” con los códigos respectivos 4 y 5. Como sólo admite una respuesta, solamente es necesaria una celda para grabar las respuestas y se implementa una única variable: “Programa de TV favorito”, con el nombre P3. Los sucesos elementales: “Cultural”, “Informativo”, Recreativo”, y como otros “Tele realidad” y “Documentales” y los códigos son: 1, 2, 3, 4 y 5. La variable se puede considerar politómica, cerrada y excluyente. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Su programa de TV favorito es de tipo… P3 Cultural 1 Su programa de TV favorito es de tipo… P3 Cultural 1 Informativo 2 Informativo 2 Recreativo 3 Recreativo 3 Otros Tele realidad 4 Documentales 5 Estadísticos e-Books & Papers Carlos De La Puente Viedma 31 Tabla 11. Primer bloque. Cuarta pregunta La pregunta P4 contempla tres respuestas: el peso, la estatura y la edad. Los sucesos elementales del espacio muestral del peso son sus propios valores y en este caso son Kg. El espacio muestral de la estatura son metros y de la edad los años. Son preguntas numéricas y de razón y aunque no figuran todos sus posibles valores, no es necesario, ya que para la población humana son conocidos y deben estar dentro de unos márgenes razonables, por lo tanto se puede considerar cerrada y excluyente. Puesto que cada opción requiere una respuesta es necesario tres celdas para grabar las respuestas y por lo tanto son necesarias tres variables: P4_1, P4_2 y P4_3. El nivel de medida es de razón; exhaustivas y por lo tanto cerradas y excluyentes. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Puede indicar su P4 Peso Kg = Peso P4_1 Kg = Estatura m = Estatura P4_2 m = Edad Años = Edad P4_3 Años = Tabla 12. Primer bloque. Quinta, sexta y séptima preguntas Las preguntas P5, P6 y P7 son del mismo tipo. El nivel de medida se considera escalar. En los tres casos se pide una valoración y la respuesta es en una escala de 0 a 10. Como los valores son culturales, no tienen significado en sí mismos como las variables de razón, es necesario indicar su sentido: 0: “nada” y 10: “mucho”, por lo tanto los sucesos elementales son: “nada”,1, 2, 3, 4, 5, 6, 7, 8, 9 y “mucho” Semánticamente no se puede diferenciar una escala de 11 ítems por lo que el sentido del resto de los valores es su propio valor y son los propios códigos: 0, 1, 2, 3 ,4 ,5 ,6 ,7, 8, 9 y 10. Se añade el Ns/Nc que en este caso debe ser un código de dos cifras “99”. Las características de las tres preguntas es que son exhaustivas, por lo tanto cerradas, y excluyentes. Como cada pregunta tiene una sola respuesta son necesarias tres variables con el mismo nombre y características: P5, P6 y P7. Los sucesos elementales son: “nada”, 1, 2, 3, 4, 5, 6, 7, 8, 9 y “mucho” y los códigos: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 y 99. Se consideran exhaustivas y por lo tanto cerradas, y excluyentes. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Por favor, ¿Podría decir cuál es su interés por estudiar Estadística en una escala del 0 al 10 en la que el 0 es nada de interés y el 10 mucho? P5 Nada 0 Por favor, ¿Podría decir cuál es su interés por estudiar Estadística en una escala del 0 al 10 en la que el 0 es nada de interés y el 10 mucho? P5 Nada 0 1 1 1 1 2 2 2 2 [...] [...] [...] [...] 9 9 9 9 Mucho 10 Mucho 10 Ns/Nc 99 Ns/Nc 99 Por favor, ¿Podría decir cuánto conocimiento de Estadística considera que tiene en una escala del 0 al 10 en la que 0 es nada y el 10 mucho? P6 Nada 0 Por favor, ¿Podría decir cuánto conocimiento de Estadística considera que tiene en una escala del 0 al 10 en la que 0 es nada y el 10 mucho? P6 Nada 0 1 1 1 1 2 2 2 2 [...] [...] [...] [...] 9 9 9 9 Mucho 10 Mucho 10 Ns/Nc 99 Ns/Nc 99 Por favor, ¿Podría indicar cuánto espera aprender de Estadística en una escala del 0 al 10 en la que el 0 es nada y el 10 mucho? P7 Nada 0 Por favor, ¿Podría indicar cuánto espera aprender de Estadística en una escala del 0 al 10 en la que el 0 es nada y el 10 mucho? P7 Nada 0 1 1 1 1 2 2 2 2 [...] [...] [...] [...] 9 9 9 9 Mucho 10 Mucho 10 Ns/Nc 99 Ns/Nc 99 Estadísticos e-Books & Papers 32 Estadística descriptiva e inferencial Tabla 13. Segundo bloque. Pregunta octava Este segundo bloque las preguntas consideradas de múltiple respuesta. En la pregunta ocho (P8) se pide cuáles son los periódicos que se leen asiduamente, por lo tanto cada periódico requiere una respuesta que en cada caso es “si” o “no”. Los sucesos elementales del espacio muestral de la pregunta son: “ABC”, “El Mundo”, “El País” y “La Razón”, y hay que contemplar la posibilidad de “Otros”. La pregunta se considera de múltiple respuesta, es una respuesta por cada periódico y que cada respuesta es dicotómica “si” o “no” lo lee. No es exhaustiva y se incluye el “Otros cuál” entonces es semicerrada o semiabierta y no es excluyente el periódico, pero si la opción de lectura. Al no ser excluyente, se requieren tantas variables como respuestas posibles hay. En este caso serían cuatro variables, pero si apareciesen “Otros” periódicos serían necesarias más variables. Las variables son: “ABC”, “El Mundo”, “El País” y “La Razón” y los nombres respectivamente: P8_1, P8_2, P8_3 y P8_4. Los sucesos elementales son: “si” y “no” y los códigos 1 y 2. Las variables se consideran exhaustivas por lo tanto cerradas, y excluyentes. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. De la siguiente lista de prensa diaria, por favor, ¿Podría indicar con una marca cuáles son los que si/no lee con asiduidad? P8 ABC 1 ABC P8_1 Si 1 No 2 El Mundo 2 El Mundo P8_2 Si 1 No 2 El País 3 El País P8_3 Si 1 No 2 La Razón 4 La Razón P8_4 Si 1 No 2 Tabla 14. Segundo bloque. Pregunta novena En la pregunta P9 hay que categorizar los dos periódicos que se consideran más importantes. Los sucesos elementales del espacio muestral de la pregunta son: “El primero” y “El segundo” con los códigos: 1 y 2. La pregunta se considera de múltiple respuesta porque hay que decir dos periódicos y cada respuesta es politómica porque pueden ser uno de los cuatro periódicos. En este caso se ha considerado exhaustiva, por lo que es cerrada y no es excluyente porque hay que elegir dos periódicos. En la matriz de datos es necesario implementar dos variables (P9_1 y P9_2) “Primer periódico” y “Segundo periódico” con los sucesos elementales: “ABC”, “El Mundo”, “El País” y “La Razón” y los códigos: 1, 2, 3 y 4. Las variables se consideran exhaustivas y por lo tanto cerradas,y excluyentes. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. De la siguiente lista de prensa diaria, por favor, ¿Podría indicar con el número que tiene a la izquierda cuál es el que considera más importante? ¿Y el segundo más importante? P9 El primero 1 El 1º más importante P9_1 ABC 1 El segundo 2 El Mundo 2 El País 3 La Razón 4 El 2º más importante P9_2 ABC 1 El Mundo 2 El País 3 La Razón 4 Estadísticos e-Books & Papers Carlos De La Puente Viedma 33 Tabla 15. Tercer bloque. Pregunta décima Este bloque es el de las preguntas con formato matricial. La pregunta P10 tiene cuatro sucesos elementales: “ABC”, “El Mundo”, “El País” y “La Razón” con los códigos: 1, 2, 3 y 4. Se ha planteado como exhaustiva por lo que es cerrada y no es excluyente, porque hay que dar una respuesta por cada periódico. Al obtener cuatro respuestas es necesario implementar cuatro variables: “ABC”, “El Mundo”, “El País” y “La Razón” con los nombres: P10_1, P10_2, P10_3 y P10_4 y los sucesos elementales de cada una de ellas son: “Profesional”, “Completo”, “Veraz”, “Variado” y “Global” con los códigos: 1, 2, 3, 4 y 5. Se consideran exhaustivas por lo tanto cerradas y excluyentes, ya que sólo se puede indicar un atributo de cada periódico. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Por favor. De la siguiente lista de periódicos, ¿Podría indicar, en cada uno de ellos, en qué características de las cinco que se le muestra destaca más? Marque sólo una. P10 ABC 1 ABC P10_1 Profesional 1 Completo 2 Veraz 3 Variado 4 Global 5 El Mundo 2 El Mundo P10_2 Profesional 1 Completo 2 Veraz 3 Variado 4 Global 5 El País 3 El País P10_3 Profesional 1 Completo 2 Veraz 3 Variado 4 Global 5 La Razón 4 La Razón P10_4 Profesional 1 Completo 2 Veraz 3 Variado 4 Global 5 Tabla 16. Tercer bloque. Pregunta once La pregunta P11 tiene cinco sucesos elementales: “Profesional”, “Completo”, “Veraz”, “Variado” y “Global” con los códigos: 1, 2, 3, 4 y 5. Se ha planteado como exhaustiva por lo que es cerrada y no es excluyente, porque hay que dar una respuesta por cada una de las características. Al obtener cinco respuestas es necesario implementar cinco variables: “Profesional”, “Completo”, “Veraz”, “Variado” y “Global” con los nombres: P11_1, P11_2, P11_3, P11_4 y P11_5 y los sucesos elementales de cada una de ellas son: “ABC”, “El Mundo”, “El País” y “La Razón” con los códigos: 1, 2, 3 y 4. Se consideran exhaustivas por lo tanto cerradas y excluyentes, ya que sólo se puede indicar un periódico en cada atributo. Por ejemplo, una relación entre la P10 y la P11 es que en la primera todos los periódicos pueden tener el mismo atributivo y en la P11 todos los atributos los puede tener el mismo periódico. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Por favor. De la siguiente lista de cinco características. ¿Podría indicar, en cada una de ellas, cuál es el periódico que la posee de forma más clara? Marque sólo un periódico. P11 Profesional 1 Profesional P11_1 ABC 1 El Mundo 2 El País 3 La Razón 4 Completo 2 Completo P11_2 ABC 1 El Mundo 2 El País 3 La Razón 4 Veraz 3 Veraz P11_3 ABC 1 El Mundo 2 El País 3 La Razón 4 [...] Global 5 Global P11_5 ABC 1 El Mundo 2 El País 3 La Razón 4 Estadísticos e-Books & Papers 34 Estadística descriptiva e inferencial Tabla 17. Tercer bloque. Pregunta doce La pregunta P12 se puede considerar una pregunta matricial pura o total, ya que se pide una respuesta por la intersección de cada atributo con cada periódico, son 20 respuestas. Los sucesos elementales son: “Profesional-ABC”, “Profesional-El Mundo”, y así hasta “Global-El País” y “Global-La Razón” con los códigos: 1, 2, 3, hasta 20. Se ha planteado como exhaustiva por lo que es cerrada y no es excluyente, porque hay que dar una respuesta por cada una de las celdas. Al obtener 20 respuestas es necesario implementar 20 variables: “Profesional-ABC”, “Profesional-El Mundo”, y así hasta “Global-El País” y “Global-La Razón” con los nombres: P12_1_1, P12_1_2, P12_1_3, hasta P12_5_3 y P12_5_4. El formato del nombre es, “nombre de variable_fila_columna. Los sucesos elementales de cada una de ellas son: “No la posee” hasta la “Posee mucho” y los códigos se plantean como una escala del 0 al 10. Se consideran exhaustivas por lo tanto cerradas, y excluyentes, ya que sólo se puede dar una valoración en cada atributo a cada periódico. En esta pregunta no es trivial el formato de pregunta-respuesta. Si se pregunta procediendo por filas, se va a tender a comparar a los periódicos en cada característica. Pero si se procede en columna se va a comparar a cada periódico entre los distintos atributos. Por ahorro de espacio y por ser monótona la tabla de implementación de preguntas en variables, sólo se ponen las dos primeras y últimas. Preguntas Variables Pregunta No Suceso elemental Cód. Variable No Suceso elemental Cód. Por favor. Valore a cada uno de los periódicos que se le muestran a continuación en cada una de las cinco características del o a 10, siendo el 0 que no la posee y el 10 que la posee mucho. P12 Profesional- ABC 1 Profesional-ABC P12_1_1 Nada 0 1 1 2 2 [...] [...] 9 9 Mucho 10 Profesional- El Mundo 2 Profesional-El Mundo P12_1_2 Nada 0 1 1 2 2 [...] [...] 9 9 Mucho 10 […] […] […] […] Nada 0 1 1 2 2 [...] [...] 9 9 Mucho 10 Global- El País 19 Global -El País P12_5_3 Nada 0 1 1 2 2 [...] [...] 9 9 Mucho 10 Global- La Razón 20 Global -La Razón P12_5_4 Nada 0 1 1 2 2 [...] [...] 9 9 Mucho 10 Estadísticos e-Books & Papers Carlos De La Puente Viedma 35 La Tabla 18 es la grabación de las respuestas a las preguntas del cuestionario, en las variables correspondientes y codificadas, hasta la pregunta y variable P7. Tabla 18 Matriz de datos codificada id p1 p2 p3 p4_1 p4_2 p4_3 p5 p6 p7 id p1 p2 p3 p4_1 p4_2 p4_3 p5 p6 p7 1 1 1 1 63 1,63 21 7 7 9 50 2 2 3 55 1,74 27 8 6 10 2 1 1 1 63 1,63 21 7 7 9 51 2 1 3 67 1,7 20 5 5 9 3 1 1 1 68 1,75 23 8 5 9 52 1 1 3 77 1,87 19 7 3 8 4 1 1 1 80 1,75 19 7 4 7 53 1 1 3 77 1,87 19 7 3 8 5 1 1 3 73 1,82 24 8 4 9 54 2 1 2 52 1,67 19 8 3 8 6 1 1 3 73 1,82 24 8 4 9 55 1 1 3 78 1,85 21 8 3 10 7 2 1 3 45 1,6 19 5 0 5 56 2 3 3 50 1,67 20 7 5 10 8 2 1 . 60 1,6 20 7 3 8 57 1 1 3 66 1,78 18 5 4 6 9 2 1 . 60 1,72 22 7 5 10 58 1 1 . 65 1,73 19 0 5 6 10 2 1 3 55 1,63 18 9 5 10 59 2 3 3 58 1,63 21 2 1 6 11 1 2 1 85 1,85 20 10 3 9 60 2 1 3 70 1,68 21 7 3 8 12 1 2 1 75 1,75 19 5 5 5 61 1 3 1 70 1,6 20 9 1 9 13 1 2 1 75 1,75 19 5 5 5 62 2 1 2 65 1,77 18 7 5 9 14 2 3 2 53 1,66 18 3 1 99 63 2 1 3 73 1,71 26 8 7 9 15 2 1 2 . . . 5 3 6 64 2 1 3 58 1,75 19 8 10 7 16 2 1 1 52 1,66 17 8 6 9 65 2 1 3 75 1,58 18 6 6 8 17 2 2 3 55 1,74 27 8 6 10 66 1 1 3 76 1,9 28 10 5 2 18 2 1 3 67 1,7 20 5 5 9 67 1 1 1 63 1,63 21 7 7 9 19 1 1 3 77 1,87 19 7 3 8 68 2 1 1 52 1,63 25 9 6 9 20 1 1 3 77 1,87 19 7 3 8 69 1 1 1 68 1,75 23 8 5 9 21 2 1 2 52 1,67 19 8 3 8 70 1 1 1 80 1,75 19 7 4 7 22 1 1 3 78 1,85 21 8 3 10 71 1 1 3 73 1,82 24 8 4 9 23 1 1 3 78 1,85 21 8 3 10 72 2 1 1 55 1,6 24 8 6 9 24 1 1 3 66 1,78 18 5 4 6 73 2 1 3 45 1,6 19 5 0 5 25 1 1 . 65 1,73 19 0 5 6 74 2 1 . 60 1,6 20 7 3 8 26 1 1 . 65 1,73 19 0 5 6 75 2 1 . 60 1,72 22 7 5 10 27 2 1 3 70 1,68 21 7 3 8 76 2 1 3 55 1,63 18 9 5 10 28 1 3 1 70 1,6 20 9 1 9 77 1 3 1 85 1,85 20 10 3 9 29 1 3 1 70 1,6 20 9 1 9 78 1 3 1 75 1,75 19 5 5 5 30 2 1 3 73 1,71 26 8 7 9 79 2 1 3 58 1,63 19 6 7 5 31 2 1 3 58 1,75 19 8 10 7 80 2 3 2 53 1,66 18 3 1 99 32 2 1 3 75 1,58 18 6 6 8 81 2 1 2 . . . 5 3 6 33 1 1 3 76 1,9 28 10 5 2 82 2 1 1 52 1,66 17 8 6 9 34 1 1 1 63 1,63 21 7 7 9 83 2 2 3 55 1,74
Compartir