Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTADÍSTICA Definición Estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. Es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos. La Estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas con tal análisis. En un sentido menos amplio, el término estadística se usa para denotar los propios datos, o número derivados de ellos, tales como los promedios. Así se habla de estadística de empleo, estadística de accidentes. Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene, debido al gran campo de aplicación que posee. Historia Desde los comienzos de la civilización han existido formas sencillas de estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 A.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el año 594 A.C. para cobrar impuestos. El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico 1 notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo el proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico. Métodos Estadísticos La materia prima de la estadística consiste en conjuntos de datos cuanti o cualitativos obtenidos en una investigación. Al recopilar datos estadísticos se ha de tener especial cuidado para garantizar que la información sea completa y correcta (representativa). El primer problema para los estadísticos reside en determinar qué información y cuánta se ha de reunir. En realidad, la dificultad al compilar un censo está en obtener el número de habitantes de forma completa y exacta; de la misma manera que un físico que quiere contar el número de colisiones por segundo entre las moléculas de un gas debe empezar determinando con precisión la naturaleza de los objetos a contar. Los estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo de opinión o una muestra electoral. El seleccionar una muestra capaz de representar con exactitud las preferencias del total de la población no es tarea sencilla. Para establecer una ley física, biológica o social, el estadístico debe comenzar con un conjunto de datos y modificarlo basándose en la experiencia. Por ejemplo, en los primeros estudios sobre crecimiento de la población los cambios en el número de nacimientos y el número de fallecimientos en un determinado lapso. Los expertos en estudios de población comprobaron que la tasa de crecimiento depende sólo del número de nacimientos, sin que el número de defunciones tenga importancia. Por tanto, el futuro crecimiento de la población se empezó a calcular basándose en el número anual de nacimientos por cada mil habitantes. Sin embargo, pronto se dieron cuenta de que las predicciones obtenidas utilizando éste método no utilizaban métodos correctos. Los estadísticos comprobaron que hay otros factores que limitan el crecimiento de la población. Dado que el número de posibles nacimientos depende del número de mujeres, 2 y no del total de la población y dado que las mujeres sólo tienen hijos durante parte de su vida, el dato más importante que se ha de utilizar para predecir la población es el número de niños nacidos vivos por cada mil mujeres en edad de procrear. El valor obtenido utilizando este dato mejora al combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la diferencia entre fallecimientos y nacimientos sólo es útil para indicar el crecimiento de población en un determinado periodo del pasado, el número de nacimientos por cada mil habitantes sólo expresa la tasa de crecimiento en el mismo período, y sólo el número de nacimientos por cada mil mujeres en edad de procrear sirve para predecir el número de habitantes en el futuro. La estadística es una Ciencia que tiene como finalidad facilitar la solución de problemas en los cuales necesitamos conocer algunas características sobre el comportamiento de algún suceso o evento. Características que nos permiten conocer o mejorar el conocimiento de ese suceso. Además nos permiten inferir el comportamiento de sucesos iguales o similares antes que estos ocurran. Esto nos da la posibilidad de tomar decisiones acertadas y a tiempo, así como realizar proyecciones del comportamiento de algún suceso. Esto es debido a que solo realizamos los cálculos y el análisis con los datos obtenidos de una muestra de la población y no con toda la población. Pues hacerlo con todos los datos o población en algunos casos sería muy difícil y en otros casos casi imposible o totalmente imposible. Difícil porque podría tratarse de una situación donde el número de datos es muy grande, como por ejemplo si quisiéramos saber el promedio de goles por juego de un equipo de futbol, a pesar de que se tienen los registros de todos los resultadosde sus juegos, son muchísimos los juegos y llevaría tiempo revisar todos los archivos para obtener esos datos. O bien saber qué porcentaje de personas tiene vehículos en una determinada ciudad. Por otra parte podría ser casi imposible de edad de los habitantes en todo el mundo (son muchas personas) y teniendo en cuenta que para ello es necesario aplicar encuestas, entrevistas; o extraer datos de archivos y/o de observaciones de campo. Es posible que sea muy difícil y complicado o que simplemente no se pueda conseguir los datos de todas las personas. O bien saber qué porcentaje de vehículos azules hay en el mundo. Analizando esto podemos ver que también simplemente puede ser muy sencillo, como por ejemplo determinar el promedio de edad de los gobernadores de los Estados Unidos, pues son pocos y conocidos es sencillo obtener los datos. Esto nos lleva a la conclusión de que la estadística tiene aplicación en cualquier campo, sin importar que tan sencillo o complicado sea. Cuanto más complicado sea, más ayuda nos presta para resolver la situación. Mostraremos las ideas expuestas con un caso práctico de la vida real, el cual se presenta con muchísima frecuencia: Un estudiante que toma un curso en la escuela, siempre le interesa saber con anticipación cómo será su resultado al finalizar el curso. Qué oportunidad tiene de aprobar el curso y con qué calificación, lo cual no es posible determinar con certeza hasta finalizar el curso. Pero con el uso de la estadística puede conocer de forma aproximada esta información. Él puede tomar las calificaciones (que son los datos) de todos los cursos anteriores y hacer un promedio (que sería la media aritmética). Así tendría una idea de cuales son en 3 general los resultados que se obtienen en ese curso. También puede obtener un porcentaje de cuántos estudiantes obtienen una determinada calificación. Lo que luego le permitiría de acuerdo al número total de estudiantes en ese curso determinar cuál sería su probabilidad de obtener una determinada calificación. También puede obtener un porcentaje de las personas que aprueban o no el curso y así conocer su oportunidad, de igual forma de acuerdo al total de alumnos del curso obtener su probabilidad de aprobar o no el curso. Pero este trabajo que necesita hacer con los datos de todas las calificaciones anteriores de ese curso, llevaría muchísimo tiempo y trabajo. Es muy posible que cuando tenga los resultados ya no le sirvan, pues ha terminado el curso y ya conoce con certeza sus calificaciones. Es allí donde tiene un papel importante la estadística. Clasificación de variables Uno de los trabajos principales en estadística consiste en recabar información a partir de medir ciertas características en una población. Esas características que se miden reciben el nombre de variables. Según el tipo de variable, es el estudio que uno puede realizar, por eso es importante reconocerlas y clasificarlas. Si los datos no son numéricos, reciben el nombre de variables cualitativas, son aquellos que representan una cualidad, un atributo (sexo, materias, colores, programas de TV, deportes, decisión política, etc.) Cuando los datos son cualitativos, los mismos se pueden representar a través de gráficos de barras, pictogramas o circulares, habitualmente llamados de torta. Si los datos son numéricos reciben el nombre de variables cuantitativas, las mismas pueden ser discretas, si sólo pueden adoptar valores enteros, como número de hijos, número de materias, cantidad de empleados, etc. Si los datos son cuantitativos discretos se representan en gráficos de barras, pictogramas y circulares. En ocasiones cuando la cantidad de datos escapa a la posibilidad de graficar (más de 10 datos diferentes) se considera la variable discreta como una continua y se divide al conjunto total de datos en intervalos o en clases. Si los datos son cuantitativos continuos, los valores de la variable pueden adoptar no son sólo números enteros, son ejemplo de ello la altura, el peso, temperatura, etc. y se trabaja con intervalos. Se representan en un histograma y polígono de frecuencia y en ocasiones en gráficos circulares, depende de la cantidad de intervalos que se formen. 4 RELACIÓN ENTRE VARIABLES En ocasiones se estudian dos variables (o más) con el objetivo de saber si entre ellas existe alguna relación. Por ejemplo si comer azúcar provoca caries, si hacer deporte mejora el rendimiento académicos, etc. En estos casos luego de analizar cada variable por separado se trata de establecer la relación que hay entre dos variables. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso que suceda, decimos que las variables están correlacionadas o que hay correlación entre ellas. Tipos de correlación Gráficamente ubicamos a la variable independiente en el eje x (horizontal) y la otra variable en el eje y (vertical) y se ubican cada uno de los puntos que representan los datos. Puede ocurrir que: Los puntos estén dispersos, que no se muestre ninguna tendencia. Entonces decimos que los puntos forman una “nube” y que las variables no están relacionadas o que la correlación es nula. 5 Que los puntos sí muestren una tendencia y que se pueda trazar una recta (recta de regresión) y que esa recta tenga pendiente positiva. Se llama correlación positiva. Que los puntos sí muestren una tendencia y que se pueda trazar una recta (recta de regresión) y que esa recta tenga pendiente negativa. Se llama correlación negativa. GRADO DE CORRELACIÓN Indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar distintos tipos de correlación, pero podemos simplificarlos en: 6 Correlación fuerte: cuanto los puntos están cerca de la recta, como la ya representada. Correlación débil: cuanto los puntos están separados de la recta. Veamos un ejemplo: En la tabla siguiente se muestra el promedio del tiempo que tardan 30 alumnos de un colegio en ir desde su casa al mismo, todas las mañanas. ✔ Analizar la gráfica ✔ Concluir si hay o no relación y si la hay, cómo es ✔ Explicar porqué algunos chicos que viven más lejos tardan menos para llegar al colegio ✔ Dibujar la recta de regresión ✔ Utilizando la recta, estimar: ● La distancia a la que vive un nuevo alumno si tarda 19 minutos en llegar al colegio ● El tiempo que tarda otro alumno si vive a 13 km. Distancia [km] Tiempo [min] Distancia [km] Tiempo [min] Distancia [km] Tiempo [min] 2 5 3 5 3 10 10 17 5 18 4 8 18 32 7 13 3 9 15 38 8 15 14 15 3 8 2 8 14 23 4 14 19 27 4 9 6 15 15 40 12 20 2 7 11 23 12 27 25 31 9 30 7 18 23 37 2 10 1 4 7 Veamos los puntos solicitados Gráfico: Se puede realizar manualmente en un papel cuadriculado o milimetrado o en por medio del Excel. Grado de correlación: Se observa una correlación positiva, débil y sería fuerte si se anularan los 5 puntos alejados (9 – 30 / 14 – 15 / 15 – 38 / 15 – 40 / 25 – 31), lo que es normal cuando en un relevamiento de datos aparecen algunos datos “alejados” de lo que se viene observando. Porqué algunos chicos que viven más lejos tardan menos: Puede haber más de una explicación, en principio podemos pensar que algunos van caminando y a los otros los llevan en auto, también puede suceder que el camino que tienen recorrer en algunos casos es más trabado porque tiene mucho tráfico o muchas paradas por semáforos. Queda abierto para agregar otras posibles explicaciones. Recta de regresión: En caso de hacerlo manualmente, se debe hacer estimando cuál sería la recta que pasa más cerca de todos los puntos marcados. Si se hace en Excel (como la de la figura) el sistema la traza automáticamente. Utilización de la recta: 1er caso: Si un alumno demora 19 minutos en llegar al colegio, se marca 19 min en el eje vertical (Tiempo) y se traza la horizontal desde el mismo hasta la rectade regresión; desde la intersección se baja la vertical hasta el eje horizontal (Distancia), en el que se lee la distancia estimada, en este caso algo más de 9 kms (líneas de trazos rojas). 2do caso: Si el alumno vive a 13 km, se marca 13 en el eje horizontal (Distancia), desde ahí se levanta una vertical hasta la recta de regresión; desde la intersección se traza una horizontal hasta el eje vertical (Tiempo), en el que se lee el tiempo estimado, que en este caso sería algo más de 24 minutos (líneas de trazos celestes). 8 9 Problema resuelto durante la clase. Sugiero que lo resuelvan los que no pudieron asistir y consulten las dudas Dado el siguiente cuadro de una estadística en un curso Horas de estudio semanales Promedio general 0 4,3 2 7 3 7,1 4 8 5 9,2 Ubicar los valores en un sistema de coordenadas Trazar la línea de tendencia ¿Existe correlación entre estas dos variables? Si la respuesta es afirmativa, indicar de qué tipo Si un alumno dedica 1 h de estudio semanal ¿qué promedio aproximado tendrá? 10
Compartir