Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA Fundamentos de Estadística Grupo: 04 - Semestre: 2020-2 Tarea 2: Estadística descriptiva en R FECHA DE ENTREGA: 13/02/2020 Alumno: Téllez González Jorge Luis Facultad de Ingenierı́a Fundamentos de Estadı́stica Índice 1. Importación de datos 2 1.1. Excel a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Importación a R: El salario mı́nimo diario . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2. Cálculo de medidas numéricas en R 4 2.1. Tendencia central: Media, Mediana y Moda . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2. Primer cuartil y tercel decil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3. Rango, Varianza y Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4. Sesgo y Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.5. Histograma, Diagrama de caja y Diagrama de tallos y hojas . . . . . . . . . . . . . . . . . 5 3. Resumen de resultados 7 4. Conclusiones 7 1 Facultad de Ingenierı́a Fundamentos de Estadı́stica 1. Importación de datos R es un entorno y lenguaje de programación con un enfoque al análisis estadı́stico, el cual nació como una reimplementación del lenguaje S. Este lenguaje es ampliamente utilizado en investigación cientı́fica, siendo además muy popular en los campos de aprendizaje automático, minerı́a de datos, investigación biomédica, bioinformática y matemáticas financieras. Figura 1: Lenguaje R. En el siguiente trabajo se mostrará como trabajar de forma descriptiva una serie de datos desorde- nados, con el fin de obtener parámetros que describan a estos datos y nos brinden mayor información sobre ellos. Con tal propósito será utilizado el IDE RStudio que será de utilidad para trabajar de forma eficiente y más cómoda. 1.1. Excel a R El entorno de RStudio permite la importación de datos desde una hoja de cálculo de Microsoft Excel c© de forma sencilla: tan solo hace falta ir a la pestaña File −> Import Dataset −> From Excel... Figura 2: Herramienta de importación incluida 2 Facultad de Ingenierı́a Fundamentos de Estadı́stica Es importante instalar previamente un paquete o package del repositorio de CRAN (la página web principal de la comunidad del lenguaje R). En este caso, el paquete readxl es el indicado para leer e importar archivos .xlsx provenientes de Excel. 1.2. Importación a R: El salario mı́nimo diario A continuación se nos han brindado una serie de datos referentes al salario mı́nimo diario, en pesos, de 55 oficios distintos en México, como puede verse a continuación. Figura 3: Datos referentes al salario mı́nimo capturados. Estos datos serán importados a Excel por medio de las herramientas anteriormente mencionadas. Ası́, una ventana nos indicará los datos que serán importados al entorno de R. Se tiene especial cuidado de desmarcar la opción First Row as Names para evitar que R interprete los datos superiores como los tı́tulos de las columnas de la hoja de cálculo, y en cambio, tome en cuenta todos los datos. Figura 4: Datos importados a RStudio. 3 Facultad de Ingenierı́a Fundamentos de Estadı́stica Una vez que los datos han sido importados, lo que prosigue es transformar estos datos en un arreglo unidimensional de forma que pueda ser utilizado en las funciones de cálculo correspondientes. Esto se logra usando la función unlist sobre los datos importados y asignando el arreglo de salida a una variable nueva. Figura 5: Datos tranformados a un arreglo. No se incluyen nombre o referencias a las columnas. Hecho lo anterior ya se tiene lo necesario para continuar con los cálculos solicitados. 2. Cálculo de medidas numéricas en R 2.1. Tendencia central: Media, Mediana y Moda La Media se calcula con la función mean la cual ya viene incluida en la bibliotecas estándar de RStudio. Caso similar ocurre con la Mediana y su función de cálculo median. El caso especial ocurre con la Moda, debido a que R no cuenta con una función para su cálculo. En este caso, se optó por instalar el paquete modeest y usar la implementación asselin la cual devuelve la moda de los datos presentes en el arreglo. Figura 6: Resultados obtenidos para las medidas de tendencia central. 2.2. Primer cuartil y tercel decil RStudio ya cuenta con una función definida para calcular cuartiles denominada quantile la cual solicita el arreglo a trabajar y los cuantiles que se desean calcular. Figura 7: Resultados obtenidos para los cuantiles solicitados. 2.3. Rango, Varianza y Desviación estándar RStudio también cuenta con funciones definidas para el rango, la varianza insesgada y la desviación estándar. Su declaración, sintaxis y resultado se muestra a continuación. 4 Facultad de Ingenierı́a Fundamentos de Estadı́stica Figura 8: Resultados obtenidos para las medidas de dispersión. 2.4. Sesgo y Curtosis Como sucede con otras medidas, para calcular los parámetros de forma se requiere instalar y declarar un paquete especial denominado moments. Con esta biblioteca cargada, se procede a calcular el Sesgo y la Curtosis (CA1) para los datos del arreglo. Figura 9: Biblioteca moments y su contenido. Figura 10: Cálculo de los parámetros de forma. 2.5. Histograma, Diagrama de caja y Diagrama de tallos y hojas Al igual que en casos anteriores, RStudio posee las funciones adecuadas para representar gráficamente los datos de acuerdo a un modelo predefindo. Figura 11: Gráficas declaradas. En la parte derecha del entorno de trabajo se encuentra una pestaña denominada plots. En esta parte del IDE se mostrarán las gráficas solicitadas para el arreglo de datos. 5 Facultad de Ingenierı́a Fundamentos de Estadı́stica Figura 12: Histograma de los datos. Figura 13: Diagrama de caja de los datos. Figura 14: Diagrama de tallos y hojas de los datos. 6 Facultad de Ingenierı́a Fundamentos de Estadı́stica 3. Resumen de resultados El valor obtenido en los tres parámetros de tendencia fue muy similar (alrededor de 135), lo cual nos puede indicar a primera vista que la distribución de los datos tiene una distribución muy similar a la gaussiana, tal que se cumple de forma muy cercana que Xmo = Xmediana = Xmed . De los cálculos de los cuartiles se puede inferir que el 25% de los oficios se asocian a un salario mı́nimo de 129.465, mientras que el 30% tiene asociado un salario mı́nimo de 130.550. De las medidas de dispersión es posible observar que la dispersión de los salarios mı́nimos no es tan marcada (alrededor de 6.467735 unidades). Ası́ mismo, el rango indica que los salarios no presentan diferencias tan significativas ası́ como datos atı́picos o aberrantes. El sesgo obtenido (0.1137755) verifica la inferencia inicial sobre la distribución gaussiana que pre- sentan los datos, es decir, los datos poseen una distribución muy simétrica o insesgada. Ası́ mismo, el valor obtenido (1.99) para la curtosis indica que los datos posee un achatamiento platicúrtico con respecto a la distribución gaussiana tı́pica. Las gráficas indican los salarios que se encuentran de forma más frecuente en toda la muestra: los cuales se ubican entre [125,130] y [135, 140]. Por otra parte, el diagrama de caja muestra gráficamente la mediana obtenida (135.58) y el rango de los salarios representado por los bigotes del diagrama. Finalmente, el diagrama de tallos y hojas muestra los valores que se repiten con mayor frecuencia tomando como tallo los primeros tres dı́gitos y como hojas los decimales de cada salario. R muestra los tallos de forma sistemática, es decir, siguiendo un patrón; que en este caso puede observarse de dos en dos. 4. Conclusiones El primer acercamiento al lenguaje R ha resultado un poco complicado en un inicio, debido a que el entorno es muy diferente a otros lenguajes de programación. Sin embargo, debido a que posee una sintaxis relativa- mente flexible y una gran facilidad ala hora de importar datos e incluir nuevas bibliotecas, pude realizar los cálculos solicitados y verificar la potencia que R tiene en el análisis estadı́stico en comparación con otros lenguajes de programación. A partir de los datos obtenidos realicé inferencias relacionadas a la dispersión de los salarios y su distribución. Ası́ mismo, pude observar las herramientas que R dispone con el fin de realizar gráficas descriptivas que brindan información organizada y clara sobre los salarios, en un principio, sin un orden claro. Finalmente, considero que R será a partir de este punto en mi carrera un lenguaje obligado a com- prender y manejar adecuadamente pues, como se comentó en un principio, R es un lenguaje altamente utilizado junto con Python en áreas como los algoritmos de Aprendizaje automático o Machine Learning. 7 Facultad de Ingenierı́a Fundamentos de Estadı́stica Referencias [1] Convert list to vector with unlist function in R. Recuperado de: http://www. datasciencemadesimple.com/convert-list-to-vector-with-unlist-function-in-r/. Fecha de consulta: 12/02/2020. [2] Importacion de datos de EXCEL con RStudio - Guia Rapida. Recuperado de: http: //rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43. html. Fecha de consulta: 12/02/2020. [3] Quantile Calculations in R. Recuperado de: https://tolstoy.newcastle.edu.au/R/e17/help/ att-1067/Quartiles_in_R.pdf. Fecha de consulta: 12/02/2020. [4] R (lenguaje de programación). Recuperado de: https://es.wikipedia.org/wiki/R_(lenguaje_ de_programaci%C3%B3n). Fecha de consulta: 12/02/2020. [5] Resumen de los comandos básicos del programa. Recuperado de: https://webs.um.es/gustavo. garrigos/quim2011/comandos_de_R.pdf. Fecha de consulta: 12/02/2020. Los créditos de las fotografı́as pertenecen a sus respectivos autores. c© LATEX 8 http://www.datasciencemadesimple.com/convert-list-to-vector-with-unlist-function-in-r/ http://www.datasciencemadesimple.com/convert-list-to-vector-with-unlist-function-in-r/ http://rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.html http://rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.html http://rstudio-pubs-static.s3.amazonaws.com/253338_f93c4322ee204a1e993a68553abf6d43.html https://tolstoy.newcastle.edu.au/R/e17/help/att-1067/Quartiles_in_R.pdf https://tolstoy.newcastle.edu.au/R/e17/help/att-1067/Quartiles_in_R.pdf https://es.wikipedia.org/wiki/R_(lenguaje_de_programaci%C3%B3n) https://es.wikipedia.org/wiki/R_(lenguaje_de_programaci%C3%B3n) https://webs.um.es/gustavo.garrigos/quim2011/comandos_de_R.pdf https://webs.um.es/gustavo.garrigos/quim2011/comandos_de_R.pdf
Compartir