Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Nombre del alumno: Antony Arturo García Pérez Matrícula: 2020690020 Carrera: Licenciatura en Ciencia de Datos Nombre de la materia: Minería de Datos Nombre del docente: Dr. José Luis Cendejas Valdez Parcial 2.- Desarrollo de Dashboard para la visualización de datos del proceso de minería de datos Sabinas, Coahuila 29/04/2022 - Título Importancia de los Índices UV en nuestra vida diaria - Introducción (identificación del problema a solucionar) Hemos detectado que en la actualidad la actividad solar es de suma importancia tanto para nuestra salud como para el desarrollo de nuestras actividades al día a día, por lo que se ha realizado un estudio en la ciudad de Morelia utilizando la central meteorológica para así tener un registro de las intensidades con las que se ve afectada nuestra ciudad. Por lo que para poder presentar la información recabada se está solicitando la creación de un Dashboard donde se recopilen y se muestren los datos a ilustrar. - Contenido (Pasos, aplicación de etapas y codificación) A continuación, vamos a describir brevemente cada una de las fases del modelo CRISP que se llevaron a cabo. Fase I. Business Understanding. Definición de necesidades del cliente (comprensión del negocio) Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos. Se comprende lo que nuestra empresa nos pide, en este caso la empresa que nos solicita el análisis es una empresa que se dedica a la producción de bloqueadores solares si será prudente abordar este tipo de mercado en la ciudad de Morelia, por lo que desea conocer cuáles son las características meteorológicas de la ciudad analizando las condiciones del ambiente, tanto en zonas donde se puede presentar una baja como alta cantidad de radiaciones solares. Al momento de dar a conocer nuestro análisis se busca la utilización de un Dachboard ya que con este se va a poder visualizar de mejor manera los datos y relaciones recabadas Fase II. Data Understanding. Estudio y comprensión de los datos La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta. Con el dataset proporcionado buscamos comprender qué es lo que nos muestra nuestro dataset, hablando respecto a qué significa cada una de las columnas y filas de nuestro dataset, así como el saber qué es lo que cada uno nos quiere decir, como ejemplo los campos de fecha y hora Fase III. Data Preparation. Análisis de los datos y selección de características La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan. Al pasarnos al preprocesamiento de los datos, optamos por ver cuáles son las secciones que nos interesan, así como las columnas y los atributos que consideremos relevantes, en este caso, como buscamos conocer las condiciones solares, tomamos en cuenta los índices de rayos UV que golpean la zona, a su vez de la propia eliminación de los campos que correspondan a los horarios de noche, en los cuales no se cuenta con un sol que nos provea de radiaciones. Podemos observar cómo fue el cambio del dataset, antes de ser procesado, a diferencia de donde se seleccionaron las variables y columnas que de verdad nos interesan: Dataset antes de ser Preprocesado – Núm. De registros 8916 Dataset después de ser Preprocesado – Núm. De registros 5026 Además de esto, dentro de este paso se llevaron a cabo los siguientes estudios: - Confiabilidad (Alpha de Cronbach) El estudio de Confiabilidad (Alpha de Cronbach) se llevó a cabo en dos softwares distintos, siendo estos, Excel y SPSS, donde se obtuvieron los siguientes resultados: Estudio en Excel – Se obtuvo un resultado de .823, lo que indica una confiabilidad buena Estudio en SPSS – Se obtuvo un resultado de .823, lo que indica una confiabilidad buena - Correlaciones (Bivariado de Pearson) El estudio de Correlaciones (Bivariado de Pearson) se llevó a cabo en el software de SPSS, donde se obtuvieron los siguientes resultados: Estudio de correlaciones realizado en SPSS En este se obtuvieron las siguientes correlaciones fuertes: Heat Índex con Hi Temp Dentro del análisis de correlación de las variables podemos ver que hay una fuerte relación entre las variables de Heat Índex, la cual corresponde al índice de calor que se presenta en la ciudad y las variables de Hi Temp y Low Temp, ya que vemos que su valor de correlación es de .989, por lo que ambas variables se encuentran muy relacionadas, por lo que podemos llegar a la información de que a mayor nivel de Temperatura máxima, tanto de temperatura mínima, hay un más alto nivel de índice de calor. UV Índex con Solar Energy A su vez podemos apreciar que el índice de rayos UV y que el nivel de energía solar está fuertemente estrecho, por lo que podemos decir que a un mayor índice de rayos UV registrados, podemos encontrar una que se registra un mayor nivel de energía solar, así como que a un menor nivel de Rayos UV podemos encontrar un menor registro de Energías Solares - Agrupamiento - Clustering (K-means) El siguiente análisis se utilizó la herramienta de Orange para para cargar los datos del dataset meteorológico de Morelia. Podemos observar cómo es que, al cargar los datos de nuestro dataset, el Software de Orange, nos detecta los valores por su tipo, como número y como cadenas los correspondientes. Seguido de esto, creamos un widget nuevo donde agregamos el uso del K-Means, aquí el mismo Software nos identifica cual es el número de clúster preferibles En nuestro caso notamos que se recomienda el uso de 2, 3 y hasta 8 clúster, por lo que aquí deberíamos intervenir nosotros para elegir el que consideremos más adecuado. Después de realizar esto, podemos ver cómo es que el software de Orange nos arroja las mejores correlaciones que ve dentro del clúster, en este caso podemos ver como tenemos de primer lugar con un mayor puntaje la correlación entre el Índice de calor y la alta temperatura, siendo que estos también corresponden a los datos con mayor correlación en nuestro estudio Heat Índex con Hi Temp En este caso podemos como dentro de nuestro análisis vemos que nuestro software señala 2 clústeres uno con aglomerado en la parte baja e izquierda y la otra en la parte alta derecha, por lo que vemos una alta relación y podemos indicar que, si dentro de nuestras variables tenemos un registro de una alta temperatura, es muy probable que nuestro índice de calor también sea alto. UV Índex con Solar Energy Dentro de este análisis podemos observar que se encuentran de igual manera dos conglomerados, donde vemos que se registran a manera de que se genera uno en la parte inferior izquierda y otro en la parte superior derecha, con esto podemos indicar que a mayor índice de rayos UV tendremos un mayor registro de energía solar y así con un nivel bajo de rayos UV, tendremos un menor registro de energía solar - Conclusiones (cierre) Después de realizar todos los análisis anteriores, se llegó a los siguientes Dashboards Dashboard – visualización de estudios de preprocesamiento de datos En este Dashboard podemos observar como es que se ilustran los estudios de procesamiento de datos de nuestro dataset, podemos ver el estudio de alfa de Cronbach realizado en dos softwares diferentes como lo son Excel y SPSS, junto a los estudios de Correlaciones y al de agrupamiento de Clustering Dashboard de visualización de datos y relación de variables dentrodel dataset. En nuestro dashboard podemos visualizar como los siguientes puntos: Temperatura más alta promedio por mes Temperatura más baja promedio por mes La relación entre las temperaturas más altas y los índices de calor La relación entre los índices de rayos UV y Energía solar Y una tabla van los grados de calor entre los registros de UV más altos y los índices de UV registrados por mes Con el anterior Dashboard podemos llegar a las conclusiones de que los meses más calurosos son también los que presentan una alta cantidad de rayos UV, además de esto vemos la relación que tienen las altas temper4aturas con los índices de calor, por lo que podemos llegar a la aseveración de que al registrar una alta temperatura, hay una gran probabilidad de que también se haya registrado una alta cantidad de rayos UV así como que si se registra un alta cantidad de rayos UV también se registren una alta cantidad de energía solar
Compartir