Parcial 2 - Desarrollo de Dashboard para la visualización de datos del proceso de minería de datos

•

IPN

0

Antony García

6/6/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estructura de Datos I

23.983 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Nombre del alumno: Antony Arturo García Pérez
Matrícula: 2020690020
Carrera: Licenciatura en Ciencia de Datos
Nombre de la materia: Minería de Datos
Nombre del docente: Dr. José Luis Cendejas Valdez
Parcial 2.- Desarrollo de Dashboard para la visualización de datos del proceso de minería de datos
Sabinas, Coahuila							29/04/2022
- Título
Importancia de los Índices UV en nuestra vida diaria
- Introducción (identificación del problema a solucionar)
Hemos detectado que en la actualidad la actividad solar es de suma importancia tanto para nuestra salud como para el desarrollo de nuestras actividades al día a día, por lo que se ha realizado un estudio en la ciudad de Morelia utilizando la central meteorológica para así tener un registro de las intensidades con las que se ve afectada nuestra ciudad.
Por lo que para poder presentar la información recabada se está solicitando la creación de un Dashboard donde se recopilen y se muestren los datos a ilustrar.
- Contenido (Pasos, aplicación de etapas y codificación)
A continuación, vamos a describir brevemente cada una de las fases del modelo CRISP que se llevaron a cabo.
Fase I. Business Understanding. Definición de necesidades del cliente (comprensión del negocio)
Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos.
Se comprende lo que nuestra empresa nos pide, en este caso la empresa que nos solicita el análisis es una empresa que se dedica a la producción de bloqueadores solares si será prudente abordar este tipo de mercado en la ciudad de Morelia, por lo que desea conocer cuáles son las características meteorológicas de la ciudad analizando las condiciones del ambiente, tanto en zonas donde se puede presentar una baja como alta cantidad de radiaciones solares.
Al momento de dar a conocer nuestro análisis se busca la utilización de un Dachboard ya que con este se va a poder visualizar de mejor manera los datos y relaciones recabadas
Fase II. Data Understanding. Estudio y comprensión de los datos
La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.
Con el dataset proporcionado buscamos comprender qué es lo que nos muestra nuestro dataset, hablando respecto a qué significa cada una de las columnas y filas de nuestro dataset, así como el saber qué es lo que cada uno nos quiere decir, como ejemplo los campos de fecha y hora
Fase III. Data Preparation. Análisis de los datos y selección de características
La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan.
Al pasarnos al preprocesamiento de los datos, optamos por ver cuáles son las secciones que nos interesan, así como las columnas y los atributos que consideremos relevantes, en este caso, como buscamos conocer las condiciones solares, tomamos en cuenta los índices de rayos UV que golpean la zona, a su vez de la propia eliminación de los campos que correspondan a los horarios de noche, en los cuales no se cuenta con un sol que nos provea de radiaciones.
Podemos observar cómo fue el cambio del dataset, antes de ser procesado, a diferencia de donde se seleccionaron las variables y columnas que de verdad nos interesan:
Dataset antes de ser Preprocesado – Núm. De registros 8916
Dataset después de ser Preprocesado – Núm. De registros 5026
Además de esto, dentro de este paso se llevaron a cabo los siguientes estudios:
- Confiabilidad (Alpha de Cronbach)
El estudio de Confiabilidad (Alpha de Cronbach) se llevó a cabo en dos softwares distintos, siendo estos, Excel y SPSS, donde se obtuvieron los siguientes resultados:
Estudio en Excel – Se obtuvo un resultado de .823, lo que indica una confiabilidad buena
Estudio en SPSS – Se obtuvo un resultado de .823, lo que indica una confiabilidad buena
- Correlaciones (Bivariado de Pearson)
El estudio de Correlaciones (Bivariado de Pearson) se llevó a cabo en el software de SPSS, donde se obtuvieron los siguientes resultados:
Estudio de correlaciones realizado en SPSS
En este se obtuvieron las siguientes correlaciones fuertes:
Heat Índex con Hi Temp
Dentro del análisis de correlación de las variables podemos ver que hay una fuerte relación entre las variables de Heat Índex, la cual corresponde al índice de calor que se presenta en la ciudad y las variables de Hi Temp y Low Temp, ya que vemos que su valor de correlación es de .989, por lo que ambas variables se encuentran muy relacionadas, por lo que podemos llegar a la información de que a mayor nivel de Temperatura máxima, tanto de temperatura mínima, hay un más alto nivel de índice de calor.
UV Índex con Solar Energy
A su vez podemos apreciar que el índice de rayos UV y que el nivel de energía solar está fuertemente estrecho, por lo que podemos decir que a un mayor índice de rayos UV registrados, podemos encontrar una que se registra un mayor nivel de energía solar, así como que a un menor nivel de Rayos UV podemos encontrar un menor registro de Energías Solares
- Agrupamiento - Clustering (K-means)
El siguiente análisis se utilizó la herramienta de Orange para para cargar los datos del dataset meteorológico de Morelia.
Podemos observar cómo es que, al cargar los datos de nuestro dataset, el Software de Orange, nos detecta los valores por su tipo, como número y como cadenas los correspondientes.
Seguido de esto, creamos un widget nuevo donde agregamos el uso del K-Means, aquí el mismo Software nos identifica cual es el número de clúster preferibles
En nuestro caso notamos que se recomienda el uso de 2, 3 y hasta 8 clúster, por lo que aquí deberíamos intervenir nosotros para elegir el que consideremos más adecuado.
Después de realizar esto, podemos ver cómo es que el software de Orange nos arroja las mejores correlaciones que ve dentro del clúster, en este caso podemos ver como tenemos de primer lugar con un mayor puntaje la correlación entre el Índice de calor y la alta temperatura, siendo que estos también corresponden a los datos con mayor correlación en nuestro estudio
Heat Índex con Hi Temp
En este caso podemos como dentro de nuestro análisis vemos que nuestro software señala 2 clústeres uno con aglomerado en la parte baja e izquierda y la otra en la parte alta derecha, por lo que vemos una alta relación y podemos indicar que, si dentro de nuestras variables tenemos un registro de una alta temperatura, es muy probable que nuestro índice de calor también sea alto.
UV Índex con Solar Energy
Dentro de este análisis podemos observar que se encuentran de igual manera dos conglomerados, donde vemos que se registran a manera de que se genera uno en la parte inferior izquierda y otro en la parte superior derecha, con esto podemos indicar que a mayor índice de rayos UV tendremos un mayor registro de energía solar y así con un nivel bajo de rayos UV, tendremos un menor registro de energía solar
- Conclusiones (cierre)
Después de realizar todos los análisis anteriores, se llegó a los siguientes Dashboards
Dashboard – visualización de estudios de preprocesamiento de datos
En este Dashboard podemos observar como es que se ilustran los estudios de procesamiento de datos de nuestro dataset, podemos ver el estudio de alfa de Cronbach realizado en dos softwares diferentes como lo son Excel y SPSS, junto a los estudios de Correlaciones y al de agrupamiento de Clustering
Dashboard de visualización de datos y relación de variables dentrodel dataset.
En nuestro dashboard podemos visualizar como los siguientes puntos:
Temperatura más alta promedio por mes
Temperatura más baja promedio por mes
La relación entre las temperaturas más altas y los índices de calor
La relación entre los índices de rayos UV y Energía solar
Y una tabla van los grados de calor entre los registros de UV más altos y los índices de UV registrados por mes
Con el anterior Dashboard podemos llegar a las conclusiones de que los meses más calurosos son también los que presentan una alta cantidad de rayos UV, además de esto vemos la relación que tienen las altas temper4aturas con los índices de calor, por lo que podemos llegar a la aseveración de que al registrar una alta temperatura, hay una gran probabilidad de que también se haya registrado una alta cantidad de rayos UV así como que si se registra un alta cantidad de rayos UV también se registren una alta cantidad de energía solar