Parcial 2 - Proceso de minería de datos

•

IPN

Antony Arturo García Pérez

6/6/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Big Data

5903 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Nombre del alumno: Antony Arturo García Pérez 
 
Matrícula: 2020690020 
 
Carrera: Licenciatura en Ciencia de Datos 
 
Nombre de la materia: Minería de Datos 
 
 
 
Nombre del docente: Dr. José Luis Cendejas Valdez 
 
 
Parcial 2.- Proceso de minería de datos 
 
 
 
Sabinas, Coahuila 27/04/2022 
- Título 
Importancia de los Índices UV en nuestra vida diaria 
- Introducción (identificación del problema a solucionar) 
Hemos detectado que en la actualidad la actividad solar es de suma importancia tanto 
para nuestra salud como para el desarrollo de nuestras actividades al día a día, por lo 
que se ha realizado un estudio en la ciudad de Morelia utilizando la central meteorológica 
para así tener un registro de las intensidades con las que se ve afectada nuestra ciudad. 
- Contenido (Pasos, aplicación de etapas y codificación) 
A continuación, vamos a describir brevemente cada una de las fases del modelo CRISP 
que se llevaron a cabo. 
Fase I. Business Understanding. Definición de necesidades del cliente 
(comprensión del negocio) 
Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se 
convierte este conocimiento de los datos en la definición de un problema de minería de 
datos y en un plan preliminar diseñado para alcanzar los objetivos. 
Se comprende lo que nuestra empresa nos pide, en este caso la empresa que nos solicita 
el análisis es una empresa que se dedica a la producción de bloqueadores solares si 
será prudente abordar este tipo de mercado en la ciudad de Morelia, por lo que desea 
conocer cuáles son las características meteorológicas de la ciudad analizando las 
condiciones del ambiente, tanto en zonas donde se puede presentar una baja como alta 
cantidad de radiaciones solares. 
 
Fase II. Data Understanding. Estudio y comprensión de los datos 
La fase de entendimiento de datos comienza con la colección de datos inicial y continúa 
con las actividades que permiten familiarizarse con los datos, identificar los problemas 
de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos 
interesantes para formar hipótesis en cuanto a la información oculta. 
Con el dataset proporcionado buscamos comprender qué es lo que nos muestra nuestro 
dataset, hablando respecto a qué significa cada una de las columnas y filas de nuestro 
dataset, así como el saber qué es lo que cada uno nos quiere decir, como ejemplo los 
campos de fecha y hora 
 
Fase III. Data Preparation. Análisis de los datos y selección de características 
La fase de preparación de datos cubre todas las actividades necesarias para construir el 
conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a 
partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros 
y atributos, así como la transformación y la limpieza de datos para las herramientas que 
modelan. 
Al pasarnos al preprocesamiento de los datos, optamos por ver cuáles son las secciones 
que nos interesan, así como las columnas y los atributos que consideremos relevantes, 
en este caso, como buscamos conocer las condiciones solares, tomamos en cuenta los 
índices de rayos UV que golpean la zona, a su vez de la propia eliminación de los campos 
que correspondan a los horarios de noche, en los cuales no se cuenta con un sol que 
nos provea de radiaciones. 
Podemos observar cómo fue el cambio del dataset, antes de ser procesado, a diferencia 
de donde se seleccionaron las variables y columnas que de verdad nos interesan: 
 
Dataset antes de ser Preprocesado – Num. De registros 8916 
 
Dataset después de ser Preprocesado – Num. De registros 5026 
 
Además de esto, dentro de este paso se llevaron a cabo los siguientes estudios: 
- Confiabilidad (Alpha de Cronbach) 
El estudio de Confiabilidad (Alpha de Cronbach) se llevo a cabo en dos softwares 
distintos, siendo estos, Excel y SPSS, donde se obtuvieron los siguientes resultados: 
 
Estudio en Excel – Se obtuvo un resultado de .823, lo que indica una confiabilidad 
buena 
 
Estudio en SPSS – Se obtuvo un resultado de .823, lo que indica una confiabilidad 
buena 
- Correlaciones (Bivariada de Pearson) 
El estudio de Correlaciones (Bivariada de Pearson) se llevó a cabo en el software de 
SPSS, donde se obtuvieron los siguientes resultados: 
 
Estudio de correlaciones realizado en SPSS 
En este se obtuvieron las siguientes correlaciones fuertes: 
Heat Index con Hi Temp 
Dentro del análisis de correlación de las variables podemos ver que hay una fuerte 
relación entre las variables de Heat Index, la cual corresponde al índice de calor que se 
presenta en la ciudad y las variables de Hi Temp y Low Temp, ya que vemos que su 
valor de correlación es de .989, por lo que ambas variables se encuentran muy 
relacionadas, por lo que podemos llegar a la información de que a mayor nivel de 
Temperatura máxima, tanto de temperatura mínima, hay un más alto nivel de índice de 
calor. 
UV Index con Solar Energy 
A su vez podemos apreciar que el índice de rayos UV y que el nivel de energía solar está 
fuertemente estrecho, por lo que podemos decir que a un mayor índice de rayos UV 
registrados, podemos encontrar una que se registra un mayor nivel de energía solar, así 
como que a un menor nivel de Rayos UV podemos encontrar un menor registro de 
Energías Solares 
 
- Agrupamiento - Clustering (K-means) 
Fhvsbd 
El siguiente análisis se utilizó la herramienta de Orange para para cargar los datos del 
dataset meteorológico de Morelia. 
 
Podemos observar cómo es que, al cargar los datos de nuestro dataset, el Software de 
Orange, nos detecta los valores por su tipo, como número y como cadenas los 
correspondientes. 
Seguido de esto, creamos un widget nuevo donde agregamos el uso del K-Means, aquí 
el mismo Software nos identifica cual es el número de clúster preferibles 
 
 
En nuestro caso notamos que se recomienda el uso de 2, 3 y hasta 8 clúster, por lo que 
aquí deberíamos intervenir nosotros para elegir el que consideremos más adecuado. 
 
Después de realizar esto, podemos ver como es que el software de Orange nos arroja 
las mejores correlaciones que ve dentro del clúster, en este caso podemos ver como 
tenemos de primer lugar con un mayor puntaje la correlación entre el Índice de calor y la 
alta temperatura, siendo que estos también corresponden a los datos con mayor 
correlación en nuestro estudio 
 
Heat Index con Hi Temp 
En este caso podemos como dentro de nuestro análisis vemos que nuestro software 
señala 2 clústeres uno con aglomerado en la parte baja e izquierda y la otra en la parte 
alta derecha, por lo que vemos una alta relación y podemos indicar que, si dentro de 
nuestras variables tenemos un registro de una alta temperatura, es muy probable que 
nuestro índice de calor también sea alto. 
 
UV Índex con Solar Energy 
Dentro de este análisis podemos observar que se encuentran de igual manera dos 
conglomerados, donde vemos que se registran a manera de que se genera uno en la 
parte inferior izquierda y otro en la parte superior derecha, con esto podemos indicar que 
a mayor índice de rayos UV tendremos un mayor registro de energía solar y así con un 
nivel bajo de rayos UV, tendremos un menor registro de energía solar 
 
- Conclusiones (cierre) 
Al realizar el anterior estudio se llegó a las conclusiones de que el comportamiento de 
los rayos tanto UV como de energía solar en la ciudad de Morelia se encuentran 
relacionados altamente, así como a la cantidad de rayos UV como a los registros de una 
mayor temperatura, por lo que se recomienda a toda la población extremar precauciones 
especialmente en los meses más calurosos del año, aunado a esto se obtuvieron 
registros especialmente altos de Rayos UV en meses donde no se suele hacer tanto 
énfasis, como los son los meses de Abril como Diciembre, ya que estos muestran una 
cantidad alta deÍndices UV.