Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Nombre del alumno: Antony Arturo García Pérez Matrícula: 2020690020 Carrera: Licenciatura en Ciencia de Datos Nombre de la materia: Minería de Datos Nombre del docente: Dr. José Luis Cendejas Valdez Parcial 2.- Proceso de minería de datos Sabinas, Coahuila 27/04/2022 - Título Importancia de los Índices UV en nuestra vida diaria - Introducción (identificación del problema a solucionar) Hemos detectado que en la actualidad la actividad solar es de suma importancia tanto para nuestra salud como para el desarrollo de nuestras actividades al día a día, por lo que se ha realizado un estudio en la ciudad de Morelia utilizando la central meteorológica para así tener un registro de las intensidades con las que se ve afectada nuestra ciudad. - Contenido (Pasos, aplicación de etapas y codificación) A continuación, vamos a describir brevemente cada una de las fases del modelo CRISP que se llevaron a cabo. Fase I. Business Understanding. Definición de necesidades del cliente (comprensión del negocio) Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos. Se comprende lo que nuestra empresa nos pide, en este caso la empresa que nos solicita el análisis es una empresa que se dedica a la producción de bloqueadores solares si será prudente abordar este tipo de mercado en la ciudad de Morelia, por lo que desea conocer cuáles son las características meteorológicas de la ciudad analizando las condiciones del ambiente, tanto en zonas donde se puede presentar una baja como alta cantidad de radiaciones solares. Fase II. Data Understanding. Estudio y comprensión de los datos La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta. Con el dataset proporcionado buscamos comprender qué es lo que nos muestra nuestro dataset, hablando respecto a qué significa cada una de las columnas y filas de nuestro dataset, así como el saber qué es lo que cada uno nos quiere decir, como ejemplo los campos de fecha y hora Fase III. Data Preparation. Análisis de los datos y selección de características La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan. Al pasarnos al preprocesamiento de los datos, optamos por ver cuáles son las secciones que nos interesan, así como las columnas y los atributos que consideremos relevantes, en este caso, como buscamos conocer las condiciones solares, tomamos en cuenta los índices de rayos UV que golpean la zona, a su vez de la propia eliminación de los campos que correspondan a los horarios de noche, en los cuales no se cuenta con un sol que nos provea de radiaciones. Podemos observar cómo fue el cambio del dataset, antes de ser procesado, a diferencia de donde se seleccionaron las variables y columnas que de verdad nos interesan: Dataset antes de ser Preprocesado – Num. De registros 8916 Dataset después de ser Preprocesado – Num. De registros 5026 Además de esto, dentro de este paso se llevaron a cabo los siguientes estudios: - Confiabilidad (Alpha de Cronbach) El estudio de Confiabilidad (Alpha de Cronbach) se llevo a cabo en dos softwares distintos, siendo estos, Excel y SPSS, donde se obtuvieron los siguientes resultados: Estudio en Excel – Se obtuvo un resultado de .823, lo que indica una confiabilidad buena Estudio en SPSS – Se obtuvo un resultado de .823, lo que indica una confiabilidad buena - Correlaciones (Bivariada de Pearson) El estudio de Correlaciones (Bivariada de Pearson) se llevó a cabo en el software de SPSS, donde se obtuvieron los siguientes resultados: Estudio de correlaciones realizado en SPSS En este se obtuvieron las siguientes correlaciones fuertes: Heat Index con Hi Temp Dentro del análisis de correlación de las variables podemos ver que hay una fuerte relación entre las variables de Heat Index, la cual corresponde al índice de calor que se presenta en la ciudad y las variables de Hi Temp y Low Temp, ya que vemos que su valor de correlación es de .989, por lo que ambas variables se encuentran muy relacionadas, por lo que podemos llegar a la información de que a mayor nivel de Temperatura máxima, tanto de temperatura mínima, hay un más alto nivel de índice de calor. UV Index con Solar Energy A su vez podemos apreciar que el índice de rayos UV y que el nivel de energía solar está fuertemente estrecho, por lo que podemos decir que a un mayor índice de rayos UV registrados, podemos encontrar una que se registra un mayor nivel de energía solar, así como que a un menor nivel de Rayos UV podemos encontrar un menor registro de Energías Solares - Agrupamiento - Clustering (K-means) Fhvsbd El siguiente análisis se utilizó la herramienta de Orange para para cargar los datos del dataset meteorológico de Morelia. Podemos observar cómo es que, al cargar los datos de nuestro dataset, el Software de Orange, nos detecta los valores por su tipo, como número y como cadenas los correspondientes. Seguido de esto, creamos un widget nuevo donde agregamos el uso del K-Means, aquí el mismo Software nos identifica cual es el número de clúster preferibles En nuestro caso notamos que se recomienda el uso de 2, 3 y hasta 8 clúster, por lo que aquí deberíamos intervenir nosotros para elegir el que consideremos más adecuado. Después de realizar esto, podemos ver como es que el software de Orange nos arroja las mejores correlaciones que ve dentro del clúster, en este caso podemos ver como tenemos de primer lugar con un mayor puntaje la correlación entre el Índice de calor y la alta temperatura, siendo que estos también corresponden a los datos con mayor correlación en nuestro estudio Heat Index con Hi Temp En este caso podemos como dentro de nuestro análisis vemos que nuestro software señala 2 clústeres uno con aglomerado en la parte baja e izquierda y la otra en la parte alta derecha, por lo que vemos una alta relación y podemos indicar que, si dentro de nuestras variables tenemos un registro de una alta temperatura, es muy probable que nuestro índice de calor también sea alto. UV Índex con Solar Energy Dentro de este análisis podemos observar que se encuentran de igual manera dos conglomerados, donde vemos que se registran a manera de que se genera uno en la parte inferior izquierda y otro en la parte superior derecha, con esto podemos indicar que a mayor índice de rayos UV tendremos un mayor registro de energía solar y así con un nivel bajo de rayos UV, tendremos un menor registro de energía solar - Conclusiones (cierre) Al realizar el anterior estudio se llegó a las conclusiones de que el comportamiento de los rayos tanto UV como de energía solar en la ciudad de Morelia se encuentran relacionados altamente, así como a la cantidad de rayos UV como a los registros de una mayor temperatura, por lo que se recomienda a toda la población extremar precauciones especialmente en los meses más calurosos del año, aunado a esto se obtuvieron registros especialmente altos de Rayos UV en meses donde no se suele hacer tanto énfasis, como los son los meses de Abril como Diciembre, ya que estos muestran una cantidad alta deÍndices UV.
Compartir