Parcial 3 Desarrollo de proceso de minería de datos

•

IPN

Antony Arturo García Pérez

6/6/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Big Data

5877 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Nombre del alumno: Antony Arturo García Pérez
Matrícula: 2020690020
Carrera: Licenciatura en Ciencia de Datos
Nombre de la materia: Minería de Datos
Nombre del docente: Dr. José Luis Cendejas Valdez
Parcial 3. Desarrollo de proceso de minería de datos
Sabinas, Coahuila							10/06/2022
- Introducción
El mundo del Gaming es una industria de gran crecimiento. Cada año se invierten millones de dólares en Esports y muchas empresas nuevas quieren invertir en la escena de Esports ahora. Una de las ofertas más grandes de la historia fue cuando Mixer se abrió y trajo a Ninja y Shroud a su plataforma desde twitch. Pero Twitch ha sido el hogar de los streamers desde el día 1 y ahora que Mixer se cerró, los streamers están regresando a la plataforma nuevamente. Millones, si no miles de millones ven transmisiones de twitch todos los días y a mí me gusta ver transmisiones de twitch. Así que a continuación se reúnen las estadísticas de los Top 1000 Streamers del último año que trasmitieron por Twitch. 
- Contenido (Pasos, aplicación de etapas y codificación)
A continuación, se describe brevemente cada una de las fases del modelo CRISP-DM que se llevaron a cabo, como se muestra en la Imagen 1.
Imagen 1. Modelo CRISP-MD
Fase I. Business Understanding. Definición de necesidades del cliente (comprensión del negocio)
Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos.
Dentro de esta fase se comprende lo que nuestra empresa nos pide, en este caso la empresa que nos solicita realizar un análisis del crecimiento de los diversos creadores de contenido que se encuentran dentro de la plataforma de Twitch, esto para contemplar que tan buena proyección se le ve a dicha industria de los videojuegos
Fase II. Data Understanding. Estudio y comprensión de los datos
La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.
Con la información proporcionada buscamos comprender qué es lo que nuestro data set, busca decirnos, respecto a qué significa cada una de las columnas y filas de nuestro data set.
Dentro del caso que se trabaja podemos darnos cuenta de la distribución que se tiene de filas y columnas, siendo que en cuestión de filas se tiene al usuario único de cada uno de los creadores de contenido y en las filas tenemos los diferentes atributos a medir de ellos
Fase III. Data Preparation. Análisis de los datos y selección de características
La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan.
Al pasar al preprocesamiento de los datos, se opta por ver cuáles son las secciones que resultan interesantes, así como las columnas y los atributos que se consideran relevantes, en nuestro caso, se contemplaron como útiles las columnas de atributos, además de esto se agregaron dos columnas más donde se intenta calcular un aproximado de la ganancia que se tuvo de la característica de seguidores pagados mediante la plataforma, la cual se considera como una de las diversas fuentes de ingreso que tienen este tipo de usuarios
En la Tabla 1 podemos observar el data set antes de ser preprocesado, mientras que en la Tabla 2 podemos observarlo una vez procesado:
Tabla 1. Data set antes de ser Preprocesado
Tabla 2. Data set después de ser Preprocesado 
Además de esto, dentro de este paso se llevaron a cabo los siguientes estudios:
- Confiabilidad (Alpha de Cronbach)
El estudio de Confiabilidad (Alpha de Cronbach) se llevó a cabo en dos softwares distintos, siendo estos, Excel y SPSS. En la Tabla 3 y Figura 2, podemos observar los siguientes resultados:
Tabla 3. Estudio en Excel – Se obtuvo un resultado de .577, lo que indica una confiabilidad buena
Figura 2. Estudio en SPSS – Se obtuvo un resultado de .577, lo que indica una confiabilidad moderada
- Correlaciones (Bivariada de Pearson)
El estudio de Correlaciones (Bivariada de Pearson) se llevó a cabo en el software de SPSS. En la Figura 4 se puede observar los resultados que se obtuvieron:
Tabla 4. Estudio de correlaciones realizado en SPSS
En este se obtuvieron las siguientes correlaciones altas y moderadas:
Followers y estimación en dlls
Esta relación es especial debido a que la relación que se tiene entre la estimación de la ganancia de los usuarios es estrechamente relacionada con la cantidad de followers que estos tienen, siendo una de las maneras más acertadas de medir una de las diversas fuentes de ingresos que estos tienen
Viewers promedio y Pico de viewers
Podemos encontrar una alta relación entre la cantidad promedio de Viewers que se tengan registrados y el pico de Viewers, por lo que podemos afirmar que a mayor promedio de viewers, se tienen registros de un mayor pico de estos
Followers y Watch Time
La relación que estos poseen es alta debido a que el que un usuario sea follower significa que tiene una afinidad a dicho streamer, por lo que esto conlleva a que quiera aprovechar a su máximo la suscripción mensual (follow) que tiene al streamer
- Agrupamiento - Clustering (K-means)
En la figura 3 se muestra el siguiente análisis, donde se utilizó la herramienta de Orange para cargar los datos de la data set de estadísticas de Twitch.
Figura 3. Lectura de la data set en Orange
Podemos observar cómo es que, al cargar los datos de nuestro data set, el Software de Orange, nos detecta los valores por su tipo, como número y como cadenas los correspondientes.
Seguido de esto, en la Figura 4 y 5, creamos un widget nuevo donde agregamos el uso del K-Means, aquí el mismo Software nos identifica cual es el número de clúster preferibles
Figura 4. En nuestro caso notamos que se recomienda el uso de 2, 3 y hasta 8 clúster, por lo que aquí deberíamos intervenir nosotros para elegir el que consideremos más adecuado.
Figura 5. Después de realizar esto, podemos ver cómo es que el software de Orange nos arroja las mejores correlaciones que ve dentro del clúster, siendo que estos también corresponden a los datos con mayor correlación en nuestro estudio
Followers con Peak viewers
En este caso podemos ver en la Figura 6, como dentro de nuestro análisis vemos que nuestro software señala 2 clústeres uno con aglomerado en la parte baja e izquierda y la otra en la parte alta derecha, por lo que vemos una alta relación y podemos indicar que, si dentro de nuestras variables tenemos un registro de una alta cantidad de seguidores, es muy probable que nuestros picos de visitas sean también más altos, esto debido al interés que estos pueden mostrar a la hora de seguir a los streamers.
Figura 6. Clústeres obtenidos
estimación de ganancias con Followers ganados
Dentro de este análisis, en la Figura 7 podemos observar que se encuentran de igual manera dos conglomerados, donde vemos que se registran a manera de que se genera uno en la parte inferior izquierda y otro en la parte superior derecha, con esto podemos indicar que a un incremento dentro de los números de seguidores ganados significa un aumento en la estimación de ganancias dentro de los directos
Figura 7. Clúster estimación de ganancias con followers ganados
- Red Neuronal
En esta ocasión vamos a crear una red neuronal de un data set, en este caso haremos utilización de la data set de estadísticas de Twitch cargado de manera predeterminada en Orange.
- Carga del Data set en Orange
Se carga como se muestra en la Figura 8, se carga el data set de las estadísticasde Twitch que anteriormente se ha trabajado
Figura 8. Carga del widget de file dentro de Orange
- Preprocesamiento del Data set dentro de Orange
Utilizando la herramienta de Orange se opta por un preprocesamiento a valores de ceros y unos como se observa en la Figura 9.
Figura 9. Preprocesamiento de la data set dentro de Orange con el widget de Preprocess
- Selección de las variables Data set
Utilizando la herramienta de Orange se seleccionan las variables que nos servirán como filtros y las variables que nos servirán como variables objetivo, visto en la Figura 10.
Figura 10. Selección de las variables que se tomarán en cuenta con el widget Select Column, esto nos sirve para seleccionar aquí los objetivos que buscamos en el análisis
- Determinación de los porcentajes a destinar como de prueba y de entrenamiento
Utilizando la herramienta de Orange se seleccionan el porcentaje de datos y registros que se usarán como datos de entrenamiento y los datos utilizados como prueba. En la figura 11 podemos ver el uso del widget correspondiente.
Figura 11. Toma de porcentajes de datos para entrenamiento y de prueba con el widget de Data Sampler
- Programación de la red neuronal
Utilizando la herramienta de Orange programan las características con las que se va a trabajar la red neuronal. En la figura 12 podemos ver su programación.
Figura 12. Programación de la red neuronal para que se utilicen tres capas con el widget de Neuronal Network
- Predicciones de la red neuronal
La herramienta de Orange a su vez nos permite dar a conocer las predicciones que este nos da. En la Figura 13 podemos apreciar las predicciones que nos da.
Figura 13. Se puede apreciar las predicciones que nos presenta la herramienta de Orange con nuestro data set con nuestra Red neuronal, dentro de este podemos ver cuales son los canales y las combinaciones de Idiomas y horas de streaming que son más eficientes a la hora de buscar una mayor cantidad de ingresos
- Conclusiones
Al realizar el anterior estudio se llegó a las conclusiones de que como se pensaba, las empresas de los videojuegos y el streaming de estos está cobrando una gran importancia a día de hoy, a su vez entendimos como es que las estadísticas de los mejores streamers puede ayudarnos a entender cómo cual es el camino que los pequeños o nuevos usuarios deben de seguir para así qué enfoques son los que estos deben de seguir o tomar en cuenta al intentar crecer o replicar lo que hacen los grandes, Se entendió también que los idiomas más pagados y mejor vistos son el Inglés, el Español y el Coreano, esto debido a que gracias al data set que reúne a la información de los más grandes streamers pudimos detectar esta constante en ellos.