Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD DE GUADALAJARA CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS DEPARTAMENTO DE CIENCIAS COMPUTACIONALES INTEGRANTES: SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409 SALDIVAR FONSECA FRANCISCO – INNI – 215408162 HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982 MINERÍA DE DATOS PROFESOR: GODINEZ ROMAN ISRAEL SECCIÓN D01 – CICLO ESCOLAR 2021 - B ACTIVIDAD 3.1 Entendimiento del negocio Dataset: https://www.kaggle.com/arashnic/cinema-ticket a. Objetivos del negocio i. Antecedentes Cinépolis es una empresa mexicana, fundada en Morelia en 1971, es líder de la industria cinematográfica y del entretenimiento en México y Latinoamérica. Actualmente es la cuarta cadena más grande a nivel mundial, la segunda más grande en venta de entradas, la primera en entradas vendidas por sala y la más importante fuera de los Estados Unidos. Al día de hoy cuenta con 27 cines en la ciudad de Guadalajara, recaudando un estimado de $2,000,000 de pesos al mes, con una colaboración de 580 personas. Se mejorarán las ventas totales en conjunto del total de cines en Guadalajara. ii. Objetivo comercial o de investigación del proyecto Este proyecto se enfocara en la ciudad de guadalajara, sus objetivos principales es aumentar las ventas un 5% mediante la proyección adecuada de cada cine sobre la demanda de cada género, además de poder predecir las mejores ubicaciones para abrir tres nuevas localizaciones lo mejor distribuidas posibles. ● Recomendación de género cinematográfico para cines: recomendaciones basadas en sus diferentes ubicaciones, temporadas. ● Recomendación de ubicación de próximos cines: predicción de futuras locaciones que resulten exitosas dentro de los lineamientos del negocio. iii. Criterios de rendimiento Los criterios de éxito al finalizar el proyecto los cuales nos dirán que tan efectiva es la aplicación de nuestro modelo de minería de datos serán: ● Retornos sobre la inversión (ROI) para cada una de las tres nuevas locaciones que se pretenden realizar. ● Volumen total de ventas. Página | 2 ● Logro de objetivos: resultado del periodo de 2 meses v.s. los objetivos del periodo anterior. ● Cuota del territorio: participación en # de empresas en el mercado total de la empresa nacional. ● Resultados de nuevas categorías: cifras de nuevas categorías por género estratégicas para la empresa / negocio. b. Valoración de la situación i. Inventario de recursos ● Datos, conocimiento y herramientas Tipo de datos e información que almacenan. ➢ Unique movie id definido como unique_film que representa el número único de identificación de la película en cuestión, el tipo de información que almacena, son datos de tipo discreto y nominales. ➢ Unique cinema id definido como cinema_code que representa el número de identificación único del cine en cuestión, el tipo de información que almacena, son datos de tipo discreto y nominales. ➢ total sale per screening time definido como total_sales que representa el total de ventas por tiempo de reproducción, es de tipo discreto y nominal. ➢ number of tickets solds definido como tickets_sold que representa el número de tickets vendidos, es de tipo discreto y nominal. ➢ Number of tickets cancelled definido como tickets_out que representa el número de tickets cancelados, es de tipo discreto y nominal. ➢ screening time in each day definido como show_time que representa el número de horas de reproducción de una película en un dia, es de tipo discreto y continuo. Página | 3 ➢ occupation percent of cinema by means of available capacity definido como occu_perc que representa el porcentaje del cine que ha sido ocupado de acuerdo a su capacidad, es de tipo continuo. ➢ price of ticket at show time definido como ticket_price que representa el precio de la entrada en el momento de la función, es de tipo continuo. ➢ total number of thicket used definido como ticket_use que representa el total de entradas utilizadas, es de tipo discreto y nominal. ➢ capacity of the cinema definido como capacity que representa la capacidad total aproximada del cine, es de tipo continuo. ➢ date que representa la fecha en que fue presentado el film, es de tipo discreto e intervalo. ➢ month que representa el mes en que fue presentado el film, es de tipo, discreto y nominal. ➢ quarter que representa la estación o temporada del año en que fue emitido el film, siendo estos los trimestres, es de tipo, discreto y nominal. ➢ day que representa el día en que fue presentado el film, es de tipo discreto y nominal. Herramientas disponibles y conocimiento relevante. Algoritmos de agrupamiento como: ➢ K-means: también utiliza las distancias entre puntos. Librerías o módulos de python dedicadas al aprendizaje automático como: ➢ Scikit Learn Librerías o módulos de python dedicadas a la lectura de de datos como: ➢ Pandas Otras herramientas dedicadas al aprendizaje automático, con algoritmos y funciones pre-cargadas y configuradas para su uso de forma simple y entendible como: ➢ Orange Página | 4 Existen problemas para acceder a los datos. ● Personal de administración del proyecto ➢ Fernando Cesar Sandoval Padilla Contacto: fernando.sandoval6854@alumnos.udg.mx ➢ Francisco Saldivar Fonseca Contacto: francisco.saldivar4081@alumnos.udg.mx ➢ Luis Angel Hernandez Sanchez Contacto: langel.hernandez@alumnos.udg.mx ii. Requisitos, supuestos y restricciones ● Requisitos: Se desea que se entreguen reportes semanales de los resultados de la implementación del algoritmo de agrupamiento al personal con el fin de que puedan implementar sus estrategias por medio de la información recabada. ● Supuestos - Se desea que el modelo a implementar sea fácil de visualizar e interpretar por el personal de marketing. - Algunos de los atributos en el dataset son incomprensibles debido al tipo de métrica que se está utilizando en ellos. ● Restricciones - La elaboración de este proyecto está limitado por motivos de tiempo debido a que es un proyecto que se planea resolver en 3 meses y el tiempo de elaboración es mucho más corto debido a que resta poco tiempo en el semestre. - En cuestión del desarrollo del modelo está la limitante de que es la primera vez que nos enfrentamos a un problema de minería de datos lo cual significa que somos inexpertos en el tema. iii. Riesgos y contingencias ● ¿Qué hacer si el proyecto dura más del tiempo programado? Página | 5 Si el tiempo estimado por el equipo de trabajo se observa que no es el adecuado por distintos factores, se tratará de llegar a un común acuerdo con la empresa, para poder aplazar la fecha de entrega de los resultados esperados al finalizar el proyecto. ● ¿Qué hacer si el cliente se queda sin presupuesto? Al comienzo del proyecto se estima un presupuesto final el cual se espera cubra el total de los gastos necesarios para realizar el proyecto, si por alguna razón es necesario cubrir algún gasto adicional se abordara este tema con la empresa en cuestión y se tratará de cubrir, en dado caso que no se llegue a un común acuerdo se optará por realizar los cambios necesarios. ● ¿Qué hacer si los datos son de escasa calidad o cobertura? Al comienzo del proyecto de acuerdo con las necesidades del cliente se realiza una especificación de requerimientos la cual debe ser cubierta con los datos otorgados por la empresa, en dado caso que no se haya tomado en cuenta ciertos datos necesarios para la realización del proyecto o son de escasa calidad se optara por realizar una junta con el administrador de las bases de datos. ● ¿Qué sucede si los resultados son menos de lo esperado? Si los resultados no son los esperados o no son los más óptimos, en dado caso que se tenga con tiempo disponible se optara por realizar ciertas modificaciones que van desde reorganizar el plan de proyecto o alguna fase dentro del proyecto hasta actualizar los procesos dentro del modelo que puedan mejorar los resultados. En dado caso que no se tenga tiempo disponible, se esperapoder llegar a un acuerdo para aplazar una nueva fecha del proyecto, tomando en cuenta nuevas decisiones. iv. Terminología Página | 6 TERMINOLOGÍA EMPRESA: ● KPI es la sigla en inglés para referirse a los indicadores de calidad o indicadores clave de negocio. Las KPI’s son una serie de métricas que se utilizan para medir la eficiencia y productividad de las acciones que se lleven a cabo en un negocio. ● ROI: El Retorno Sobre la Inversión es un indicador que permite calcular la rentabilidad de las inversiones hechas por una empresa. El ROI facilitará el análisis de los resultados de las inversiones para saber cuáles valen la pena, cuáles no y cuáles se podrán optimizar para generar más ganancias. ● Ticket medio: Es el valor medio que gastan los clientes cuando compran los productos o servicios y se calcula dividiendo el total de las ventas realizadas por el número de pedidos. ● Customer Relationship Management (CRM por sus siglas en inglés) es un gestor de relaciones con los clientes. Se trata de un sistema que facilita las actividades diarias de una empresa; esto permite enfocarse en lo importante, incrementar las ventas. ● ARR: Es una medida de los componentes de ingresos previsibles y recurrentes del flujo de ingresos, como suscripciones o mantenimiento. Es importante considerar que los ingresos recurrentes anuales siempre excluyen las comisiones únicas. TERMINOLOGÍA MINERÍA DE DATOS: ● Algoritmo. En Ciencias de la Computación, un algoritmo es un conjunto de pasos para realizar una tarea. En otras palabras, una secuencia Página | 7 lógica y con instrucciones que forman una fórmula matemática o estadística para realizar el análisis de datos. ● Data mining o minería de datos. Data Mining (minería de datos) es también conocida como Knowledge Discovery in database (KDD). Es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc. Los patrones deben ser válidos, potencialmente útiles y entendibles. ● Machine learning (Aprendizaje automático). Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial, donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención de poder predecir comportamientos futuros. ● Python: Es un lenguaje de programación multiparadigma que se utiliza en la ciencia de datos. Python se utiliza para denominar a las librerías especializadas en automatic learning y generación de gráficos. ● Clustering es una técnica utilizada en minería de datos (dentro del área de la Inteligencia Artificial) para identificar de forma automática agrupaciones (clústeres) de elementos de acuerdo a una medida de similitud entre ellos. Esta técnica también se conoce como segmentación. ● K-means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de “n” observaciones en “k” grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano, es un método utilizado en minería de datos. Página | 8 v. Análisis de costo/beneficio Costo: ○ Obtención de datos: La obtención de los datos no conlleva un costo monetario en cuestión, pues el costo para obtener la información es la asignación de nuestro tiempo de trabajo en el proyecto para la recolección del conjunto de datos que se utilizara. ○ Operativos: ■ Los sueldos o salarios de personal. ■ Los costos de combustible, como la energía para las operaciones, (electricidad, internet). ■ Mantenimiento de equipos. ■ Material de oficina y consumibles. ■ Oficinas en alquiler. Beneficio: o Objetivo completado de manera exitosa: Se aumentan las ventas en base a la proyección de cada cine en un 5% y además se predicen las mejores ubicaciones para abrir tres nuevas localizaciones lo mejor distribuidas posible. o Posibles beneficios de la comprensión de los datos y el negocio: El analista es capaz de ver otras áreas en las que es posible mejorar para poder obtener algún otro beneficio y aplicar alguna otra estrategia. ○ c. Objetivos de la minería de datos i. Metas de la minería de datos ● Aplicar el algoritmo de agrupamiento K-Means y la métrica de la silueta para la obtención de las proyecciones más adecuadas de acuerdo con la temporada Página | 9 del año, así como los valores atípicos, siendo estas las que vienen presentes en el atributo quarter de nuestro data set. ● Los resultados obtenidos al aplicar esta técnica tendrá validez de 3 meses, tomando como base el hecho de que los datos que manejamos son por temporadas, quiere decir que los agrupamientos varían debido al tiempo en que las proyecciones se encuentran en taquilla. ii. Criterio de rendimiento Se optó por seleccionar dos métricas de evaluación ya que el proyecto consta de un problema de agrupamiento utilizar como primer “métrica de silhouette” ya que es métrica evalúa la calidad del agrupamiento al examinar que tan bien están separados los grupos (clusters) y que tan compactos son. Además de utilizar el “error de cuadrático medio” se utiliza para referirse a la estimación insesgada de la varianza del error. d. Plan de proyecto i. Plan de proyecto ii. Valoración de herramientas técnicas Orange, módulos de python Scikit Learn y pandas. Orange: Software basado en componentes para la minería de datos y análisis predictivo. Página | 10 ● Ventajas: ○ Permite una programación visual y versátil para un análisis de datos. ○ Es amigable e intuitiva con el usuario. ○ Está abierta a todo tipo de usuarios ya sea aprendiz o avanzado. ○ Multiplataforma. ● Desventajas: ○ Únicamente permite conectar con MySQL y PostgreSQL. ○ Dependencia de Python. Pandas es una herramienta de código abierto, bajo licencia BSD, que da un alto desempeño y que es fácil de usar en Python, para así trabajar de forma fácil con datos estructurados como tablas, matrices y series de tiempo. ● Ventajas: ○ Viene integrado con Matplotlib, una librería muy conocida para hacer gráficas. Por lo que se puede realizar de forma muy cómoda y sencilla cualquier gráfico directamente a partir de un DataFrame o Series. ○ Pandas nos permite obtener columnas o filas de nuestros datos de forma muy fácil e intuitiva. ○ Pandas también podemos hacer selecciones condicionales. Python: ● Ventajas ○ Simplificado y rápido: este lenguaje simplifica mucho la programación. Es un gran lenguaje para scripting, si usted requiere algo rápido (en el sentido de la ejecución del lenguaje), con unas cuantas líneas ya está resuelto. ○ Elegante y flexible: el lenguaje le da muchas herramientas, si usted quiere listas de varios tipo de datos, no hace falta que Página | 11 declares cada tipo de datos. Es un lenguaje tan flexible que usted no se preocupa tanto por los detalles. ○ Programación sana y productiva: programar en Python se convierte en un estilo muy sano de programar: es sencillo de aprender, direccionado a las reglas perfectas, le hace como dependiente de mejorar, cumplir las reglas, el uso de las lineas, de variables. ○ Ordenado y limpio: el orden que mantiene Python, es de lo que más le gusta a sus usuarios, es muy legible, cualquier otro programador lo puede leer y trabajar sobre el programa escrito en Python. Los módulos están bien organizados, a diferencia de otros lenguajes. ○ Portable: es un lenguaje muy portable (ya sea en Mac, Linux o Windows) en comparación con otros lenguajes. ○ Comunidad: algo muy importante para el desarrollo de un lenguaje es la comunidad, la misma comunidad de Python cuida el lenguaje y casi todas las actualizaciones se hacen de manera democrática. ● Desventajas ○ Curva de aprendizaje ○ La «curva de aprendizaje cuando ya estás en la parte web no es tan sencilla». ○ Hosting ○ La mayoría de los servidores no tienen soporte a Python, y si lo soportan, la configuración es un poco difícil. ○ Librerías incluidas ○ Algunas librerías que trae por defecto no son delgusto de amplio de la comunidad, y optan a usar librerías de terceros. Página | 12
Compartir