Logo Studenta

A3 1_Sandoval_Padilla_Fernando_Cesar - Fernando Cesar Sandoval Padilla

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD DE GUADALAJARA
CENTRO UNIVERSITARIO DE CIENCIAS EXACTAS E INGENIERÍAS
DEPARTAMENTO DE CIENCIAS COMPUTACIONALES
INTEGRANTES:
SANDOVAL PADILLA FERNANDO CESAR – INNI – 215685409
SALDIVAR FONSECA FRANCISCO – INNI – 215408162
HERNANDEZ SANCHEZ LUIS ANGEL – INNI – 215638982
MINERÍA DE DATOS
PROFESOR: GODINEZ ROMAN ISRAEL
SECCIÓN D01 – CICLO ESCOLAR 2021 - B
ACTIVIDAD 3.1 Entendimiento del negocio
Dataset: https://www.kaggle.com/arashnic/cinema-ticket
a. Objetivos del negocio
i. Antecedentes
Cinépolis es una empresa mexicana, fundada en Morelia en 1971, es líder de
la industria cinematográfica y del entretenimiento en México y Latinoamérica.
Actualmente es la cuarta cadena más grande a nivel mundial, la segunda más
grande en venta de entradas, la primera en entradas vendidas por sala y la
más importante fuera de los Estados Unidos.
Al día de hoy cuenta con 27 cines en la ciudad de Guadalajara, recaudando
un estimado de $2,000,000 de pesos al mes, con una colaboración de 580
personas. Se mejorarán las ventas totales en conjunto del total de cines en
Guadalajara.
ii. Objetivo comercial o de investigación del proyecto
Este proyecto se enfocara en la ciudad de guadalajara, sus objetivos
principales es aumentar las ventas un 5% mediante la proyección adecuada
de cada cine sobre la demanda de cada género, además de poder predecir las
mejores ubicaciones para abrir tres nuevas localizaciones lo mejor distribuidas
posibles.
● Recomendación de género cinematográfico para cines:
recomendaciones basadas en sus diferentes ubicaciones, temporadas.
● Recomendación de ubicación de próximos cines: predicción de futuras
locaciones que resulten exitosas dentro de los lineamientos del
negocio.
iii. Criterios de rendimiento
Los criterios de éxito al finalizar el proyecto los cuales nos dirán que tan
efectiva es la aplicación de nuestro modelo de minería de datos serán:
● Retornos sobre la inversión (ROI) para cada una de las tres nuevas
locaciones que se pretenden realizar.
● Volumen total de ventas.
Página | 2
● Logro de objetivos: resultado del periodo de 2 meses v.s. los objetivos
del periodo anterior.
● Cuota del territorio: participación en # de empresas en el mercado total
de la empresa nacional.
● Resultados de nuevas categorías: cifras de nuevas categorías por
género estratégicas para la empresa / negocio.
b. Valoración de la situación
i. Inventario de recursos
● Datos, conocimiento y herramientas
Tipo de datos e información que almacenan.
➢ Unique movie id definido como unique_film que representa el número
único de identificación de la película en cuestión, el tipo de información
que almacena, son datos de tipo discreto y nominales.
➢ Unique cinema id definido como cinema_code que representa el
número de identificación único del cine en cuestión, el tipo de
información que almacena, son datos de tipo discreto y nominales.
➢ total sale per screening time definido como total_sales que representa
el total de ventas por tiempo de reproducción, es de tipo discreto y
nominal.
➢ number of tickets solds definido como tickets_sold que representa el
número de tickets vendidos, es de tipo discreto y nominal.
➢ Number of tickets cancelled definido como tickets_out que representa
el número de tickets cancelados, es de tipo discreto y nominal.
➢ screening time in each day definido como show_time que representa el
número de horas de reproducción de una película en un dia, es de tipo
discreto y continuo.
Página | 3
➢ occupation percent of cinema by means of available capacity definido
como occu_perc que representa el porcentaje del cine que ha sido
ocupado de acuerdo a su capacidad, es de tipo continuo.
➢ price of ticket at show time definido como ticket_price que representa
el precio de la entrada en el momento de la función, es de tipo continuo.
➢ total number of thicket used definido como ticket_use que representa
el total de entradas utilizadas, es de tipo discreto y nominal.
➢ capacity of the cinema definido como capacity que representa la
capacidad total aproximada del cine, es de tipo continuo.
➢ date que representa la fecha en que fue presentado el film, es de tipo
discreto e intervalo.
➢ month que representa el mes en que fue presentado el film, es de tipo,
discreto y nominal.
➢ quarter que representa la estación o temporada del año en que fue
emitido el film, siendo estos los trimestres, es de tipo, discreto y
nominal.
➢ day que representa el día en que fue presentado el film, es de tipo
discreto y nominal.
Herramientas disponibles y conocimiento relevante.
Algoritmos de agrupamiento como:
➢ K-means: también utiliza las distancias entre puntos.
Librerías o módulos de python dedicadas al aprendizaje automático como:
➢ Scikit Learn
Librerías o módulos de python dedicadas a la lectura de de datos como:
➢ Pandas
Otras herramientas dedicadas al aprendizaje automático, con algoritmos y
funciones pre-cargadas y configuradas para su uso de forma simple y
entendible como:
➢ Orange
Página | 4
Existen problemas para acceder a los datos.
● Personal de administración del proyecto
➢ Fernando Cesar Sandoval Padilla
Contacto: fernando.sandoval6854@alumnos.udg.mx
➢ Francisco Saldivar Fonseca
Contacto: francisco.saldivar4081@alumnos.udg.mx
➢ Luis Angel Hernandez Sanchez
Contacto: langel.hernandez@alumnos.udg.mx
ii. Requisitos, supuestos y restricciones
● Requisitos: Se desea que se entreguen reportes semanales de los
resultados de la implementación del algoritmo de agrupamiento al
personal con el fin de que puedan implementar sus estrategias por
medio de la información recabada.
● Supuestos
- Se desea que el modelo a implementar sea fácil de visualizar e
interpretar por el personal de marketing.
- Algunos de los atributos en el dataset son incomprensibles debido al
tipo de métrica que se está utilizando en ellos.
● Restricciones
- La elaboración de este proyecto está limitado por motivos de tiempo
debido a que es un proyecto que se planea resolver en 3 meses y el
tiempo de elaboración es mucho más corto debido a que resta poco
tiempo en el semestre.
- En cuestión del desarrollo del modelo está la limitante de que es la
primera vez que nos enfrentamos a un problema de minería de datos lo
cual significa que somos inexpertos en el tema.
iii. Riesgos y contingencias
● ¿Qué hacer si el proyecto dura más del tiempo programado?
Página | 5
Si el tiempo estimado por el equipo de trabajo se observa que no es el
adecuado por distintos factores, se tratará de llegar a un común acuerdo con
la empresa, para poder aplazar la fecha de entrega de los resultados
esperados al finalizar el proyecto.
● ¿Qué hacer si el cliente se queda sin presupuesto?
Al comienzo del proyecto se estima un presupuesto final el cual se espera
cubra el total de los gastos necesarios para realizar el proyecto, si por alguna
razón es necesario cubrir algún gasto adicional se abordara este tema con la
empresa en cuestión y se tratará de cubrir, en dado caso que no se llegue a
un común acuerdo se optará por realizar los cambios necesarios.
● ¿Qué hacer si los datos son de escasa calidad o cobertura?
Al comienzo del proyecto de acuerdo con las necesidades del cliente se
realiza una especificación de requerimientos la cual debe ser cubierta con los
datos otorgados por la empresa, en dado caso que no se haya tomado en
cuenta ciertos datos necesarios para la realización del proyecto o son de
escasa calidad se optara por realizar una junta con el administrador de las
bases de datos.
● ¿Qué sucede si los resultados son menos de lo esperado?
Si los resultados no son los esperados o no son los más óptimos, en dado
caso que se tenga con tiempo disponible se optara por realizar ciertas
modificaciones que van desde reorganizar el plan de proyecto o alguna fase
dentro del proyecto hasta actualizar los procesos dentro del modelo que
puedan mejorar los resultados. En dado caso que no se tenga tiempo
disponible, se esperapoder llegar a un acuerdo para aplazar una nueva fecha
del proyecto, tomando en cuenta nuevas decisiones.
iv. Terminología
Página | 6
TERMINOLOGÍA EMPRESA:
● KPI es la sigla en inglés para referirse a los indicadores de calidad o
indicadores clave de negocio. Las KPI’s son una serie de métricas que
se utilizan para medir la eficiencia y productividad de las acciones que
se lleven a cabo en un negocio.
● ROI: El Retorno Sobre la Inversión es un indicador que permite calcular
la rentabilidad de las inversiones hechas por una empresa. El ROI
facilitará el análisis de los resultados de las inversiones para saber
cuáles valen la pena, cuáles no y cuáles se podrán optimizar para
generar más ganancias.
● Ticket medio: Es el valor medio que gastan los clientes cuando
compran los productos o servicios y se calcula dividiendo el total de las
ventas realizadas por el número de pedidos.
● Customer Relationship Management (CRM por sus siglas en inglés) es
un gestor de relaciones con los clientes. Se trata de un sistema que
facilita las actividades diarias de una empresa; esto permite enfocarse
en lo importante, incrementar las ventas.
● ARR: Es una medida de los componentes de ingresos previsibles y
recurrentes del flujo de ingresos, como suscripciones o mantenimiento.
Es importante considerar que los ingresos recurrentes anuales siempre
excluyen las comisiones únicas.
TERMINOLOGÍA MINERÍA DE DATOS:
● Algoritmo. En Ciencias de la Computación, un algoritmo es un conjunto
de pasos para realizar una tarea. En otras palabras, una secuencia
Página | 7
lógica y con instrucciones que forman una fórmula matemática o
estadística para realizar el análisis de datos.
● Data mining o minería de datos. Data Mining (minería de datos) es
también conocida como Knowledge Discovery in database (KDD). Es
comúnmente definida como el proceso para descubrir patrones útiles o
conocimientos a partir de fuentes de datos tales como Bases de Datos,
textos, imágenes, la web, etc. Los patrones deben ser válidos,
potencialmente útiles y entendibles.
● Machine learning (Aprendizaje automático). Este término hace
referencia a la creación de sistemas a través de la Inteligencia Artificial,
donde lo que realmente aprende es un algoritmo, el cual supervisa los
datos con la intención de poder predecir comportamientos futuros.
● Python: Es un lenguaje de programación multiparadigma que se utiliza
en la ciencia de datos. Python se utiliza para denominar a las librerías
especializadas en automatic learning y generación de gráficos.
● Clustering es una técnica utilizada en minería de datos (dentro del área
de la Inteligencia Artificial) para identificar de forma automática
agrupaciones (clústeres) de elementos de acuerdo a una medida de
similitud entre ellos. Esta técnica también se conoce como
segmentación.
● K-means es un método de agrupamiento, que tiene como objetivo la
partición de un conjunto de “n” observaciones en “k” grupos en el que
cada observación pertenece al grupo cuyo valor medio es más cercano,
es un método utilizado en minería de datos.
Página | 8
v. Análisis de costo/beneficio
Costo:
○ Obtención de datos:
La obtención de los datos no conlleva un costo monetario en
cuestión, pues el costo para obtener la información es la
asignación de nuestro tiempo de trabajo en el proyecto para la
recolección del conjunto de datos que se utilizara.
○ Operativos:
■ Los sueldos o salarios de personal.
■ Los costos de combustible, como la energía para las
operaciones, (electricidad, internet).
■ Mantenimiento de equipos.
■ Material de oficina y consumibles.
■ Oficinas en alquiler.
Beneficio:
o Objetivo completado de manera exitosa: Se aumentan las ventas en
base a la proyección de cada cine en un 5% y además se predicen las
mejores ubicaciones para abrir tres nuevas localizaciones lo mejor
distribuidas posible.
o Posibles beneficios de la comprensión de los datos y el negocio: El
analista es capaz de ver otras áreas en las que es posible mejorar para
poder obtener algún otro beneficio y aplicar alguna otra estrategia.
○
c. Objetivos de la minería de datos
i. Metas de la minería de datos
● Aplicar el algoritmo de agrupamiento K-Means y la métrica de la silueta para la
obtención de las proyecciones más adecuadas de acuerdo con la temporada
Página | 9
del año, así como los valores atípicos, siendo estas las que vienen presentes
en el atributo quarter de nuestro data set.
● Los resultados obtenidos al aplicar esta técnica tendrá validez de 3 meses,
tomando como base el hecho de que los datos que manejamos son por
temporadas, quiere decir que los agrupamientos varían debido al tiempo en
que las proyecciones se encuentran en taquilla.
ii. Criterio de rendimiento
Se optó por seleccionar dos métricas de evaluación ya que el proyecto consta
de un problema de agrupamiento utilizar como primer “métrica de silhouette”
ya que es métrica evalúa la calidad del agrupamiento al examinar que tan bien
están separados los grupos (clusters) y que tan compactos son. Además de
utilizar el “error de cuadrático medio” se utiliza para referirse a la estimación
insesgada de la varianza del error.
d. Plan de proyecto
i. Plan de proyecto
ii. Valoración de herramientas técnicas
Orange, módulos de python Scikit Learn y pandas.
Orange: Software basado en componentes para la minería de datos y análisis
predictivo.
Página | 10
● Ventajas:
○ Permite una programación visual y versátil para un análisis de
datos.
○ Es amigable e intuitiva con el usuario.
○ Está abierta a todo tipo de usuarios ya sea aprendiz o avanzado.
○ Multiplataforma.
● Desventajas:
○ Únicamente permite conectar con MySQL y PostgreSQL.
○ Dependencia de Python.
Pandas es una herramienta de código abierto, bajo licencia BSD, que da un
alto desempeño y que es fácil de usar en Python, para así trabajar de forma
fácil con datos estructurados como tablas, matrices y series de tiempo.
● Ventajas:
○ Viene integrado con Matplotlib, una librería muy conocida para
hacer gráficas. Por lo que se puede realizar de forma muy
cómoda y sencilla cualquier gráfico directamente a partir de un
DataFrame o Series.
○ Pandas nos permite obtener columnas o filas de nuestros datos
de forma muy fácil e intuitiva.
○ Pandas también podemos hacer selecciones condicionales.
Python:
● Ventajas
○ Simplificado y rápido: este lenguaje simplifica mucho la
programación. Es un gran lenguaje para scripting, si usted
requiere algo rápido (en el sentido de la ejecución del lenguaje),
con unas cuantas líneas ya está resuelto.
○ Elegante y flexible: el lenguaje le da muchas herramientas, si
usted quiere listas de varios tipo de datos, no hace falta que
Página | 11
declares cada tipo de datos. Es un lenguaje tan flexible que
usted no se preocupa tanto por los detalles.
○ Programación sana y productiva: programar en Python se
convierte en un estilo muy sano de programar: es sencillo de
aprender, direccionado a las reglas perfectas, le hace como
dependiente de mejorar, cumplir las reglas, el uso de las lineas,
de variables.
○ Ordenado y limpio: el orden que mantiene Python, es de lo que
más le gusta a sus usuarios, es muy legible, cualquier otro
programador lo puede leer y trabajar sobre el programa escrito
en Python. Los módulos están bien organizados, a diferencia de
otros lenguajes.
○ Portable: es un lenguaje muy portable (ya sea en Mac, Linux o
Windows) en comparación con otros lenguajes.
○ Comunidad: algo muy importante para el desarrollo de un
lenguaje es la comunidad, la misma comunidad de Python cuida
el lenguaje y casi todas las actualizaciones se hacen de manera
democrática.
● Desventajas
○ Curva de aprendizaje
○ La «curva de aprendizaje cuando ya estás en la parte web no es
tan sencilla».
○ Hosting
○ La mayoría de los servidores no tienen soporte a Python, y si lo
soportan, la configuración es un poco difícil.
○ Librerías incluidas
○ Algunas librerías que trae por defecto no son delgusto de amplio
de la comunidad, y optan a usar librerías de terceros.
Página | 12

Otros materiales