Logo Studenta

Proyecto 1 Análisis de Big Data

¡Estudia con miles de materiales!

Vista previa del material en texto

Pontificia Universidad Católica de Chile
Facultad de Ciencias Económicas y Administrativas
Análisis de Big Data: EAA361A
Proyecto 1
El servicio de impuestos internos todos los años proporciona la información de ventas iva de las personas
juŕıdicas registradas en Chile. Dentro de la información entregada se encuentran los siguientes campos:
� Periodo: Fecha de entrega de la información
� Cliente_Rut: Rut de la persona juŕıdica incluyendo el d́ıgito verificador.
� Razon_Social: Nombre registrado para la persona juŕıdica.
� Tramo_Ventas_Iva: Clasificación según el volumen de ventas iva anual.
� Número_Trabajadores: Número de trabajadores dependientes de la persona juŕıdica.
� Rubro: Categoŕıa en la que se desenvuelve la empresa.
� Fecha_Inicio: Fecha de inicio de la persona juŕıdica.
� Fecha_Termino_Giro: Fecha de termino de la persona juŕıdica.
� Tipo_Contribuyente: Clasificación entregada por el servicio de impuestos según su punto de
vista económico.
En el sitio web del curso, en la sección ‘‘Datos Proyecto 1’’ se encuentra el archivo SII con la
información anual mencionada anteriormente desde el año 2014 hasta el año 2016.
� SII_2014.txt
� SII_2015.txt
� SII_2016.txt
Importe los datos a su cuenta de databricks con los nombres SII_2014, SII_2015, SII_2016 y
realice lo siguiente:
1. [0.5 ptos] En cada una de las tablas eliminar los Clientes_Rut que aparecen más de una vez
(eliminar el Clientes_Rut y todas sus repeticiones). En el resto de la tarea debe trabajar con las
tablas creadas aqúı. A las nuevas tablas sin los Clientes_Rut duplicados agregar en los nombres
originales ”_2, por ejemplo SII_2014_2 (independiente si no tiene duplicados).
2. [0.5 ptos] Identifique las empresas que están informadas en la fecha 2016-12-01 y que no están
informadas en los años anteriores.
EAA361 Análisis de Big Data 1
3. [1.0 ptos] Para cada tabla reporte por Tipo_Contribuyente la cantidad de personas juŕıdicas
que iniciaron sus actividades después de 2009-12-31.
4. [1.0 ptos] Para cada tabla reporte la moda del Tramo_Ventas_Iva por Tipo_Contribuyente
Aqúı considere empresas con al menos 10 empleados.
5. [1.0 ptos] A través de las sentencia JOIN y UNION (puede ser uno o ambos) entregue el núme-
ro de trabajadores máximo y el Tramo_Ventas_Iva promedio por Rubro entre 2014-12-01 y
2016-12-01.
6. [1.0 ptos] Fijando la fecha 2016-12-01, entregue para cada una de las categoŕıas de la variable
Rubro la diferencia en valor absoluto entre el número de empresas a la fecha 2014-12-01.
7. [1.0 ptos] Para las empresas que tienen informados sus números de trabajadores todos los años
y que tienen Tramo_Ventas_Iva superior a 3 en 2014-12-01, a la fecha 2016-12-01 entregue
a nivel de las categoŕıas del Rubro, el número de empresas que tuvo aumento de trabajadores en
todos los años.
Indicaciones:
En el archivo ‘‘Lista Alumnos y grupos proyecto 1.pdf’’ se encuentran los participantes de ca-
da grupo. Deben desarrollar un documento explicando y reportando los resultados, además debe enviar
el notebook de SQL para poder replicar los resultados presentados en el informe. El documento más
el notebook se debe enviar al correo de Pablo Gonzáles (pagonzalez20@uc.cl) y a Cristian Vásquez
(ctvasque@uc.cl), con asunto “Proyecto 1 Big Data”, indicando en el cuerpo y en el documento los
integrantes del grupo.
Cada alumno integrantes del grupo debe enviar la evaluación del resto de sus compañeros a Pablo
Gonzáles (pagonzalez20@uc.cl). Para esto debe enviar un correo con el asunto “coevaluación proyecto
1 big data” y en el cuerpo del correo una tabla con la evaluación.
Si alguno de los integrantes del grupo no colabora en el desarrollo del trabajo, debe informar por el
mismo medio a los profesores.
Mucha Suerte !!!!
EAA361 Análisis de Big Data 2

Continuar navegando