Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Pontificia Universidad Católica de Chile Facultad de Ciencias Económicas y Administrativas Análisis de Big Data: EAA361A Proyecto 1 El servicio de impuestos internos todos los años proporciona la información de ventas iva de las personas juŕıdicas registradas en Chile. Dentro de la información entregada se encuentran los siguientes campos: � Periodo: Fecha de entrega de la información � Cliente_Rut: Rut de la persona juŕıdica incluyendo el d́ıgito verificador. � Razon_Social: Nombre registrado para la persona juŕıdica. � Tramo_Ventas_Iva: Clasificación según el volumen de ventas iva anual. � Número_Trabajadores: Número de trabajadores dependientes de la persona juŕıdica. � Rubro: Categoŕıa en la que se desenvuelve la empresa. � Fecha_Inicio: Fecha de inicio de la persona juŕıdica. � Fecha_Termino_Giro: Fecha de termino de la persona juŕıdica. � Tipo_Contribuyente: Clasificación entregada por el servicio de impuestos según su punto de vista económico. En el sitio web del curso, en la sección ‘‘Datos Proyecto 1’’ se encuentra el archivo SII con la información anual mencionada anteriormente desde el año 2014 hasta el año 2016. � SII_2014.txt � SII_2015.txt � SII_2016.txt Importe los datos a su cuenta de databricks con los nombres SII_2014, SII_2015, SII_2016 y realice lo siguiente: 1. [0.5 ptos] En cada una de las tablas eliminar los Clientes_Rut que aparecen más de una vez (eliminar el Clientes_Rut y todas sus repeticiones). En el resto de la tarea debe trabajar con las tablas creadas aqúı. A las nuevas tablas sin los Clientes_Rut duplicados agregar en los nombres originales ”_2, por ejemplo SII_2014_2 (independiente si no tiene duplicados). 2. [0.5 ptos] Identifique las empresas que están informadas en la fecha 2016-12-01 y que no están informadas en los años anteriores. EAA361 Análisis de Big Data 1 3. [1.0 ptos] Para cada tabla reporte por Tipo_Contribuyente la cantidad de personas juŕıdicas que iniciaron sus actividades después de 2009-12-31. 4. [1.0 ptos] Para cada tabla reporte la moda del Tramo_Ventas_Iva por Tipo_Contribuyente Aqúı considere empresas con al menos 10 empleados. 5. [1.0 ptos] A través de las sentencia JOIN y UNION (puede ser uno o ambos) entregue el núme- ro de trabajadores máximo y el Tramo_Ventas_Iva promedio por Rubro entre 2014-12-01 y 2016-12-01. 6. [1.0 ptos] Fijando la fecha 2016-12-01, entregue para cada una de las categoŕıas de la variable Rubro la diferencia en valor absoluto entre el número de empresas a la fecha 2014-12-01. 7. [1.0 ptos] Para las empresas que tienen informados sus números de trabajadores todos los años y que tienen Tramo_Ventas_Iva superior a 3 en 2014-12-01, a la fecha 2016-12-01 entregue a nivel de las categoŕıas del Rubro, el número de empresas que tuvo aumento de trabajadores en todos los años. Indicaciones: En el archivo ‘‘Lista Alumnos y grupos proyecto 1.pdf’’ se encuentran los participantes de ca- da grupo. Deben desarrollar un documento explicando y reportando los resultados, además debe enviar el notebook de SQL para poder replicar los resultados presentados en el informe. El documento más el notebook se debe enviar al correo de Pablo Gonzáles (pagonzalez20@uc.cl) y a Cristian Vásquez (ctvasque@uc.cl), con asunto “Proyecto 1 Big Data”, indicando en el cuerpo y en el documento los integrantes del grupo. Cada alumno integrantes del grupo debe enviar la evaluación del resto de sus compañeros a Pablo Gonzáles (pagonzalez20@uc.cl). Para esto debe enviar un correo con el asunto “coevaluación proyecto 1 big data” y en el cuerpo del correo una tabla con la evaluación. Si alguno de los integrantes del grupo no colabora en el desarrollo del trabajo, debe informar por el mismo medio a los profesores. Mucha Suerte !!!! EAA361 Análisis de Big Data 2
Compartir