Logo Studenta

Qué hacer cuando encuentras un problema en tus datos - mario reyes(2)

¡Estudia con miles de materiales!

Vista previa del material en texto

Qué hacer cuando encuentras un problema en tus datos
Problema 1: Falta de datos
	Soluciones posibles
	Ejemplos de soluciones tomadas de casos reales
	Recopila datos en menor escala para realizar un análisis preliminar y, luego, pide más tiempo para completar el análisis después de haber recopilado más información. 
	Si estás consultando la opinión de los empleados sobre un nuevo plan de desempeño y bonificación, utiliza un modelo para realizar un análisis preliminar. Luego, solicita otras 3 semanas para recopilar datos de parte de todos los empleados.
	Si no hay tiempo para recopilar información, realiza el análisis utilizando datos indirectos de otros conjuntos de datos.  Esta es la solución más común.
	Si estás analizando horarios pico de viajes de trayectos diarios pero no tienes los datos de una ciudad en particular, utiliza los datos de otra ciudad con características demográficas y de tamaño similar. 
Problema 2: Muy pocos datos
	Soluciones posibles
	Ejemplos de soluciones tomadas de casos reales
	Realiza el análisis utilizando datos indirectos junto con datos reales.
	Si estás analizando tendencias de dueños de perros golden retrievers, amplia tu conjunto de datos con los datos de los dueños de labradores.  
	Ajusta tu análisis para alinearlo con los datos que ya tienes.
	Si te falta información para el rango de edades de 18 a 24 años, realiza el análisis y agrega la siguiente frase en tu informe: esta conclusión es aplicable para adultos mayores de 25 años solamente.
Problema 3: Datos incorrectos, incluidos los datos con errores*
	Soluciones posibles
	Ejemplos de soluciones tomadas de casos reales
	Si tienes datos incorrectos porque los requerimientos no fueron bien interpretados, comunica los requerimientos nuevamente.
	Si necesitas datos sobre mujeres votantes y recibiste datos sobre hombres votantes, vuelve a comunicar qué datos necesitas.
	Identifica los errores en los datos y, cuando sea posible, corrígelos en la fuente buscando el patrón de errores.
	Si tus datos se encuentran en una hoja de cálculo y hay una instrucción condicional o datos booleanos que generan errores en los cálculos, modifica la instrucción condicional en lugar de corregir los valores calculados.
	Si no puedes corregir los errores en los datos tú mismo, puedes ignorarlos y seguir adelante con el análisis en caso de que el tamaño de tu muestra aún sea lo suficientemente grande como para poder ignorar esos datos y que eso no ocasione un sesgo sistemático. 
	Si tu conjunto de datos es una traducción de otro idioma y alguna traducción no tiene sentido, puedes ignorar los datos con traducciones erróneas y seguir adelante con el análisis de los otros datos.
Diagrama de toma de decisiones
Cómo calcular el tamaño de la muestra
Terminología
	Terminología
	Definiciones
	Población 
	El grupo completo que te interesa para tu estudio. Por ejemplo, si estás haciendo una encuesta a las personas de tu empresa, la población serían todos los empleados de tu empresa.
	Muestra 
	Un subconjunto de tu población. Al igual que una muestra de comida, se la llama muestra porque es solo una porción. Por lo tanto, si tu empresa es demasiado grande como para poder consultar a todas las personas, puedes consultar a una muestra representativa de tu población.
	Margen de error
	Dado que se utiliza una muestra para representar a la población, los resultados de la muestra deberían ser diferentes a los resultados que se hubieran obtenido si hubieras consultado a toda la población. Esta diferencia se llama margen de error. Cuando menor sea el margen de error, más cerca estarán los resultados de la muestra a los que hubieran surgido si hubieras consultado a toda la población. 
	Nivel de confianza
	Muestra tu grado de confianza en los resultados de la encuesta. Por ejemplo, un grado de confianza del 95% significa que si realizaras la misma encuesta 100 veces, obtendrías los mismos resultados 95 veces de esas 100. El nivel de confianza se especifica antes de que comiences tu estudio porque afectará qué tan grande será tu margen de error al finalizar tu estudio. 
	Intervalo de confianza
	El rango de valores posibles del resultado de la población respecto del nivel de confianza del estudio. Este rango es el resultado de la muestra +/- el margen de error.
	Significancia estadística
	La determinación sobre la posibilidad de que tu resultado pueda estar basado en posibilidades aleatorias. A mayor significancia, la posibilidad es menor.
Puntos para recordar al momento de determinar el tamaño de tu muestra
Al planificar el tamaño de una muestra, hay algunos puntos para tener en cuenta:
· No utilizar muestras menores de 30. Está probado estadísticamente que 30 es el tamaño mínimo de muestra a partir del cual el resultado promedio de la muestra comienza a representar el resultado promedio de la población.
· El nivel de confianza comúnmente utilizado es 95%, pero 90% puede funcionar en algunos casos. 
Aumentar el tamaño de la muestra para cumplir con ciertas necesidades del proyecto:
· Para un mayor nivel de confianza, utilizar un tamaño de muestra más grande
· Para disminuir el margen de error, utilizar un tamaño de muestra más grande
· Para una mayor significancia estadística, utilizar un tamaño de muestra más grande
¿Por qué un tamaño mínimo de muestra de 30?
Esta recomendación está basada en el Teorema del límite central (TLC) del campo de probabilidades y estadísticas. A medida que aumenta el tamaño de la muestra, los resultados se asemejan más a la distribución normal (en forma de campana) de una gran cantidad de muestras. El mínimo de la muestra es 30 para que el teorema TLC sea válido. Los investigadores que se basan en el análisis de regresión (métodos estadísticos para determinar las relaciones entre variables controladas y dependientes) también prefieren un mínimo de muestra de 30.
Los tamaños de muestras varían según el problema del negocio
El tamaño de la muestra variará en base al tipo de problema del negocio que estés intentando resolver. 
Los tamaños de encuestas más grandes son más costosos
También debes evaluar el costo frente al beneficio de obtener resultados más precisos con un tamaño de muestra más grande.
El beneficio de conocer los aspectos básicos
Conocer los aspectos básicos te ayudará a tomar decisiones correctas al momento de elegir el tamaño de la muestra. 
REPASO GENERAL
Revisión de la integridad de los datos
1. Determinar la integridad de los datos mediante la evaluación de su exactitud, coherencia y exhaustividad general.
2. Relacionar los objetivos con los datos mediante el análisis de cómo se puede alcanzar los objetivos comerciales por medio de la investigación de los datos.
3. Conocer cuándo detener la recopilación de datos.
Los analistas de datos realizan actividades previas a la limpieza para completar estos pasos. Las actividades previas a la limpieza te ayudarán a determinar y mantener la integridad de los datos, que es esencial para cumplir el rol de un analista de datos junior.
Qué es lo que convierte a los datos en insuficientes
· Provienen de una sola fuente
· Se actualizan permanentemente y están incompletos
· Están desactualizados
· Están limitados geográficamente
· Para tratar datos insuficientes, puedes:
· Identificar tendencias con los datos disponibles
· Esperar a contar con más datos, si tienes tiempo
· Consultar con los interesados y ajustar tu objetivo
· Buscar un nuevo conjunto de datos

Continuar navegando