Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
RESUMEN ESTADISTICA UNIDAD 1: Nombre de la unidad: Estadística Descriptiva Semanas: 1,2 Contenidos: Estadística, definición y aplicaciones. Estadística descriptiva e inferencial. Población, muestra, unidad estadística. Variables. Datos: elementos, variables y observaciones. Tipo de muestreos. Muestreos probabilísticos y no probabilísticos. Distribuciones de frecuencia y su representación gráfica. Medidas de posición: Media. Mediana. Moda. Fractiles. Propiedades. Medidas de dispersión: Rango, Rango intercuartílico. Variancia. Coeficiente de Variación. Desvío estándar. Propiedades. Diagrama de caja. Medidas de asociación: correlación, covarianza. Aplicaciones. Estadística es la ciencia que estudia la recolección, descripción, análisis e inferencia basada en datos, que da lugar a describir fenomenos y sacar conclusions Debe ser etica la recoleccion de datos, el analisis, la presentacion y la interpretacion. ETAPAS DE LA ESTADISTICA: Formulación del problema: pregunta amplia, pregunta específica, hipótesis Formulación y diseño de la estrategia: cómo testear la hipótesis Definir qué se va a medir, cómo se va a recolectar datos, qué métodos estadísticos se utilizarán (población, muestra, tipo de muestreo, variables a medir, y cuestiones de implementación) Implementación de la estrategia Recolección de datos (primaria o secundaria) Descripción de los datos: comprensión de los datos, búsqueda de patrones, errores, valores inusuales (uso de estadísticos y gráficos) Inferencia: predicciones y determinación de causalidades Estadistica descriptiva: pueden ser tabla, graficos o números. Datos que se resumen y presentan en una forma fácil de comprender para el lector, por ejemplo, en los diarios. Inferencia estadística: Es cuando se utilizan datos de una muestra para realizar estimaciones y probar hipotesis sobre las características de una población POBLACIÓN: Conjunto formado por todos los elementos a estudiar. MUESTRA: Parte de una población que se considera representativa de la misma. UNIDAD ESTADÍSTICA: Sujeto bajo estudio Datos Hechos y cifras recabados, analizados y resumidos para su presentación e interpretación. Todos los datos recabados en un estudio en particular se conocen como banco de datos. Datos categóricos: se agrupan por categorías, utiliza una escala de medición que puede ser nominal u ordinal Datos cuantitativos: se obtienen usando la escala de medición ya sea de intervalo o de razón Variable categorica: Incluye datos categóricos. Es mas limitado, ya que se resumen mediante el conteo del numero de observaciones en cada categoría Variable Numérica • Continua nro infinito de valores posibles medidas • Discreta nro contable de valores conteo • Variable Categórica: número finito de categorías o grupos distintos ordinal respuestas en encuesta, medallas nominal género, tipo de material Datos de corte transversal: son recabados en el mismo momento Datos de series de tiempo: recabados a lo largo del tiempo o varios periodos Variable cuantitativa: datos cuantitativos Los datos pueden ser preexistentes. Los datos estadisticos pueden ser experimentales u observacionales. El experimental identifica primero la variable de interés, luego se suman otras que influyan sobre la variable de interés. Los observacionales no intentan controlar las variables de interés, x ejemplo una encuesta Elementos, variables y obervaciones • Elementos: entidades a partir de las cuales se reúnen los datos • Variable: característica de interés para los elementos • Observacion: conjunto de mediciones obtenido para un elemento en particular. ESCALAS DE MEDICION: determina la cantidad de información contenida en los datos e indica la manera mas apropiada de resumirlos y analizarlos estadísticamente. TIPOS • Nominal: Etiquetas o nombres utilizados para identificar un atributo. Es cualitativa, es mutuamente excluyente (estas sano o enfermo) • Ordinal: es de este tipo si presentan propiedades de los datos nominales y a su vez se le asigna un orden o clasificación significativa. Categorica y cualitativa Ej: excelente, bueno, malo • Escala de intervalo: Son siempre numéricos estos datos. Presentan las propiedades de los ordinales, y se expresa en términos de una unidad. Cuantitativa. Registra distancia entre dos puntos Ejemplo: 3 alumnos que sacaron 10, 8 y 7; el primero saco 2 mas que el segundo, pero el segundo saco 1 mas que el tercero. Las puntuaciones son significativas. Temperatura como ejemplo • Escala de razón: para una variable, los datos tienen todas las propiedades de los datos de intervalo, y la razón de los dos valores es significativa. Presenta el 0 absoluto y va a permitir comparar. TIPOS DE MUESTREOS MUESTREO: Acción de escoger muestras representativas. Muestreos probabilísticos Todos los miembros de la población tienen la misma probabilidad positiva y conocida de ser seleccionados Muestreo aleatorio simple, estratificado, etc Muestreo no probabilístico No todos los miembros de la población tienen la misma probabilidad de ser seleccionados Razones: accesibilidad, criterios específicos DISTRIBUCIONES DE FRECUENCIA Y SU REPRESENTACION GRAFICA Resumen de datos Cualitativos: • Distribucion de frecuencia: resumen, en forma de tabla, de datos que muestra la frecuencia de elementos en cada una de varias clases que no se superponen. Ejemplo 1 a 10, 11 a 20, 21 a 30. • Frecuencia relativa: marca la proporción, o el porcentaje, de elementos de cada clase. Frecuencia relativa= 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑐𝑙𝑎𝑠𝑒 𝑛 n es la variable total ej: 50 refrescos es n y 3 marcas, 10 toman coca, 20 pepsi y 20 fanta • Frecuencia porcentual: frecuencia en porcentaje • Frecuencia absoluta: muestra el número de observaciones del conjunto de datos que caen en cada una de las clases. - distribuciones numéricas: los datos se agrupan de acuerdo con el tamaño. - distribución categórica los datos se agrupan de acuerdo con cierta calidad o atributo Grafica de barras y circulares Forman parte de la estadística descriptiva Grafica de barras: dispositivo grafico que se usa para representar los datos cualitativos resumidos en una distribución de frecuencia relativa o porcentual. Grafica pastel: representa distribuciones de frecuencia relativa y de frecuencia porcentual para datos cualitativos. Resumen de datos cuantitativos Distribucion de la frecuencia: Hay que tener en cuenta 3 cosas • Numero de clases: especificación de los rangos para agrupar los datos • Ancho de clases: 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑚𝑎𝑦𝑜𝑟−𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑚𝑒𝑛𝑜𝑟 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 • Limite de clases: el inferior identifica el valor de datos menor asignado a la clase, el superior identifica el valor de mayor asignado a la clase • Punto medio de clase: valor medio entre ambos limites Diagrama de puntos Es útil para mostrar un pequeño conjunto de datos. Resalta la ubicación, o el medio, y la dispersión o variabilidad. Ayuda a identificar “outliers” o valores extremos Histograma: presentación grafica común de los datos cuantituativos. Se elabora para datos previamente resumidos, ya sea mediante una distribución de frecuencia de frecuencia relativa o de frecuencia porcentual. Para realizarse la variable de interés va en el eje horizontal y la de frecuencia sobre el vertical Diagrama de Pareto gráfica de barras para datos de conteo. Presenta la frecuencia de cada conteo en el eje vertical y el tipo de conteo o clasificación sobre el eje horizontal. Orden descendente de frecuencia u ocurrencias Medias de posición Medidas de tendencia central o posición: Punto medio de una distribución Son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una poblacióno muestra. Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles. Media aritmética (promedio): Proporciona una medida de la ubicación central de los datos, si es para una población se denota �̅�, si son para una población, µ. Si se tiene una muestra con n observaciones, la formula para la media muestral es: �̅� = 𝛴𝑥𝑖 𝑛 Ejemplo: 46, 54, 42, 46, 32. La media muestral es la sumatoria de todos (𝛴) sobre la cantidad de grupos que hay (n), ósea, 5. Media Poblacional: 𝜇 = ∑𝑥𝑖 𝑁 Mediana: Es el valor de en medio cuando los datos están acomodados en orden ascendente. Con un numero impar de observaciones, la mediana es el valor de en medio. Con un numero par, no hay valor de medio, sino que se utilizan los dos valores de en medio y se dividen en 2. Moda: Valor que ocurre con mayor frecuencia. Puede existir mas de una moda, se llama bimodal. Ej: 32 42 46 46 54. 46 seria la moda Fractiles: Proporciona información sobre como se distribuyen los datos en el intervalo del valor menor al valor mayor. • En una distribución de frecuencias, una fracción o proporción dada de los datos cae en un fractil o abajo de éste. • Los fractiles que dividen los datos en 10 partes iguales se llaman deciles. • Los cuartiles dividen los datos en 4 partes iguales. • Los quintiles dividen los datos en 5 partes iguales. • Los percentiles dividen al conjunto de datos en 100 partes iguales. ⅈ = ( 𝑃 100 ) ⋅ 𝑛 El denominador varia según el fractil usado. En P va el el fractil a utilizar, y n el numero de observaciones. Medias de dispersión: Rango= valor mayor- valor menor. Ignora la naturaleza de la variación entre todas las demás observaciones, y tiene una gran influencia de los valores extremos. Rango intercuartílico: es la diferencia entre el tercer cuartil y el primer cuartil. Rango de la media de 50% de los datos Mide qué tan lejos de la mediana hay que ir en cualquiera de las dos direcciones antes de recorrer una mitad de los valores del conjunto de datos. Para calcular este rango, dividimos nuestros datos en cuatro partes, cada una de las cuales contiene 25% de los elementos de la distribución. Los cuartiles son, entonces, los valores más altos de cada una de estas cuatro partes, y el rango intercuartil es la diferencia entre los valores del primero y tercer cuartiles RIC= 𝑄3 − 𝑄1 Varianza: Utiliza todos los datos. Se basa en la diferencia entre el valor de cada observación y la media. Varianza poblacional: 𝜎2 = ∑(𝑥𝑖 − 𝜇)2 𝑁 Varianza muestral 𝑠2 = ∑(𝑥1 − �̅�)2 𝑛 − 1 Ejemplo Numero de estudiantes en el grupo 46, 54, 42, 46, 32. El tamaño de grupo promedio es de 44 por grupo, sumando todos y diviendolos por la cantidad de grupos. La desviación respecto a la media es que tan lejos esta el total de alumnos x grupo de el promedio sacado. La formula es(𝑥𝑖 − �̅�) . La desviación cuadrada respecto a la media es lo mismo, solamente que al cuadrado (𝑥𝑖 − �̅�)2 Desviacion estándar: Es la raíz cuadrada positiva de la varianza. Se usa s para denotar la desviación estándar muestral y 𝝈 para denotar la variación estándar poblacional. Queda en los mismos valores que los datos originales Las unidades en la varianza son el cuadrado de las unidades de los datos Coeficiente de variación: Medida relativa de la variabilidad; mide la desviación estándar con respecto a la media. Se expresa, por lo general, como un porcentaje. ( 𝐷𝑒𝑠𝑣ⅈ𝑎𝑐ⅈ𝑜𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑚𝑒𝑑ⅈ𝑎 ⋅ 100) % Diagrama de caja: proporcionan una representación gráfica de la mediana, los cuartiles y los extremos. Posee un dato mínimo, Q1, Q2 y Q3, y el dato máximo. Ejemplo: Edades de los amigos de Andres 11 11 15 18 14 16 16 12 17 14 10 15 15 14 Lo ordenamos 10 11 11 12 14 14 14 15 15 15 16 16 17 18 10 es el mínimo, 18 el máximo El Q2 es la mitad, como son pares, el Q2 es 14 y 15, sacamos el promedio y 14,5 es el Q2. El Q1 es la mitad de los números hacia la izquierda, es decir 11 y 12. Q1= 11.5 Q3 es la mitad de los números hacia la derecha, es decir 16 y 16. Q3= 16 PARAMETRO VS ESTADISTICO Parametro poblacional: Valor que se calcula con todos los datos necesarios de una población Estadístico muestral: Valor que se calcula para los datos de una muestra En la inferencia estadística, un estadístico muestral se conoce como estimador puntual del parámetro poblacional correspondiente. Medidas de asociación entre dos variables: Covarianza: Correlacion:
Compartir