Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
INTRODUCCIÓN A LA ESTADÍSTICA La estadística es un área de la ciencia que se ocupa del diseño de experimentos o procedimientos de muestreo, esto lo efectúa a través de la información contenida en datos numéricos; i.e., la estadística realiza inferencias acerca de una población de mediciones dada la información contenida en una muestra. Población. Es el conjunto de todas las mediciones de interés para quien obtiene la muestra; i.e., es la colección completa de todos los elementos (puntuaciones, mediciones, personas, etc.) a estudiar. Muestra. Es un subconjunto de miembros (mediciones) seleccionados de la población de interés. Estadístico. El estadístico estudia diversos procedimientos de inferencia, buscando el mejor predictor o proceso de inferencia para una situación dada; i.e., es una medición numérica que describe algunas características de una muestra. Parámetro. Es una medición numérica que describe algunas características de una población. Datos. Son las observaciones recolectadas (como mediciones, géneros, respuestas de encuesta, etc.). Datos Cuantitativos. Consisten en números que representan conteos o mediciones. Datos Cualitativos. Se dividen en diferentes categorías que se distinguen por alguna característica no numérica. Datos Discretos. Resulta cuando el número de posibles valores es un número finito, o bien un número que puede contarse. (Es decir, el número de posibles valores es 0, 1, 2, etc.) Datos Continuos. Resulta de un infinito de posibles valores que pueden asociarse a puntos de alguna escala continua, cubriendo un rango de valores sin huecos ni interrupciones. En un estudio transeccional, los datos se observan, miden y reúnen en un solo momento. En un estudio retrospectivo, los datos se toman del pasado (a través del examen de registros, entrevistas y otros medios). En un estudio prospectivo (o longitudinal), los datos se reúnen en el futuro y se toman de grupos que comparten factores comunes. En una muestra aleatoria los miembros de una población se seleccionan de manera que cada miembro individual tiene la misma posibilidad de ser elegido. Descripción de la distribución de los datos (observaciones) Los métodos gráficos y numéricos no solo son útiles para propósitos descriptivos, sino que también son útiles para la inferencia estadística. Histograma es una gráfica de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias. Las alturas de las barras corresponden a los valores de frecuencia, en tanto que las barras se dibujan de manera adyacente. A menudo, al histograma se le llama distribución de frecuencias1, porque muestra la forma en que se distribuyen los datos a lo largo de la abscisa del gráfico. Notación. Las letras griegas se utilizan para la población y se llaman parámetros. Las letras latinas se usan para la muestra y se llaman estadísticos. Una de las primeras medidas descriptivas de interés es la medida de tendencia central, esto es, una medida que indique la ubicación del centro de la distribución; i.e., es el valor que se encuentra en el centro o a la mitad de un conjunto de datos. Algunas reglas precisas para localizar el centro una distribución de datos, son: Media aritmética, “media poblacional” ( ). Es una medida de tendencia central que se obtiene sumando las observaciones y dividiendo el total entre el número de estas. Media muestral ( ). Es una medida de tendencia central muy parecida a la media aritmética, lo único que cambia aquí es que ahora nos interesa una muestra de la población y no la población completa. De este modo, la media muestral se obtiene sumando las observaciones muestrales y dividiendo el total entre el número de estas. 1 Distribución de frecuencias.- lista de valores de datos (ya sea de manera individual o por grupos de intervalos), juntos con sus frecuencias (o conteos) correspondientes. Mediana ( ). Medida de tendencia central que implica el valor que está en medio, cuando los valores originales de los datos se presentan en orden de magnitud creciente (o decreciente). Si el número de valores es par, para obtener la mediana se suman los valores intermedios y se divide entre dos. Moda ( ). Es el valor de los datos que ocurre con mayor frecuencia. El rango (amplitud) de un conjunto de datos es la diferencia entre el valor máximo y el valor mínimo. Mitad del rango (semirrango). Medida de tendencia central que constituye el valor que está a medio camino, entre el puntaje más alto y el más bajo, en el conjunto original de datos. Se calcula sumando el valor máximo con el mínimo y luego dividiendo dicha suma entre dos. Una distribución de datos es simétrica si la mitad izquierda de su grafico (histograma) es aproximadamente una imagen en espejo de su mitad derecha. Una distribución de datos está sesgada (asimétrica) si no es simétrica y se extiende más hacia un lado que hacia otro. Cuartil. Dado un conjunto de observaciones colocado en orden de magnitud. El cuartil inferior (primer cuartil) es el valor de mayor que ¼ de las observaciones y menor que los ¾ restantes. El segundo cuartil es la mediana. El cuartil superior (tercer cuartil) es el valor de mayor que ¾ y menor que ¼. Percentil. Dado un conjunto de observaciones colocado en orden de magnitud, El percentil p-ésimo es el valor de tal que por ciento de las observaciones son menores que le valor de y por ciento son mayores Varianza, “varianza poblacional” ( ). La varianza se define como el promedio del cuadrado de las desviaciones de las observaciones con respecto a su media ; i.e., medida de variación igual al cuadrado de la desviación estándar . Varianza muestral ( ). La varianza muestral es muy parecida a la varianza, lo único que cambia aquí es que ahora nos interesa una muestra de la población y no la población completa. De este modo, la varianza muestral se obtiene de la suma de los cuadrados de las observaciones con respecto a su media dividida entre . Cuadrado de la desviación estándar . Desviación estándar ( , ). Medida de variación de los valores con respecto a la media. Es un tipo de desviación promedio de los valores, con respecto a la medida. Momento de orden respecto a la media Coeficiente de sesgo. Coeficiente de curtosis. Datos en dos variables Sea el siguiente listado de pares ordenados, donde el primer número corresponde a una variable y el segundo a una variable . El objetivo del coeficiente de correlación de la muestra, consiste en determinar si existe una relación lineal entre los datos. Propiedades del coeficiente de correlación: i) ii) es positivo o negativo, respectivamente, si crece o decrece con iii) Cuanto más próximo a 1 sea , más fuerte es la relación lineal entre e La covarianza muestral de e , se define
Compartir