Logo Studenta

Introducción a la Estadística Resumen

¡Estudia con miles de materiales!

Vista previa del material en texto

INTRODUCCIÓN A LA ESTADÍSTICA 
La estadística es un área de la ciencia que se ocupa del diseño de experimentos o 
procedimientos de muestreo, esto lo efectúa a través de la información contenida en 
datos numéricos; i.e., la estadística realiza inferencias acerca de una población de 
mediciones dada la información contenida en una muestra. 
Población. Es el conjunto de todas las mediciones de interés para quien obtiene la 
muestra; i.e., es la colección completa de todos los elementos (puntuaciones, 
mediciones, personas, etc.) a estudiar. 
Muestra. Es un subconjunto de miembros (mediciones) seleccionados de la población 
de interés. 
Estadístico. El estadístico estudia diversos procedimientos de inferencia, buscando el 
mejor predictor o proceso de inferencia para una situación dada; i.e., es una medición 
numérica que describe algunas características de una muestra. 
Parámetro. Es una medición numérica que describe algunas características de una 
población. 
Datos. Son las observaciones recolectadas (como mediciones, géneros, respuestas de 
encuesta, etc.). 
Datos Cuantitativos. Consisten en números que representan conteos o mediciones. 
Datos Cualitativos. Se dividen en diferentes categorías que se distinguen por alguna 
característica no numérica. 
Datos Discretos. Resulta cuando el número de posibles valores es un número finito, o 
bien un número que puede contarse. (Es decir, el número de posibles valores es 0, 1, 
2, etc.) 
Datos Continuos. Resulta de un infinito de posibles valores que pueden asociarse a 
puntos de alguna escala continua, cubriendo un rango de valores sin huecos ni 
interrupciones. 
En un estudio transeccional, los datos se observan, miden y reúnen en un solo 
momento. 
En un estudio retrospectivo, los datos se toman del pasado (a través del examen de 
registros, entrevistas y otros medios). 
En un estudio prospectivo (o longitudinal), los datos se reúnen en el futuro y se 
toman de grupos que comparten factores comunes. 
En una muestra aleatoria los miembros de una población se seleccionan de manera 
que cada miembro individual tiene la misma posibilidad de ser elegido. 
 
Descripción de la distribución de los datos (observaciones) 
Los métodos gráficos y numéricos no solo son útiles para propósitos descriptivos, sino 
que también son útiles para la inferencia estadística. 
Histograma es una gráfica de barras en donde la escala horizontal representa clases 
de valores de datos y la escala vertical representa frecuencias. Las alturas de las 
barras corresponden a los valores de frecuencia, en tanto que las barras se dibujan de 
manera adyacente. A menudo, al histograma se le llama distribución de frecuencias1, 
porque muestra la forma en que se distribuyen los datos a lo largo de la abscisa del 
gráfico. 
Notación. 
 
 
 
 
 
Las letras griegas se utilizan para la población y se llaman parámetros. Las letras 
latinas se usan para la muestra y se llaman estadísticos. 
Una de las primeras medidas descriptivas de interés es la medida de tendencia 
central, esto es, una medida que indique la ubicación del centro de la distribución; 
i.e., es el valor que se encuentra en el centro o a la mitad de un conjunto de datos. 
Algunas reglas precisas para localizar el centro una distribución de datos, son: 
Media aritmética, “media poblacional” ( ). Es una medida de tendencia central 
que se obtiene sumando las observaciones y dividiendo el total entre el número de 
estas. 
Media muestral ( ). Es una medida de tendencia central muy parecida a la media 
aritmética, lo único que cambia aquí es que ahora nos interesa una muestra de la 
población y no la población completa. De este modo, la media muestral se obtiene 
sumando las observaciones muestrales y dividiendo el total entre el número de estas. 
 
 
1 Distribución de frecuencias.- lista de valores de datos (ya sea de manera individual o por grupos de 
intervalos), juntos con sus frecuencias (o conteos) correspondientes. 
 
Mediana ( ). Medida de tendencia central que implica el valor que está en medio, 
cuando los valores originales de los datos se presentan en orden de magnitud creciente 
(o decreciente). Si el número de valores es par, para obtener la mediana se suman los 
valores intermedios y se divide entre dos. 
Moda ( ). Es el valor de los datos que ocurre con mayor frecuencia. 
 
El rango (amplitud) de un conjunto de datos es la diferencia entre el valor máximo y 
el valor mínimo. 
 
Mitad del rango (semirrango). Medida de tendencia central que constituye el valor 
que está a medio camino, entre el puntaje más alto y el más bajo, en el conjunto 
original de datos. Se calcula sumando el valor máximo con el mínimo y luego 
dividiendo dicha suma entre dos. 
 
 
Una distribución de datos es simétrica si la mitad izquierda de su grafico (histograma) 
es aproximadamente una imagen en espejo de su mitad derecha. 
Una distribución de datos está sesgada (asimétrica) si no es simétrica y se extiende 
más hacia un lado que hacia otro. 
 
Cuartil. Dado un conjunto de observaciones colocado en orden de 
magnitud. El cuartil inferior (primer cuartil) es el valor de mayor que ¼ de las 
observaciones y menor que los ¾ restantes. El segundo cuartil es la mediana. El cuartil 
superior (tercer cuartil) es el valor de mayor que ¾ y menor que ¼. 
Percentil. Dado un conjunto de observaciones colocado en orden de 
magnitud, El percentil p-ésimo es el valor de tal que por ciento de las 
observaciones son menores que le valor de y por ciento son mayores 
 
 
 
 
Varianza, “varianza poblacional” ( ). La varianza se define como el promedio del 
cuadrado de las desviaciones de las observaciones con respecto a su media ; i.e., 
medida de variación igual al cuadrado de la desviación estándar . 
 
 
Varianza muestral ( ). La varianza muestral es muy parecida a la varianza, lo único 
que cambia aquí es que ahora nos interesa una muestra de la población y no la 
población completa. De este modo, la varianza muestral se obtiene de la suma de los 
cuadrados de las observaciones con respecto a su media dividida entre . 
Cuadrado de la desviación estándar . 
 
 
Desviación estándar ( , ). Medida de variación de los valores con respecto a la 
media. Es un tipo de desviación promedio de los valores, con respecto a la medida. 
 
 
Momento de orden respecto a la media 
 
Coeficiente de sesgo. 
 
Coeficiente de curtosis. 
 
Datos en dos variables 
Sea el siguiente listado de pares ordenados, donde el 
primer número corresponde a una variable y el segundo a una variable . El objetivo 
del coeficiente de correlación de la muestra, consiste en determinar si existe una 
relación lineal entre los datos. 
 
 
Propiedades del coeficiente de correlación: 
i) 
ii) es positivo o negativo, respectivamente, si crece o decrece con 
iii) Cuanto más próximo a 1 sea , más fuerte es la relación lineal entre e 
 
La covarianza muestral de e , se define

Continuar navegando