Logo Studenta

CLASE 7 - Unidad 4 - Primera Parte

¡Este material tiene más páginas!

Vista previa del material en texto

UNIDAD 4
Primera Parte
Individuos
Variabilidad
Población
Datos
DESCRIPTIVA
Variable
Constructo 
Medición Gráficos
Distribuciones de 
Probabilidades
Estimación por 
Intervalos de 
Confianza
Variable 
observable
ti
en
e 
se
n
ti
d
o
 p
o
r 
q
u
e 
ex
is
te
INFERENCIALorganiza, resume, analiza
Muestra
Toma de decisiones: 
Pruebas de Hipótesis
Su
sce
p
tib
le d
e
Distribución 
de frecuencias
modelizada 
con Permite asignar 
confianza en
ESTADÍSTICA
Permite determinar el nivel de significación en
Medidas Posición,
Tendencia Central, 
Variabilidad y 
otras.
resu
m
id
a en
rep
rese
n
tad
a
p
o
r
ParámetrosEstadísticos
p
ro
p
o
rcio
n
a
es parte de
Métodos de 
muestreo
Escalas
permiten inferir sobre
ca
ra
ct
er
iz
a
n
a
 la
Puntajes
d
e
 la q
u
e se 
o
b
tien
en
utiliza
Grupo 
Normativo
alu
d
id
a 
co
m
o
Conjunta
Relación entre 
variables
permite el 
estudio de 
de
Valores
gen
eran
Unidad 1
Unidad 2
Unidad 3 Unidad 5
Unidad 4
d
e Matriz
Baremos
P
ro
p
o
r-
ci
o
n
a
Modelización
Variables Bernoulli y Binomial
La distribución Normal
Las distribuciones c2 (Ji cuadrado) y t de Student
La noción de distribución de frecuencias de una variable
estadística, la información que este concepto brinda acerca de
valores destacados de la variable, acerca de sus medidas de
tendencia central y de su variabilidad es fundamental en el
tratamiento de fenómenos que dependen de factores que no se
pueden conocer o controlar totalmente.
Los fenómenos resultan en parte imprevisibles y para aludir
a esta imprevisibilidad se apela al concepto de azar o
aleatoriedad.
En este marco de la aleatoriedad hay variables que siendo
de distinta naturaleza son similares en cuanto a su
distribución de frecuencias como lo ilustran estas dos
ejemplos sencillos:
¿Qué resultará de lanzar una moneda al aire (equilibrada)
o de elegir una comisión entre dos posibles en el mismo
horario (sin tener recomendación ninguna)?
Lado de la moneda cara ceca
Frecuencia relativa
esperada
1/2 1/2
Comisión elegida A B
Frecuencia relativa
esperada
1/2 1/2
El hecho de que pueda salir cara o ceca al
lanzar una moneda o elegir inscribirse en la
comisión A o B de trabajos prácticos sin que se
tenga ninguna información previa y, por tanto,
ninguna preferencia hacia alguna de ellas hace
pensar en la existencia de un modelo de asignación
de frecuencias relativas esperadas o teóricas que
describe ambas situaciones y otras similares.
Un modelo es una construcción teórica, una formulación
simplificada de la realidad que es útil para comprender ciertos
aspectos de la misma, facilitar su análisis e interpretación,
arribar a conclusiones e, inclusive, hacer predicciones.
Así, un modelo para una variable es una distribución de
frecuencias relativas teóricas llamadas probabilidades. A la
variable vinculada con experiencias en las que interviene el
azar se la denomina variable aleatoria, aunque en lo sucesivo
se hablará simplemente de variable.
Dichas probabilidades no provienen de la observación directa
de un hecho realizado sino que son postuladas a partir de la
experiencia previa o de ciertas condiciones teóricas. En el
ejemplo de la moneda estamos suponiendo que es idealmente
equilibrada.
 En una variable discreta, la probabilidad de cada valor se
interpreta como la medida de la posibilidad de que dicho
valor sea observado. En los ejemplos presentados ½ es la
medida asignada tanto a la posibilidad de que un alumno
elija la comisión A como de que salga cara cuando se
arroja una moneda.
 Las características de la variable empírica u observada
tales como media, varianza, etcétera pueden definirse en
el modelo para la variable.
Hay modelos de probabilidad para variables discretas y
para variables continuas.
La diferencia esencial entre ambos casos es que,
mientras que en las variables discretas las probabilidades se
concentran en puntos individuales: cada punto se lleva un
“pedacito” de la probabilidad total que es 1, en las continuas
cada punto aisladamente “no se lleva nada” sino que la
probabilidad total de 1 “se desparrama” a lo largo de todo un
intervalo de valores de números reales (un continuo), de modo
que la probabilidad de cada punto individualmente considerado
es cero. En síntesis: en los modelos de probabilidad para
variables discretas las probabilidades son de los puntos y en las
continuas de los intervalos.
Gráficamente:
Caso Discreto Caso Continuo
Curva de la 
Función de 
Densidad de 
Probabilidad
Función de 
Probabilidad 
Puntual
Un modelo para una variable discreta consiste en una Función de
Probabilidad Puntual, que se exhibe en una tabla totalmente análoga a
la de distribución de frecuencias relativas o se genera a partir de una
fórmula. A cada valor 𝑥𝑖 se le asigna su correspondiente probabilidad.
 P(X = xi) es la probabilidad de que la variable X tome el valor xi.
 Las probabilidades asignadas a los valores de la variable verifican las
propiedades de la frecuencia relativa, a saber:
0 ≤ P(X = 𝑥𝑖) ≤ 1 Es un número no negativo y menor o igual a 1.
σ𝑖=1
𝑛 P(X = xi) = 1 La suma de todas las probabilidades es 1.
Un modelo para una variable continua consiste en una función cuya
gráfica es una curva que encierra un área total igual a 1. Las probabilidades
que se le asignan a los intervalos son las áreas bajo la curva sobre el
intervalo.
La función de se denomina Función de Densidad de Probabilidad f(x)
y sus propiedades son:
 f(x)  0  x  R
׬−∞
+∞
𝑓 𝑥 𝑑𝑥 = 1
𝑃 𝑎 < 𝑋 < 𝑏 = 𝑎׬
𝑏
𝑓 𝑥 𝑑𝑥
Los resúmenes estadísticos que se computan a partir de
una tabla de frecuencias también se pueden considerar en un
modelo de probabilidad.
Son de particular interés la media y la varianza porque
modelizan los correspondientes parámetros poblacionales.
La Media en el modelo es llamada la Esperanza de la variable
y se simboliza con E(X) o también con .
La Varianza se expresa con V(X) o con 2.
Bernoulli de Parámetro p
Binomial de Parámetros n y p
Normal de Parámetros  y 
t de Student
Ji Cuadrado: c2
DISCRETAS
CONTINUAS
Una variable se distribuye según el modelo Bernoulli
cuando toma sólo dos valores.
Estos dos valores se denominan “éxito”, que se codifica
con 1 y “fracaso”, que se codifica con 0. La probabilidad
asignada al éxito se denota con “p” y la de fracaso con q = 1-p .
Notación: X  B(p)
Ejemplos:
La cara que queda hacia arriba al arrojar una moneda arroja
dos resultados cara o ceca.
La respuesta de un sujeto a un ítem, cuando es evaluada como
correcta o incorrecta.
El resultado de un alumno en un examen, cuando se lo clasifica
en aprobado o desaprobado.
El resultado del análisis clínico de un paciente si es registrado
como positivo o negativo. Así, la estructura de una tabla que
representa la distribución de probabilidades de una variable
Bernoulli es:
1 → éxito P 𝑋 = 1 = 𝑝 → Probabilidad de éxito
0 → fracaso P 𝑋 = 0 = 1 − 𝑝 → Probabilidad de fracaso
෍
𝑖
P 𝑋 = 𝑥𝑖 = P 𝑋 = 1 + P 𝑋 = 0 = 𝑝 + 1 − 𝑝 = 1
Observación: una variable Bernoulli queda totalmente caracterizada
conociendo el parámetro 𝑝; es decir, la probabilidad de éxito o
equivalentemente, la probabilidad de fracaso.
Valores 𝑥𝑖 𝑑𝑒 𝑋 1 0
𝑃(𝑋 = 𝑥𝑖) 𝑝 𝑞 = 1 − 𝑝
Una variable sigue un modelo de probabilidad Binomial de
parámetros n, p (y se denota X  B(n,p)) si cuenta la cantidad de éxitos
que ocurren en 𝑛 observaciones de una variable Bernoulli de parámetro
𝑝, que son independientes y con la misma probabilidad de éxito 𝑝.
Los valores de una variable binomial son 0, 1, 2, … , 𝑛, es decir, el
recorrido de dicha variable consta de n+1 valores.
Las probabilidades asociadas a cada uno de los valores de la variable
Binomial resultan de la aplicación de la fórmula:
𝑃 𝑋 = 𝑥𝑖 =
𝑛
𝑥𝑖
𝑝𝑥𝑖(1 − 𝑝)𝑛−𝑥𝑖
Los cómputos a partir de dicha fórmula son facilitados por las
aplicacioneso softwares que devuelven la probabilidad informándoles
los parámetros.
Se lanza 3 veces una moneda al aire y se registra el
número de veces que sale cara en los 3 lanzamientos.
El resultado obtenido en cada lanzamiento puede
considerarse una variable Bernoulli con probabilidad de
éxito ½. Luego, la variable “Cantidad de caras en 3
lanzamientos de la moneda” es una variable Binomial
de parámetros 𝑛 = 3 y 𝑝 = 1/2.
Una prueba consiste de 10 ítems de elección múltiple
con 5 opciones, donde sólo una es correcta. La
probabilidad de responder correctamente cada ítem
por azar es 1/5. La respuesta a un ítem calificada
como correcta o incorrecta es una variable Bernoulli.
Entonces la variable “Cantidad de respuestas correctas
por azar entre los 10 ítems” sigue el modelo Binomial
de parámetros 𝑛 = 10 y 𝑝 = 1/5= 0,20.
 Condición de Estabilidad: la probabilidad de éxito
debe permanecer constante en las n observaciones de la
variable Bernoulli.
En el primer ejemplo la probabilidad de que salga
cara en cada lanzamiento de la moneda es ½.
En el segundo ejemplo la probabilidad de responder
correctamente cada uno de los 10 ítems es 1/5. Si en algún
ítem se modificara la cantidad de opciones; por ejemplo, en
lugar de ser cinco, fueran tres las opciones de respuesta, la
probabilidad de éxito cambiaría y no se mantendría la
condición de estabilidad.
 Condición de Independencia: la probabilidad de
obtener éxito en una observación no aumenta ni
disminuye si se conoce el resultado de otra observación.
La probabilidad de que salga cara en la tercera
tirada no cambia si se sabe que en los lanzamientos
anteriores salió cara, por ejemplo.
La probabilidad de responder correctamente un
ítem, por ejemplo el quinto, no varía si se sabe que el
ítem anterior se contestó mal.
Si se considera la variable del segundo ejemplo que
cuenta la cantidad de ítems correctamente respondidos por
azar entre los 10 presentados es, según se afirmó, Binomial
de parámetros 𝑛=10 y 𝑝 = 0,20; en símbolos X~B(10;0,20).
Los valores de X son: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
La asignación de probabilidades a los valores de una
variable con distribución Binomial de parámetros 𝑛 y
𝑝, puede efectuarse con aplicaciones como, por ejemplo,
Probability Distributions o EXCEL, entre otras.
Sea X la cantidad de ítems correctamente
respondidos al azar entre los 10 presentados.
X ~B(10;0,20)
Se quiere obtener la probabilidad de responder
a) exactamente 2 ítems bien. 
En símbolos: P(X = 2)
b) a lo sumo 4 ítems bien. 
En símbolos: P(X ≤ 4)
c) por lo menos 8. 
En símbolos: P(X ≥ 8)
d) más de la mitad bien. 
En símbolos: P(X >
10
2
) = P(X > 5)
e) entre 3 y 7 ítems (inclusive) bien. 
En símbolos: P(3 ≤ X ≤ 7)
X ~
B(10;0,20)
Probabi-
lidad
puntual 
P(X = 𝑥𝑖)
Probabi-
lidad
acumulada 
P(X ≤ 𝑥𝑖)
0 0,1074 0,1074
1 0,2684 0,3758
2 0,3020 0,6778
3 0,2013 0,8791
4 0,0881 0,9672
5 0,0264 0,9936
6 0,0055 0,9991
7 0,0008 0,9999
8 0,0001 1,0000
9 0,0000 1,0000
10 0,0000 1,0000
La probabilidad de X = 𝑥0 , en símbolos, P(X = 𝑥0 ), se denomina
probabilidad puntual. La probabilidad acumulada hasta el valor 𝑥0 denotada por
P(X ≤ 𝑥0) es la suma de las probabilidades puntuales desde X = 0 hasta X = 𝑥0.
La tabla precedente se puede generar con EXCEL o bien se puede sustituir
por el uso de Probability Distributions.
Solución
a) P(X = 2) = 0,3020
Con los programas informáticos las probabilidades acumuladas se
obtienen de forma directa. Internamente, dichos programas tienen que sumar las
probabilidades individuales como se muestra a continuación:
b) P(X ≤ 4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) =
= 0,1074 + 0,2684 + 0,3020 + 0,2013 + 0,0881= 0,9672 
c) P(X ≥ 8) = P(X = 8) + P(X = 9) + P(X = 10) = 0,0001 + 0,0000 + 0,0000 = 0,0001
O también P(X ≥ 8) = 1 - P(X ≤ 7) = 1 - 0,9999 = 0,0001
d) P(X > 5) = P(X ≥ 6) = (P(X = 6) + P(X = 7) + P(X = 8) + P(X = 9) + P(X = 10) 
= 0,0055 + 0,0008 + 0,0001 + 0,0000 + 0,0000 = 0,0064
O también P(X > 5) = 1 - P(X≤ 5) = 1- 0,9936 = 0,9936
Para el siguiente caso hay que sumar las probabilidades individuales o 
combinar mediante la diferencia de dos acumuladas:
e) P(3 ≤ X ≤ 7) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6) + P(X = 7) =
= 0,2013 + 0,0881 + 0,0264 + 0,0055 + 0,0008 = 0,3221
O también P(X ≤ 7) - P(X ≤ 2) = 0,9999 - 0,6778 = 0,3221
a) P(X = 2) = 0,30199 b) P(X ≤ 4) = 0,96721 c) P(X ≥ 8) = 0,00008
Resúmenes estadísticos de una variable Binomial X de parámetros 𝑛 y 𝑝
Esperanza o Media de X :   𝑛 𝑝
Varianza de X : 2  𝑛 𝑝(1- 𝑝)
Coeficiente de Asimetría de X : 
)1(
21
3
pnp
p



0.1074
0.2684
0.3020
0.2013
0.0881
0.0264
0.00550.00080.00010.00000.0000
0.0000
0.0500
0.1000
0.1500
0.2000
0.2500
0.3000
0.3500
0 1 2 3 4 5 6 7 8 9 10
Distribución de Probabilidades para 
cantidad de items correctos entre 10 
P
ro
b
a
b
il
id
a
d
 p
u
n
tu
a
l 
P
(X
)
X cantidad de ítems correctos entre 10
Para X~B(10;0,20)
 = 10.0,2= 2
2 = 10.0,2.(0,8)= 1,6
𝛼3 = 0,47
2 4 6 8 10 12 14 16 18
0
50
100
150
200
250
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 180
50
100
150
Histograma de áreas y Polígono de frecuencias Histograma de áreas y Polígono de frecuencias
Variable X Variable X
F
re
c
re
la
ti
v
a
 /
 a
n
c
h
o
 d
e
l i
n
te
rv
a
lo
F
re
c
re
la
ti
v
a
 /
 a
n
c
h
o
 d
e
l i
n
te
rv
a
lo
Es un Modelo de Variable Continua para la cual son más
frecuentes los valores próximos a la media y menos frecuentes los
valores alejados de ella.
Ejemplos: cociente intelectual, extraversión, el razonamiento
espacial y variables biológicas tales como el peso, la altura, la
fuerza, la agudeza visual.
Curva Normal (Campana de Gauss)
La ecuación de la curva (función de densidad de probabilidad) normal es:
-3 -2 - + +2 +3
donde: 
 es la media poblacional
 es el desvío poblacional
e es el número irracional 
2,71828....
 es el número irracional 
3,14159....
 y  son los 
parámetros del 
Modelo Normal.
68,3 %
95,4 %
99,7 %
2
𝑓 𝑥 =
1
2. 
𝑒
−0,5
𝑥−𝜇
𝜎
2
 Tiene un único máximo en x = ,
por lo que es unimodal siendo  la
Moda.
 Es simétrica respecto del eje
vertical x = ; por eso  es la
Mediana.
  es también la Media de la
distribución.
Por tanto en  coinciden Media, 
Mediana y Moda.
 Tiene dos puntos de inflexión,
donde cambia la concavidad, en
los puntos correspondientes a la
media más/menos una desviación
estándar: en x = - cambia de
cóncava hacia arriba a cóncava
hacia abajo. En x = + cambia de
cóncava hacia abajo a cóncava
hacia arriba.
 es la Desviación Estándar.
68,3 %
95,4 %
99,7 %
-3 -2 - + +2 +3
2
Características de la curva normal de parámetros  y 
 Se acerca asintóticamente al eje de abscisas tanto por
la derecha como por la izquierda sin llegar a cortarlo.
 El área total bajo la curva indica la probabilidad
correspondiente a la totalidad de los valores y vale 1.
Bajo la curva normal están comprendido el 100% de los
casos.
Notación: X~𝑵(;2) en Bologna o también
X~𝑵(;); esta última, por ser la más
extendida, es la que utilizaremos en adelante.
Donde  = E(X) y 2 = V(X)
Para cada par de valores  y  tenemos una curva normal
distinta, aunque existen características comunes a todas ellas.
X1~
X2~
X3~
𝑁 𝜇1, 𝜎1
𝑁 𝜇2, 𝜎2
𝑁 𝜇3, 𝜎3
𝜇1= 𝜇2 < 𝜇3 𝜎1< 𝜎2 𝜎1= 𝜎3
De todas las curvas normales
se destaca la que tiene media
cero y desviación estándar
uno. Se denomina Normal
Estándar y se simboliza
Z ~ 𝑁 0,1
  0
  1
Puntaje Z
A la variable normal estándar
se la simboliza con Z
(mayúscula) y a sus valores
con 𝑧𝑖(minúscula)
𝜇1= 𝜇2 𝜇3
Los programas informáticos la utilizan internamente para computar las probabilidades
que el usuario requiere, dándoles como entrada los valores de  y de . lo hacen
mediante la transformación que se indica en el siguiente teorema.
Teorema de la tipificaciónpara variables normales.
Sea X~𝑁(;) y sea 𝑧𝑖 = (𝑥𝑖 - )/ entonces P(X≤ 𝑥𝑖) = P(Z ≤ 𝑧𝑖) donde Z ~ 𝑁 0,1
es la normal estándar.
Esta propiedad se muestra gráficamente en las figuras de arriba.
𝑥𝑖 𝑧𝑖 0
P(X ≤ 𝑥𝑖) = P(Z ≤ 𝑧𝑖)
X~𝑁(;) Z ~ 𝑁 0,1
 La probabilidad asignada a un intervalo de valores de X es el área debajo de la curva 
normal que se apoya sobre dicho intervalo.
 De todas las curvas normales, se han calculado las áreas de la normal estándar. A partir 
de estas áreas se pueden conocer las probabilidades asignadas a cualquier intervalo de 
valores de una variable normal X con media  y desviación estándar . 
El Cociente Intelectual se distribuye normalmente en la
población general con una media de 100 y una desviación
estándar de 15.
Hallar
a) El porcentaje de la población con un CI superior a 110.
b) La probabilidad de que una persona elegida al azar tenga
un CI inferior a 95.
c) El porcentaje de la población con un CI entre 85 y 115
(menos de una desviación estándar de la media).
d) El porcentaje de personas con CI entre 110 y 120.
e) El CI mínimo de una persona que pertenece al 2% de
mayores CI de la población.
X N(100,15)
Hallar
a) El porcentaje de la población con
un CI superior a 110.
Hay que hallar P(X > 110) y
multiplicarla por 100.
En la App Probability se elige la
distribución Normal, se indican los
parámetros, se pone x = 110 y se elige
la primera ventana y se lee la
probabilidad a la derecha (puede
redondearse a 4 decimales). En este
caso es 0,25249.
Respuesta: 25,25% de la población
tiene un CI superior a 110.
X = Cociente Intelectual (CI) de una persona elegida al azar de la
población general.
X N(100,15)
Hallar
b) La probabilidad de que una
persona elegida al azar tenga
un CI inferior a 95.
Hay que hallar P(X < 95)
En la App Probability se pone x = 95, se
elige la segunda ventana y se lee la
probabilidad a la derecha. En este caso
es 0,36944.
Respuesta: La probabilidad es 0,3694
X = Cociente Intelectual (CI) de una persona elegida al azar de la
población general.
X N(100,15)
Hallar
c) El porcentaje de la población con un CI entre 85 y
115 (menos de una desviación estándar de la
media).
Hay que hallar P(85<X<115), lo cual es equivalente a
P(-1<Z<1). Por tanto pueden utilizarse cualesquiera de
las dos. La App abre por default la Z, ya que entra con
=0 y =1, con lo cual se puede aprovechar la
estándar para no ingresar los parámetro 100 y 15.
En este caso se trata de un intervalo simétrico con
respecto a cero y la tercera opción da la probabilidad
de las colas; por lo que se puede utilizar y restar a 1
así:
P(-1<Z<1) = 1 – 2P(Z>IzI) (En la aplicación aparece X
en lugar de Z porque no hace la diferencia de
notación).
P(-1<Z<1) = 1 – 0,31731 = 0,68269
El 68,27% de la población tiene un CI entre 85 y 115.
X = Cociente Intelectual (CI) de una persona elegida al azar de la
población general.
X N(100,15)
Hallar
d) El porcentaje de personas con CI entre 110 y 120.
Corresponde al área bajo la curva entre 110 y 120.
X = Cociente Intelectual (CI) de una persona elegida al azar de la
población general.
Respuesta: 16,13%
Para hallarla es necesario hacer la
diferencia entre las dos
probabilidades acumuladas hasta
120 y 110:
P(110<X<120)=P(X<120)–P(X<110)=
= 0,90879 – 0,74751 = 0,16128
X N(100,15)
Hallar
e) El CI mínimo de una persona que
pertenece al 2% de mayores CI de
la población.
Es un problema inverso a los
anteriores: se da una probabilidad
(dato que se carga en la ventana de la
derecha) y se pide obtener el valor de
la variable, percentil, que el programa
devuelve en la ventana de la
izquierda.
Debe hallarse el percentil 98. Es decir,
el valor de la variable que supera al
98% y es superado por el 2%. Por tanto
pueden usarse tanto la segunda
ventana con P(X≤x) = 0,98 o la primera
con P(X≥x) = 0,02.
El cociente intelectual mínimo para
pertenecer al 2% de mayores CI es,
redondeado a un valor entero, 131.
Otro modelo de variables por ser utilizado en este curso
para variables continuas será la distribución Ji Cuadrado
(𝝌𝟐).
Entre sus varios usos se destacan:
Inferencia sobre una varianza
Test de bondad de ajuste
Test de independencia
Sus probabilidades se buscan con programas estadísticos.
A diferencia de la distribución normal, la 𝜒2 no es
simétrica. Uno de los parámetros de los que depende son
los “grados de libertad” que, en los problemas aplicados,
están en relación con el tamaño de muestra.
Distribución Ji (Chi) Cuadrado con n grados de libertad : 
X  𝝌𝟐
n = 1
n = 2
n = 3
n = 4
n = 5
Es similar a la normal estándar: simétrica con respecto a cero pero
con más varianza, más “cargada en las colas”.
Depende del parámetro n, los grados de libertad que, cuanto mayor
es, la curva se asemeja más a la Normal.
Se utiliza para hacer inferencias sobre una media, sobre una
diferencia de medias y sobre parámetros de regresión.

Más contenidos de este tema