Logo Studenta

Estadística descriptiva - GeoGebra recurso para nuevas matemáticas

¡Este material tiene más páginas!

Vista previa del material en texto

ESTADÍSTICA CON GEOGEBRA 
Virgilio Gómez Rubio Mª José Haro Delicado 
Baeza 2014 
1 
GEOGEBRA COMO RECURSO PARA 
UNAS NUEVAS MATEMÁTICAS 
 
 
ESTADÍSTICA DESCRIPTIVA 
2 
Estadística descriptiva 
1. El puntaje de Apgar se usa para evaluar reflejos y 
respuestas de recién nacidos. A cada bebé un 
profesional de la medicina le asigna un puntaje y los 
valores posibles son enteros entre cero y diez. Se toma 
una muestra de 1000 bebés nacidos en cierto condado 
y los resultados han sido los siguientes: 
 
 
 
• Halla la media de los puntajes de Apgar. Halla la 
desviación típica de la muestra. 
• Halla la mediana muestral. 
• ¿Cuáles son los cuartiles primero y tercero? 
 
0 1 2 3 4 5 6 7 8 9 10 
1 3 2 4 25 35 198 367 216 131 18 
3 
Resolviendo con Geogebra 
• Abrimos la hoja de cálculo 
• Introducimos en la 1ª columna los valores de la variable y en la segunda 
las frecuencias absolutas 
• Creamos sendas listas. 
 
 
 
 
 
 
 
 
 
4 
Cálculo de las medidas de centralización y dispersión 
Media[ <Lista de Números>, <Lista de Frecuencias> ]  media =7.14 
 
Mediana[ <Lista de Números>, <Lista de Frecuencias> ]  mediana =7 
 
La moda sólo se puede calcular para valores sin agrupar 
 
Varianza poblacional: Varianza[ <Lista de Números>, <Lista de Frecuencias> ]  
1.72 
 
Varianza muestral: VarianzaMuestral[ <Lista de Números>, <Lista de Frecuencias> 
] 
 
Desviación típica poblacional: DE[ <Lista de Números>, <Lista de Frecuencias> ] 
 
Desviación típica muestral: DEMuestral[ <Lista de Números>, <Lista de 
Frecuencias> ] 1.31 
 
Q1[lista1, lista2] 6 Q3[lista1, lista2] 8 
 
 
5 
Algunas representaciones gráficas 
2. En un estudio sobre la amnesia postraumática tras una lesión 
craneal, se estudió el tiempo en días que estuvieron los pacientes en 
coma. Se recogieron los datos siguientes: 
2 8 9 14 16 6 10 8 7 
13 12 11 11 11 13 15 10 11 
15 12 20 
 
• Construir un diagrama de barras 
• Construir un diagrama de tallo y hojas para estos datos. ¿Parecen 
estar los datos simétricamente distribuidos? 
• Construir un diagrama de cajas y bigotes para los datos. ¿Da la 
misma impresión de simetría que con el diagrama de tallo y hojas? 
• ¿Existen datos puntuales que puedan considerarse como atípicos? 
 6 
DIAGRAMA DE BARRAS 
Barras[ <Lista de Datos en Bruto>, <Ancho de 
Barras> ] 
Si el ancho de barras es 0, se obtiene una 
especie de agujas a diferentes alturas. 
También se puede trabajar con frecuencias y con 
otras opciones. 
 
En este caso, como los 
valores de la variable van 
de 1 en 1, es conveniente 
que el ancho de las 
barras sea de longitud 1 
7 
DIAGRAMA DE TALLOS Y HOJAS 
DiagramaTalloHojas[ <Lista> ] 
 
8 
DIAGRAMA DE TALLOS Y HOJAS 
DiagramaTalloHojas[ <Lista>, <Ajuste -1|0|1> ] 
 
9 
En este caso el valor del ajuste es -1. 
Significa que la unidad se divide por 
10. 
Los valores a cuyo lado no aparece 
el cero no corresponden a valores 
de la variable. 
 
DIAGRAMA DE CAJAS Y BIGOTES 
DiagramaCaja[ <Offset_y>, <Escala_y>, <Lista de 
Datos en Bruto> ] 
 
 
10 
El problema de calcular el diagrama de cajas y bigotes 
utilizando la instrucción anterior es que los bigotes se 
extienden hasta los valores máximo y mínimo, con lo 
cual, no sirve para detectar los valores atípicos. 
 
3.Parte de un estudio de control de calidad tuvo como 
objetivo mejorar una línea de producción. Se midieron los 
pesos (en onzas) de 50 barras de jabón. Los resultados 
son los siguientes, ordenados de menor a mayor. 
 
11 
a) Construye un diagrama de tallos y hojas para estos 
datos. 
b) Construye un histograma para estos datos. 
c) Construye un diagrama de cajas para estos datos. 
¿Identifica datos atípicos? 
 
Usaremos Análisis de una variable 
Seleccionamos nuestros datos en la hoja de 
cálculo y hacemos clic sobre “Análisis de una 
variable” y después en “analiza” 
 
12 
13 
Si pinchamos sobre el botón que 
indica la flecha anterior, 
podemos agregar la tabla de 
frecuencias y el polígono de 
frecuencias entre otras cosas. 
La tabla de la izquierda en la que 
aparecen las medidas de 
centralización, posición y 
dispersión, se obtiene pinchando 
sobre el botón en el que aparece 
el signo sumatorio. 
 
 
14 
Si hay frecuencias absolutas, éstas, deben formar parte de una lista y 
pinchando sobre la rueda de la esquina superior derecha, podemos 
introducirlas. Para hacerlo, seleccionamos la columna que las contenga 
y pinchamos sobre la mano que aparece encima de las celdas 
 
15 
16 
17 
Para el diagrama de cajas, se procede de manera similar. Se nos 
da la opción de que aparezcan los datos atípicos, si los hay. 
 
18 
A PRACTICAR 
ESTADÍSTICA DESCRIPTIVA 
PARA DOS VARIABLES 
19 
20 
21 
Introducimos los datos en dos columnas y usamos la opción Análisis regresión 
de dos variables. De esta forma, obtenemos tanto el diagrama de dispersión, 
como el diagrama de residuos y un resumen estadístico de la relación entre las 
dos variables. Se realizan diversos tipos de ajustes y se pueden usar para predecir 
valores de la variable dependiente. 
Se pueden intercambiar las variables, pasando la variable dependiente a ser 
independiente. 
 
22 
También se puede realizar usando comandos seleccionando previamente las dos 
columnas de datos y eligiendo la opción “crea lista de puntos” 
 AjusteLineal[ <Lista de Puntos> ] 
23 
El diagrama de residuos lo podemos obtener con la opción 
 DiagramaResidual[ <Lista de Puntos>, <Función> ] 
introduciendo en la opción Función, la ecuación de la recta obtenida previamente. 
Para obtener el coeficiente de correlación, usaríamos 
Spearman[ <Lista de Puntos> ] 
También hay opciones para calcular las medias, varianzas y 
desviaciones típicas marginales, así como para calcular la 
covarianza. 
 
A PRACTICAR 
24 
VARIABLES Y MODELOS DE 
DISTRIBUCIÓN 
25 
26 
27 
a) Creamos un deslizador para c y representamos gráficamente la función f(x)=cx. El 
deslizador se puede iniciar en 0, ya que una de las condiciones que debe cumplir una 
función de densidad es el ser positiva, f(x)>0 y, en este caso, x[0,2] 
Se calcula el área en función del valor de c con el comando 
Integral[ <Función>, <Valor Inicial de x>, <Valor Final de x> ] 
b) Después de obtener el valor de c, en este caso de 0.5, calculamos 
 
28 
c) Para calcular la media usamos 
Integral[x*0.5*x,0,2]. Obtenemos 
 
d) Para hallar la varianza, podemos usar 
Integral[x² 0.5 x, 0, 2] – (Integral[x 0.5 x, 0, 2])^2 
e) Para hallar la función de distribución, podemos 
crear un nuevo deslizador, k, que tome valores en el 
intervalo [0,2]. A continuación, obtenemos el valor 
distribución=Integral[0.5 x, 0, k]. 
Para que se visualice la función de distribución 
creamos el punto A(k, distribución) y activamos el 
rastro, poniendo el deslizador k en animación 
automática. 
 
29 
h) Para responder a esta pregunta basta con calcular 
Integral[0.5*x,0.8,2] 
 
A PRACTICAR 
30 
2. La lectura de un termómetro calibrado en agua helada 
(temperatura real de 0ºC) representa una variable aleatoria con 
función de densidad de probabilidad : 
 
 
 
Determina el valor de k 
¿Cuál es la probabilidad de que el termómetro indique una 
temperatura mayor a 0ºC? 
¿Cuál es la probabilidad de que la lectura esté dentro de los 
0.25ºC de la temperatura real? 
¿Cuál es la media de la lectura? 
¿Cuál es la mediana de la lectura? 
¿Cuál es la desviación típica? 
 
 
 


 

 caso otro cualquier en0
111
)(
2
xxk
xf
31 
3. Las puntuaciones de una prueba 
estandarizada se distribuyen normalmente con 
media de 480 y desviación típica de 90. 
¿Cuál es la proporción de puntuaciones 
mayores a 700? 
¿Cuál es el 25º percentil de las 
puntuaciones? 
Si la puntuación de alguien es de 600 ¿En 
qué percentil se encuentra? 
¿Qué proporción de las puntuaciones se 
encuentra entre 420 y 520? 
 
32 
a) 1 - Normal[480, 90, 700]=0.0073b) NormalInversa[ <Media>, <Desviación 
Estándar>, <Probabilidad> ] 
NormalInversa[480,90,0.25]=419.296. 
Consideramos que es el percentil 420 
c) Normal[ <Media>, <Desviación Estándar>, 
x, <Booleana Acumulativa> ] 
Normal[480, 90, 600, true]=0.909, lo que 
implica prácticamente un percentil 91 
d) Normal[ 480,90, 520,true]-Normal[480,90, 
420,true]=0.419 
 
APROXIMACIÓN DE LA BINOMIAL 
MEDIANTE LA NORMAL 
33 
34 
1. El 45% de los condensadores de una cierta partida presenta deficiencias 
a) ¿Cuál es la probabilidad de que presenten deficiencias 1, 2, 3, 4,…,10 de los 
condensadores? 
b) ¿Cuál es la probabilidad de que de diez condensadores presenten deficiencias un 
número menor o igual a la mitad. 
c) ¿Puede la distribución aproximarse a la distribución normal? 
Calcula la probabilidad de que de diez condensadores examinados, la mitad 
presente dichas deficiencias utilizando la distribución normal. 
 
a)Distribución Binomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Acumulada 
Booleana> ] 
DistribuciónBinomial[10, 0.45, false] 
 
 
35 
b) DistribuciónBinomial[ <Número de Ensayos>, <Probabilidad de Éxito>, <Valor 
de Variable>, <Acumulada Booleana> ] 
DistribuciónBinomial[ 10,0.45,5,true]=0.738 
 
c) nq=5.5>5, µ=np=0.4510=4.5 no es mayor o igual que 5, pero no queda muy 
lejos, por lo tanto, aunque muy en el límite, lo podríamos admitir. 
2=npq=100.450.55=2.475; =1.57 
 
 
 
 
 
Normal[ <Media>, <Desviación Estándar>, x, <Booleana Acumulativa> ] 
Normal[4.5, 1.57, 5.5,true]- Normal[4.5, 1.57, 4.5,true]=0.738-0.5=0.238 
 
Si queremos comparar con el valor que se obtiene mediante el modelo binomial 
usamos, DistribuciónBinomial[ <Número de Ensayos>, <Probabilidad de Éxito>, 
<Valor de Variable>, <Acumulada Booleana> ] = DistribuciónBinomial[10, 0.45, 
5,False ]= 0.234 
 
 
 
  




 



57.1
5.45.5
57.1
5.45.4
5 ZPP 
36 
Otra forma de hacer lo mismo: 
37 
Vamos a hacer un estudio más exhaustivo de la aproximación del modelo 
binomial por el modelo normal, analizando modelos binomiales con diferentes 
medias y desviaciones típicas y comparándolo con el modelo normal 
Vamos a crear dos deslizadores, uno que tomará los valores para n y otro para 
p. 
 
El deslizador para n abarcará un rango que vaya, por ejemplo, desde 1 hasta 
1000, con pasos de 1 en 1. El deslizador para p irá desde 0 a 1, con pasos de 
0.01. 
 
Aunque especifiquemos así los pasos, es difícil que los saltos no sean mayores 
y que haya valores que nos saltemos. Para solventar este problema, podemos 
crear casillas de control. Les damos los nombres n= y p= y los vinculamos al 
deslizador correspondiente. Podemos modificar la longitud de la casilla de 
entrada en estilo. 
 
Creamos la distribución binomial con DistribuciónBinomial[n,p] y dos 
variables 
 
 
 
 
38 
Ajustamos una curva normal de media  y desviación típica , con 
Normal[,,x]. 
Para que sean los que sean los valores de p y de n la imagen se muestre 
siempre en pantalla, iremos a Vista gráfica y modificaremos el rango en 
los ejes. 
Eje X (-3, +3) 
Eje Y (-0.1, f()+0.1 
Como en las casillas correspondientes de la vista gráfica no podemos 
introducir directamente los símbolos  y , los introducimos en la 
entrada, los copiamos (control c) y los pegamos después (control V). 
 
39 
Si queremos calcular las probabilidades de que la variable esté en 
determinados intervalos, lo podemos hacer con la función Integral y 
hablar del factor de corrección de Yates. Por ejemplo, si queremos 
calcular la probabilidad de que r4, deberíamos hacerlo con 
Integral[f, -∞, 4.5]. 
Para estudiar en qué casos se puede aproximar el modelo binomial por 
el modelo normal, podemos fijar los valores de p e ir variando los de n 
con la animación automática. De esta forma observamos cómo 
evoluciona el ajuste de ambos modelos. 
 
DISTRIBUCIÓN DE LA MEDIA MUESTRAL 
TEOREMA CENTRAL DEL LÍMITE 
40 
41 
MODELO DE DISTRIBUCIÓN UNIFORME 
 
En la casilla A1 ponemos UniformeAleatoria[0, 1]. 
 
Extendemos hacia abajo para generar una muestra, tantas 
casillas como tamaño queramos para la muestra (tomemos 
n=40). 
 
A continuación, nos movemos hacia la derecha para generar 
más muestras del mismo tamaño. 
 
En la casilla A41 escribimos Media[A1:A40], se obtiene la 
media y nos movemos hacia la derecha para obtener las 
medias de todas las muestras. Creamos una lista con esas 
medias (llamémosla lista1). 
 
 
42 
Ahora toca representarlas y lo hacemos con la siguiente 
instrucción. 
Histograma[Clases[lista1, 10], lista1, false]. 
Hemos utilizado la instrucción Histograma[ <Lista de límites de 
clases>, <Lista de datos brutos>, <Usar densidad o no 
(true/false)>, <Factor de escala de densidad (opcional)> ]. 
 
Para <lista de límites de clase> hemos incluido la instrucción 
Clases[ <Lista de datos>, <Número de clases> ]. <Lista de datos> 
es la lista que contiene las medias muestrales, y <Número de 
clases> contiene el número de intervalos que queremos obtener. 
<Lista de datos brutos> es de nuevo nuestra lista de medias 
muestrales y no usaremos densidades, poniendo false en la zona 
correspondiente. Hemos dicho que se genere un histograma con 
10 intervalos, con los valores de lista 1. 
43 
Para que se vea bien el histograma, ponemos en vista gráfica 
como valores mínimo y máximo de la x, -0.1 y 1.1, 
respectivamente. 
 
Ahora representamos la curva normal correspondiente al modelo 
de distribución uniforme [0,1] que tiene una media de: 
 
 
 
 
y una desviación típica igual a 
 
2
1
201
1
1
0
2
1
0









x
dxx
40
12
1
40
4
1
3
1
40
4
1
3
40
1
0
3
21
0
2












x
dxx 

44 
Lo hacemos con la instrucción Normal[0.5,1/sqrt(12*40),x] 
 
Para representar la curva uniforme usamos Uniforme[0,1,x] 
 
45 
Si queremos hacer un estudio de la variable correspondiente a las 
medias muestrales, podemos seleccionar la columna y hacer clic 
sobre Análisis de una variable. 
 
Si se pone, histograma 
normalizado se superpone una 
curva normal de media la 
media de las medias 
muestrales y desviación típica 
la de las medias muestrales. 
También obtendremos un 
resumen de las medidas de 
centralización y dispersión de 
la variable medias muestrales. 
 
46 
47 
Podemos analizar la normalidad de los datos 
escogiendo Gráfico Q-Q Cuantil Normal 
48 
A PRACTICAR 
 
 
 
Analizad la media muestral 
para muestras procedentes 
de un modelo de Poisson 
 
 
 
 
 
49 
INTERVALOS DE CONFIANZA Y 
CONTRASTE DE HIPÓTESIS 
50 
1. Un atleta efectúa seis lanzamientos, 
obteniendo distancias de 58, 69, 64, 57, 64 y 
66 metros. Halla un intervalo de confianza 
para la media del 90%. Contrastar la hipótesis 
de que la media poblacional es mayor o igual 
que 66. 
 
IntervaloMediaT[ <Lista de datos (muestra)>, <Nivel> ] 
 
 En lista 2, geogebra nos 
devuelve los extremos del 
intervalo 
51 
Para realizar el contraste de hipótesis, consideramos 
como hipótesis alternativa H1: <66, frente a la hipótesis 
nula H0: 66 
 
TestMediaT[ <Lista de datos (muestra)>, <Media 
(hipótesis)>, <Cola> ] 
 
TestMediaT[ <lista1, 66, “<” ]. 
 
La respuesta es lista2 = {0.09, -1.58}. 
El primer valor corresponde al p-valor 
El segundo valor, corresponde al estadístico de 
contraste. 
 
 
52 
2. En una muestra de tamaño 
n=16, se mide una media 6 y una 
desviación típica s=12. ¿Es el valor 
de la media significativamente 
mayor que 0? Usa un nivel de 
confianza de =0.05 
 
53 
En este caso no disponemos de los datos en bruto, 
podemos usar 
TestMediaT[ <Media (muestra)>, <Desviación estándar (muestra)>, <Tamaño 
(muestra)>, <Media (hipótesis)>, <Cola> ] 
 
Hay otra forma: 
Vamos a calculadora 
de probabilidades, 
dentro del menú que 
ofrece la hoja de 
cálculo 
54 
O bien, dentro del menú de la vista gráfica 
55 
Diferentes tests que se pueden utilizar 
56 
Si queremos obtener un intervalo T de confianza parala 
media… 
57 
A PRACTICAR 
 
3. Se quiere averiguar si ha habido una reducción 
significativa en el porcentaje de votantes a un 
determinado partido político, en el último año. Para 
ello se eligieron al azar 100 personas y se les preguntó 
si votarían al partido en cuestión, obteniéndose un 
porcentaje de respuestas afirmativas del 39%. Si el 
porcentaje de votantes a favor del partido 
considerado era del 42% hace un año, cuando se 
preguntó a 150 personas, contrasta a nivel de 
significación =0.05 si la reducción habida ha sido 
significativa. 
 
 
58 
4. En el laboratorio de física, dos alumnos realizan varias 
medidas sobre la relación carga-masa (e/m) del 
electrón, obteniendo los siguientes resultados: 
 
 
 
¿Es el valor de la relación carga-masa obtenido por el 
segundo alumno significativamente menor que el 
valor real: ? 
Suponiendo varianzas poblacionales iguales, calcula 
un intervalo de confianza para la diferencia de 
medias ¿Son las medias significativamente diferentes 
entre sí? Usa =0.05 en todos los casos. 
 
kgCme /1075.1/ 11
59 
ANOVA 
60 
Para trabajar el análisis de la varianza, podemos teclear 
en la línea de entrada ANOVA[ <Lista>, <Lista>, ... ] 
 
61 
Introducimos los datos utilizando la hoja de cálculo y creamos varias 
listas, tantas como tratamientos diferentes haya. 
 
Utilizamos la instrucción ANOVA[ <Lista>, <Lista>, ... ] 
 
En una nueva lista aparecen dos valores 
 
El primero corresponde al p-valor 
 
El segundo valor corresponde al estadístico de contraste (cociente de 
cuadrados medios). 
 
62 
Si queremos realizar un análisis individual de las variables, 
podemos utilizar “Análisis multivariable” 
 
63 
También podemos realizar el análisis de la varianza desde el mismo 
sitio, e incluso contrastes de hipótesis e intervalos de confianza para 
la diferencia de medias 
64 
A PRACTICAR 
65 
MUCHAS GRACIAS

Continuar navegando