Logo Studenta

Práctica de Bioestadística

¡Estudia con miles de materiales!

Vista previa del material en texto

PRACTICA DE BIOESTADÍSTICA 
Custodio Jaimes, Rosa María. 
PREGUNTA 1: Utilice la base de datos enfermedad. xlsx 
En una población se selecciona al azar una muestra de varones mayores de 40 años, en el 
momento de comenzar el estudio no tienen criterios de enfermedad coronaria, se observa su 
evolución durante cinco años, y se anota quienes han desarrollado criterios de enfermedad 
coronaria. Las personas que han desarrollado enfermedad coronaria en el transcurso del 
estudio se codifican con un uno en la variable Y, y con un cero si no la han desarrollado al finalizar 
el estudio. La variable X1 se codifica con un cero para los no fumadores y con un uno para los 
fumadores, la edad (X2) en años es la que tenían los integrantes de la muestra al ser incluidos 
en el estudio. 
Realice un análisis de regresión logística para predecir la enfermedad coronaria. 
 
Las personas con el hábito de fumar son más propensas a tener una enfermedad coronaria que 
las personas que no fuman. 
 
Las personas de mayor edad, de alrededor de 60 años, son más propensas sufrir una enfermedad 
coronaria que personas con alrededor de 50 años. 
 
Prueba Global: 
Deviance Residual = 47.71 
Deviance nulo = 69.59 
 
Deviance residual < Deviance nulo; por lo tanto, el modelo es significativo. 
Prueba de Wald 
El p-valor de las variables hábito de fumar y edad fueron significativos (p-valor < 0.05); por lo 
tanto en la ecuación de regresión, son consideradas ambas. 
Pr(Y) =
1
1 + e−(−11.3594+2.8902+0.1467)
 
La matriz de confusión, por su parte, con un umbral de 0.5, muestra que este modelo acertó en 
39 personas que no tuvieron la enfermedad coronaria durante el tiempo de estudio y 9 personas 
que sí. 
PREGUNTA 2: Utilice la base de datos composición química.csv 
Los datos corresponden a las composiciones químicas de un grupo de plantas de cerámica 
Clasificar muestras de cerámica en función de su composición química (Realizar un análisis de 
clúster) 
Eliminamos la variable “Part” por ser cuantitativa y no influir en nuestro análisis. 
Estandarizamos las variables: 
 
Usando el método completo del clustering particional, obtenemos que por mayoría nos 
recomienda hacer el análisis con 3 clusters. 
 
Comprobamos la estabilidad para 3 clusters con el coeficiente de Jaccard de Jittering y 
Bootstrap, siendo mayor a 0.7 en los 3 grupos para ambos casos. 
Comprobamos la estabilidad para 4 clusters, resultando el primer cluster inestable (Coeficiente 
de Jaccard = 0.47) 
Elegimos 3 clusters y obtenemos los gráficos de cajas para comparar sus porcentajes en peso y 
ppm de los diferentes compuestos químicos de las cerámicas. 
2 de los 17 boxplot obtenidos: 
 
El porcentaje en peso de Na2O es mayor en el Cluster 2, en el Cluster 1 y 3 este porcentaje en 
peso es similar, siendo el rango del Cluster 1 mayor al del Cluster 2. 
 
El porcentaje en peso de Al2O3 es significativamente mayor en el Cluster 3; mientras el Cluster 
2, de amplio rango, posee más porcentaje en peso de Al2O3 que las plantas de cerámica del 
Cluster 1. 
Luego se realizó el análisis con los métodos jerárquicos: 
Finalmente, al usar el código para encontrar el mejor método, obtenemos el método del 
promedio; sin embargo, al usar este método con 3 clusters vemos que el cluster 3 y el cluster 3 
poseerían solo un elemento cada uno, es por esto que en su lugar preferimos el método Ward, 
que clasificaba de una mejor manera las distintas plantas de cerámica incluidas en el estudio. 
La clasificación de estas quedaría de la siguiente forma:

Continuar navegando