Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
PRACTICA DE BIOESTADÍSTICA Custodio Jaimes, Rosa María. PREGUNTA 1: Utilice la base de datos enfermedad. xlsx En una población se selecciona al azar una muestra de varones mayores de 40 años, en el momento de comenzar el estudio no tienen criterios de enfermedad coronaria, se observa su evolución durante cinco años, y se anota quienes han desarrollado criterios de enfermedad coronaria. Las personas que han desarrollado enfermedad coronaria en el transcurso del estudio se codifican con un uno en la variable Y, y con un cero si no la han desarrollado al finalizar el estudio. La variable X1 se codifica con un cero para los no fumadores y con un uno para los fumadores, la edad (X2) en años es la que tenían los integrantes de la muestra al ser incluidos en el estudio. Realice un análisis de regresión logística para predecir la enfermedad coronaria. Las personas con el hábito de fumar son más propensas a tener una enfermedad coronaria que las personas que no fuman. Las personas de mayor edad, de alrededor de 60 años, son más propensas sufrir una enfermedad coronaria que personas con alrededor de 50 años. Prueba Global: Deviance Residual = 47.71 Deviance nulo = 69.59 Deviance residual < Deviance nulo; por lo tanto, el modelo es significativo. Prueba de Wald El p-valor de las variables hábito de fumar y edad fueron significativos (p-valor < 0.05); por lo tanto en la ecuación de regresión, son consideradas ambas. Pr(Y) = 1 1 + e−(−11.3594+2.8902+0.1467) La matriz de confusión, por su parte, con un umbral de 0.5, muestra que este modelo acertó en 39 personas que no tuvieron la enfermedad coronaria durante el tiempo de estudio y 9 personas que sí. PREGUNTA 2: Utilice la base de datos composición química.csv Los datos corresponden a las composiciones químicas de un grupo de plantas de cerámica Clasificar muestras de cerámica en función de su composición química (Realizar un análisis de clúster) Eliminamos la variable “Part” por ser cuantitativa y no influir en nuestro análisis. Estandarizamos las variables: Usando el método completo del clustering particional, obtenemos que por mayoría nos recomienda hacer el análisis con 3 clusters. Comprobamos la estabilidad para 3 clusters con el coeficiente de Jaccard de Jittering y Bootstrap, siendo mayor a 0.7 en los 3 grupos para ambos casos. Comprobamos la estabilidad para 4 clusters, resultando el primer cluster inestable (Coeficiente de Jaccard = 0.47) Elegimos 3 clusters y obtenemos los gráficos de cajas para comparar sus porcentajes en peso y ppm de los diferentes compuestos químicos de las cerámicas. 2 de los 17 boxplot obtenidos: El porcentaje en peso de Na2O es mayor en el Cluster 2, en el Cluster 1 y 3 este porcentaje en peso es similar, siendo el rango del Cluster 1 mayor al del Cluster 2. El porcentaje en peso de Al2O3 es significativamente mayor en el Cluster 3; mientras el Cluster 2, de amplio rango, posee más porcentaje en peso de Al2O3 que las plantas de cerámica del Cluster 1. Luego se realizó el análisis con los métodos jerárquicos: Finalmente, al usar el código para encontrar el mejor método, obtenemos el método del promedio; sin embargo, al usar este método con 3 clusters vemos que el cluster 3 y el cluster 3 poseerían solo un elemento cada uno, es por esto que en su lugar preferimos el método Ward, que clasificaba de una mejor manera las distintas plantas de cerámica incluidas en el estudio. La clasificación de estas quedaría de la siguiente forma:
Compartir