Práctica de Bioestadística

Bioestadística I

•

SIN SIGLA

0

Rosa María Custodio

4/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Bioestadística I

12.434 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

PRACTICA DE BIOESTADÍSTICA
Custodio Jaimes, Rosa María.
PREGUNTA 1: Utilice la base de datos enfermedad. xlsx
En una población se selecciona al azar una muestra de varones mayores de 40 años, en el
momento de comenzar el estudio no tienen criterios de enfermedad coronaria, se observa su
evolución durante cinco años, y se anota quienes han desarrollado criterios de enfermedad
coronaria. Las personas que han desarrollado enfermedad coronaria en el transcurso del
estudio se codifican con un uno en la variable Y, y con un cero si no la han desarrollado al finalizar
el estudio. La variable X1 se codifica con un cero para los no fumadores y con un uno para los
fumadores, la edad (X2) en años es la que tenían los integrantes de la muestra al ser incluidos
en el estudio.
Realice un análisis de regresión logística para predecir la enfermedad coronaria.

Las personas con el hábito de fumar son más propensas a tener una enfermedad coronaria que
las personas que no fuman.

Las personas de mayor edad, de alrededor de 60 años, son más propensas sufrir una enfermedad
coronaria que personas con alrededor de 50 años.

Prueba Global:
Deviance Residual = 47.71
Deviance nulo = 69.59

Deviance residual < Deviance nulo; por lo tanto, el modelo es significativo.
Prueba de Wald
El p-valor de las variables hábito de fumar y edad fueron significativos (p-valor < 0.05); por lo
tanto en la ecuación de regresión, son consideradas ambas.
Pr(Y) =
1
1 + e−(−11.3594+2.8902+0.1467)

La matriz de confusión, por su parte, con un umbral de 0.5, muestra que este modelo acertó en
39 personas que no tuvieron la enfermedad coronaria durante el tiempo de estudio y 9 personas
que sí.
PREGUNTA 2: Utilice la base de datos composición química.csv
Los datos corresponden a las composiciones químicas de un grupo de plantas de cerámica
Clasificar muestras de cerámica en función de su composición química (Realizar un análisis de
clúster)
Eliminamos la variable “Part” por ser cuantitativa y no influir en nuestro análisis.
Estandarizamos las variables:

Usando el método completo del clustering particional, obtenemos que por mayoría nos
recomienda hacer el análisis con 3 clusters.

Comprobamos la estabilidad para 3 clusters con el coeficiente de Jaccard de Jittering y
Bootstrap, siendo mayor a 0.7 en los 3 grupos para ambos casos.
Comprobamos la estabilidad para 4 clusters, resultando el primer cluster inestable (Coeficiente
de Jaccard = 0.47)
Elegimos 3 clusters y obtenemos los gráficos de cajas para comparar sus porcentajes en peso y
ppm de los diferentes compuestos químicos de las cerámicas.
2 de los 17 boxplot obtenidos:

El porcentaje en peso de Na2O es mayor en el Cluster 2, en el Cluster 1 y 3 este porcentaje en
peso es similar, siendo el rango del Cluster 1 mayor al del Cluster 2.

El porcentaje en peso de Al2O3 es significativamente mayor en el Cluster 3; mientras el Cluster
2, de amplio rango, posee más porcentaje en peso de Al2O3 que las plantas de cerámica del
Cluster 1.
Luego se realizó el análisis con los métodos jerárquicos:
Finalmente, al usar el código para encontrar el mejor método, obtenemos el método del
promedio; sin embargo, al usar este método con 3 clusters vemos que el cluster 3 y el cluster 3
poseerían solo un elemento cada uno, es por esto que en su lugar preferimos el método Ward,
que clasificaba de una mejor manera las distintas plantas de cerámica incluidas en el estudio.
La clasificación de estas quedaría de la siguiente forma: