Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Uso de software (Infostat) para describir datos derivados de variables categóricas y cuantitativas Para ingresar una tabla de datos deben ir a “Archivo”, “Abrir”. Allí buscan el archivo correspondiente. Otra opción es, si tienen el archivo abierto en otro programa (Ej: Excel o Block de notas), pueden copiar el archivo (ctrl+c) y luego en Infostat van a “Archivo”, “Nueva Tabla” y en la nueva tabla (vacía) hagan “click derecho” y seleccionen “Pegar incluyendo nombre de columnas”. Ahora si, teniendo la tabla de datos cargada podemos comenzar a trabajar! - Cuando tenemos datos derivados de 2 variables categóricas: A modo de ejemplo, vamos a usar el archivo “Dengue.txt” (que es el mismo que usamos como ejemplo en la guía teórica nro 2). Lo primero que podemos hacer, dado que tenemos dos variables categóricas (Serotipo de Dengue y Efectividad del kit diagnóstico, medida como “si detecta” o “no detecta”) es hacer una tabla de contingencia. Para esto vamos a “Estadísticas”, “Datos categorizados”, “tablas de contingencia” (ver figura). Allí debemos “mover” las dos variables al recuadro “Criterios de clasificación” (así llama el software a las variables categóricas). Para esto, hacer click en cada variable y luego presionar la flecha que apunta a la derecha (ver Figura, marcado en rojo), “Aceptar”. En el nuevo recuadro que se abre, deben seleccionar qué variable quieren que vaya en las filas de la tabla de contingencia, y qué variable prefieren que vaya en columnas. Y en la solapa “opciones” del mismo recuadro (arriba a la derecha, ver figura), seleccionen “Frecuencias absolutas”, “Frecuencias relativas por filas” (marginales), “Frecuencias relativas por columnas” (marginales) y “frecuencias relativas al total”. Por lo pronto, saquen el click que ya viene por defecto en los otros casilleros. Más adelante veremos cómo interpretarlos, pero por ahora quítenle la marca así no confunden, “Aceptar”. Ahora sí, el resultado que obtienen son las 4 tablas de contingencia que hemos visto en clases (frecuencias absolutas, o conteos), frecuencias relativas por filas (marginales), frecuencias relativas por columnas (marginales) y frecuencias relativas al total. Para graficar este tipo de variables, usando los distintos tipos de gráficos que hemos visto en clases (barras, barras apiladas, torta, con todas sus acepciones: frecuencias relativas, absolutas, barras apiladas al 100% etc), ir a “gráficos” y seleccionar la opción deseada. O sino, Excel!! - Cuando tenemos una variable cuantitativa y una categórica. Para ejemplificar esto vamos a tomar el archivo flavi_alfa.txt que usamos en la clase 4. Recordemos que este archivo contiene el largo (en bases) de genomas disponibles en la base de datos biológica NCBI para virus de dos géneros: Flavivirus y Alphaflexivirus a) Histograma Lo primero que haremos, imitando lo hecho en la guía teórica, es graficar todos los datos de “largo” juntos (sin discriminar por género viral). Para hacer un histograma de esto, ir a “gráficos”, “histograma”. Allí seleccionar la variable (Length, largo) y moverla al recuadro “variables” usando la flechita que apunta a la derecha. “Aceptar”. De esta manera obtendrán el histograma de frecuencias relativas. Pueden modificarlo un poco, cambiando, en el panel de la izquierda (Herramientas gráficas, ver figura) cosas como: en la opción “frec” se abre un desplegable que les permite elegir, entre otras cosas, si quieren que en el eje Y figuren frecuencias relativas (por defecto) o absolutas. Debajo de ese mismo panel pueden modificar el título del gráfico (si van a dejar “frecuencias relativas” agréguenle el tamaño muestral, en el título). También pueden aumentar o disminuir el número de clases (en la opción “clases”) y pueden pedir que, además del histograma, les grafique el polígono de frecuencias (marcando donde dice “polígono”. Es más, pueden solo dejar el polígono de frecuencias si quitan las marcas que aparecen por defecto en “Bordes” y “cuerpo”. b) Tabla de frecuencias agrupadas Para armar la tabla de frecuencias agrupadas, vayan a “estadisticas”, “tablas de frecuencias”, seleccionan cuál es la variable (como siempre, mueven la variable con la flechita al recuadro correspondiente), “Aceptar”. En el nuevo recuadro que se abre, elijan qué opciones/ datos quieren que tenga su tabla de frecuencias: LI, límite inferior; LS, límite superior; MC, marca de clase; FA, frecuencia absoluta; FR, frecuencia relativa. Notar que por defecto el software ya calcula automáticamente el número de clases (intervalos). Si por algun motivo quieren cambiar ese número, seleccionen “personalizado” y elijan el número de clases que quieran (siempre y cuando tenga sentido: vimos en clases que podemos calcularlo usando la fórmula de Sturges o bien 𝑛). De esta forma obtienen su tabla de frecuencias agrupadas. Vean como se respeta el uso de corchetes y paréntesis: c) Histograma, particionado por categoría Para hacer el histograma, pero particionando por género viral (es decir, hacer dos histogramas independientes), deben ir nuevamente a “gráficos”, “Histograma”, seleccionar la variable, y luego ir a la solapa “particiones” (ver flecha roja en figura) y mover el criterio por el que quieren particionar los datos (en este caso “Family”) al recuadro “particionar por…”. Van a ver que automaticamente se completa el recuadro “particiones” con sus dos categorías (Alphaflexiviridae y flaviviridae): Ahora tienen sus dos histogramas independientes (fijense que debajo del gráfico aparecen solapitas con números: cada uno de esos números almacena un gráfico, ver flecha roja en figura). Dijimos en la teórica que para poder comparar deben tener la misma escala en el eje Y (si son gráficos de frecuencias absolutas), o bien ser gráficos de frecuencias relativas. Para modificar los límites del eje Y, en el recuadro de la izquierda (“Herramientas gráficas”) vayan a la solapa “Eje Y” y cambien el valor máximo del eje. Ahí también pueden cambiar la leyenda del eje: d) Gráfico de cajas y bigotes (boxplot) Para graficar boxplot (gráfico de cajas y bigotes) deben hacer un procedimiento similar al de histogramas. Ir a “Gráficos”, “gráfico de cajas (boxplot)” y seleccionar la variable. Si además van a particionar por categoría (en este caso, hacer un gráfico por género viral) deben especificarlo en “particiones”. Luego se va a abrir un nuevo recuadro (ver figura), click en “particiones en el mismo gráfico” (para que grafique los dos boxplots uno al lado del otro), “Aceptar”. Una cosa que pueden hacer, por si los confunde, es sacar el “punto negro” que aparece en el medio de la caja. Ese punto negro es la media. Si no lo quieren ver, saquen la marca en “mostrar media” (del recuadro de la izquierda, “herramientas gráficas”). e) Cálculo de descriptores numéricos (centro, posición, dispersión, forma, etc) Pueden estar interesados en calcular todos los descriptores que hemos visto para variables cuantitativas (centro, dispersión, forma, etc). Para esto vayan a “Estadísticas”, “medidas Resumen” y muevan la variable cuantitativa (en este caso Length, largo) al recuadro “variables”. Recuerden que si quieren además obtener estas medias discriminando por género viral deben especificarlo en la solapa “particiones”, como hemos hecho hasta ahora. “Aceptar”. Verán que se abre un nuevo recuadro con muchas opciones para tildar. Seleccionemos n (tamaño muestral), Media, DE (Desvío estándar), Var(n) (Varianza), CV (Coeficiente de variación), Min (mínimo valorobservado), Max (Máximo valor observado), Mediana, Q1 (primer cuartil), Q3 (tercer cuartil), Asimetría (coeficiente) y Kurtosis (coeficiente). También hay un recuadro a la derecha donde pueden escribir algun percentil de su interés (ej, percentil 48)
Compartir