1 Clases Estadística (1 (7)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5385 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Los gráficos también se pueden hacer desde el menú en gráficos, diagrama de caja. Te dice que orientación queres
que tenga.
Para hace box plots diferenciados para ver si hay variación en las distribuciones de casos. Graph box variable, over
(según que quiero dividir los box plot). Ej: graph box edad, over (sex).
Para hacer graficos de barra (graph bar) o de torta (graph pie): no son tan importantes.
Para contar cuantas unidades de análisis hay en una unidad de análisis. O en un rango de categorías se hace count if
edad == 70. Según las expresiones que uses te devuelve el resultado.

Para que stata te diga que numero le asigna a cada categoría le pones nolabel.
Para pedir un gráfico con etiquetas pones, por ejemplo: graph pie variable, plabel (_all percent): para que etiquete
cada «slice» con el porcentaje que le corresponde
DATA MANAGEMENT:
Se pueden crear variables nuevas en función de las existentes o de la nada.
Para ordenar donde quiero que se sitúe mi nueva variable pongo: order la nueva variable, before o after (edad).
Si queres guardar lo que hiciste tenes que poner el disquito.
Para etiquetar una variable que creaste poner: label var edad_2 “Edad multiplicada por 2”
Si quiero eliminar una variable pongo: drop la variable.
Para cambiar la codificación de las variables se usa: recode la variable (1=100) (2=200)
Otro comando más complejo es egen. Este comando te puede generar una variable que es la estadística descriptiva
de otra variable. Por ejemplo, si quiero que una variable sea la media de la edad. Egen edad_media=mean(edad). un
uso útil de este código podría ser generar una variable que sea la media de la edad según el sexo, dado que la media
para las mujeres será mayor que para los hombres. egen edad_media_sexo=mean(edad), by (sexo).
Si yo pongo browse una variable me abre solo esa variable en la base de datos.
Como abrir una base de datos de Excel a stata: vas a stata, haces click en archivo, importar, hoja de cálculo Excel,
vas a explorar y elegís uno. En general hay que hacer click en importar primera fila como nombre de la variable.
Cuando creas una variable tenés que darle un contenido, cuando es distinta en cada fila la llenas todo con puntos y
después la vas completando. Para eso haces gen q_number=. Para aclarar cuantas observaciones voy a tener pongo
set obs 135.
Para hacer una variable dummy en función de una variable que tiene categorías nominales, por ejemplo: P1 ¿Cuál es
el principal problema del país? Y quiero que sea en función del desempleo, osea si el principal problema es o no el
desempleo. De forma que todas las respuestas de la variable P1 que sean desempleo serán SI, las demás serán NO.
Esto se hace: gen prob_pais_desempl=.
/*REPLACE
El comando replace sirve para reemplazar valores de una variable. Asigno valores a la variable prob_pais_desemp a
partir de los valores de P1.
*/
//Pongo valor 1 si desempleo es principal problema en P1
replace prob_pais_desemp=1 if P1==3
//Pongo valor 0 si desempleo no es problema en P1
replace prob_pais_desemp=0 if P1!=3
//Mando a missing las respuestas missing en P1
replace prob_pais_desemp=. if P1==.
//Mando a missing las respuestas NS(88) Y NC (99)
replace prob_pais_desemp=. if P1==88 | P1==99

//Defino un sistema de categorías que podre utilizar en cualquier momento que corresponda
label define sino_ 0 “No” 1 “Si”
//Etiqueto las categorias de la variable prob_pais_desemp
label values prob_pais_desemp sino_
Hay un ejercicio en el do file
Clase 29/8.
Hay distintos tipos de histogramas. Los histogramas con forma de U o bimodal, como forma en la que se distribuyen
distintas variables. Hay distribuciones campanas o normal. En la parábola (U), la media es igual a la mediana.
La distribución normal o de campana es una distribución simétrica donde la media es igual a la mediana y a la moda.
Corresponde al vértice de la parábola.
Se puede hablar de distribuciones más o menos normales. Una distribución con sesgo a la derecha o positivo, sesgo
negativo o a la izquierda. A diferencia de una distribución normal, la media es mayor a la mediana cuando el sesgo es
a la derecha, en una distribución sesgada a la izquierda es al revés.
La desviación estándar depende mucho de los valores de la distribución que tengas. A partir de la desviación
estándar sabes donde se encuentra la mayor parte de los casos. Tengo q pensar cuanto es lo máximo que me puedo
desviar.
La mayoría de los casos en una distribución más o menos normal cae cerca de la media. La altura es una variable que
tiene distribución normal.
Una desviación estándar alta implica que los casos están muy desviados de la media.
Hay que saber diferenciar entre distribución normal, con forma de U, distribución uniforme, o sesgadas.
Texto Colomer y Escatel.
En los países desarrollados la dimensión izquierda-derecha es más fácil de aplicar.
En américa latina los partidos políticos son más clientelistas y por ende es más difícil ubicarlos en este espectro. Ellos
quieren ver si esto es así con el “latinometro”, una encuesta. Ellos miden la ubicación de los partidos a través de dos
preguntas: en qué posición en una escala del 0 es izquierda y 10 es derecha se ubican y que partido votarían si
hubiera elecciones.
Los autores están asumiendo en base de la autopercepción de los votantes la posición de los partidos, y esto puede
no ser así. Hay un problema de inferencia descriptiva.
Además, lo que falta es una definición de que es izquierda y que es derecha, la percepción de las posiciones puede
variar según las personas.
Ej. para Bobbio los partidos se dividen entre izquierda y derecha según su posición respecto de la actitud que toman
los partidos políticos en función de la igualdad.
La idea del texto es ver como usan los autores las inferencias descriptivas.
La tabla tres muestra la media y la mediana. La media del 5,3 en argentina implica que el promedio de los votantes
responde al 5,3. Hay una tendencia muy grande a que la gente se posicione en 5, porque tienden a autoubicarse en