Logo Studenta

1 Clases Estadística (1 (3)

¡Estudia con miles de materiales!

Vista previa del material en texto

con lo cual de alguna forma hoy en día conseguir datos no es un problema, que sean de calidad es fundamental y eso 
no es tan sencillo. 
La distinción entre datos observacionales y experimentales. Cuando usamos datos, usamos datos de alguna de 
estas dos características, la mayoría de los datos generados o utilizados son datos observacionales, vienen dados por 
la realidad, con indicadores de las variables de interés. Los datos experimentales, son generados bajo el esquema de 
diseño de experimento que implica que operamos sobre la realidad para generar el dato, se interviene en la realidad 
para generarlo, la intervención es especial, asignando aleatoriamente las unidades de análisis a dos grupos, 
aplicándole a un grupo un tratamiento y al otro no o un tratamiento diferente. Son diferentes los datos por la 
intervención de un investigador y por la condición de ceteris paribus, son en todo iguales salvo en el tratamiento, 
que es la variable que manipulas. Cuando tengamos 2000 filas en la base de datos la primera variable va a ser 
dicotómica, a que grupo pertenece, y la segunda variable más importante es el resultado. La VI, la supuesta causa, se 
asigna por el investigador al azar. La VD no la genere yo, surge en parte por la intervención que hice. Esos tipos de 
datos implicarían datos observacionales. 
La estructura tripartita de los datos es lo que ya está en la matriz de datos, esta tiene tres partes: filas (contienen a 
las unidades de análisis, lo que nos interesa estudiar), columnas (las variables, las características de las unidades de 
análisis que me interesan), y si las variables son variables no constantes tienen diferentes valores posibles, esas 
categorías son la tercera parte, las celdas. 
Clase 10/8. 
La primera parte de los datos: las unidades de análisis, individuales y colectivas. 
Dada una hipótesis deliberadamente vaga, a mayor educación más desempleo, la unidad de análisis no es clara. El 
mundo de las unidades de análisis es vago y complejo, depende del estudio que se quiera realizar. Identificarlas 
fácilmente: hay que ver en qué cosa, objeto, varían las variables dependiente e independiente de una cierta 
hipótesis. Por ej.: para testear la teoría de la paz democrática te preguntas ¿Quiénes van a la guerra? Países. 
Si la hipótesis es a mayor nivel educativo, mayor tasa de desempleo se habla de una unidad de análisis colectiva 
porque un individuo no tiene una tasa de desempleo. La regla rápida es preguntarse en qué cosa varía la variable, 
con una pregunta clara se encuentra la unidad de análisis. 
La segunda parte de los datos: las variables. 
Hay varias clasificaciones de variables, tipologías de variables: dependientes (Y la variable de interés, lo que me 
interesa describir o estudiar) e independientes (X las variables que yo creo que son la causa de Y, las variables que el 
investigador supone que explican a Y, se postula como explicativa de la dependiente). Manifiestas (aquello que se 
puede observar) y latentes (X e Y que queres medir, pero no podés observar directamente, como por ejemplo la 
edad). Discretas (si entre las dos categorías que tomamos de una variable no hay categorías infinitas entre ambas) y 
continuas (si entre las dos categorías que tomamos la variable tiene infinitas categorías). 
Nivel de medición de las variables: hay variables que simplemente diferencian las unidades de análisis en categorías, 
como en una tipología, les ponen nombre a distintos grupos = nominales. Las variables que ordenan de mayor a 
menor no solo clasifican las unidades de análisis en diferentes grupos, sino que esos grupos están ordenados de 
mayor a menor según alguna propiedad = ordinales. El tercer nivel está relacionado a los números, no a categorías 
cualitativas, cuando las variables se expresan naturalmente en números, son variables intervalares, clasifican las 
variables en grupos, las ordenan, pero además ponen una distancia matemática precisa entre las categorías. Todas 
las estadísticas de esta materia dependen del nivel de medición. Por ejemplo, la media se aplica solo a variables 
intervalares. El porcentaje se aplica también a variables nominales. Ponerles número a las variables no implica 
transformarlas en intervalares, es incorrecto de hecho. 
Con el histograma es común presentar datos sobre variables intervalares. 
Clase 15/8. 
Valores o categorías: exhaustividad y exclusividad. 
Si una unidad de análisis puede ser clasificada en más de una categoría tenemos un problema de exhaustividad. 
Un sistema exhaustivo es cuando tenés una categoría que te cubre todos los espacios. Si falta alguna de las 
categorías te queda un espacio de la variable sin cubrir de modo que no son exhaustivas. 
La falta de exclusividad es cuando dos categorías se superponen. 
Las estadísticas dependen del nivel de medición de la variable: hay estadísticas que sirven para un solo nivel de 
medición, por ejemplo: el sexo, las variables nominales no se pueden promediar (no tienen media). El tipo de 
estadística que puedo calcular depende del nivel de medición de las variables. 
3.1. Conceptos estadísticos básicos I 
La frecuencia relativa expresada no en términos absolutos sino porcentuales. Para variables nominales una de las 
primeras cosas que se hace es una distribución de frecuencia. 
Variables multitómicas, aquellas que tienen más de tres categorías. 
Cuando las categorías son nominales se puede ordenar según la frecuencia. 
Para la variable edad tengo muchas categorías. La alternativa clásica para las variables intervalares es sacar la media, 
el rango de la variable (los valores mínimos y máximos) y la desviación estándar que es una medida de dispersión 
(que tan alejadas están las unidades de análisis de la media de esta variable, es el alejamiento promedio del 
promedio). 
Un histograma presenta en el eje x la variable que uno está interesado en describir, y en el eje y las frecuencias 
absolutas o relativas de cada categoría de la variable. El histograma agrupa categorías. Hacer gráficos es una forma 
importante de hacer estadística, análisis de datos. Este grafico muestra el rango de la variable. El histograma nos da 
información sobre la tendencia central de la variable. 
Una forma de distribución muy importante de estadística es la distribución normal. 
La media es igual a la sumatoria de todos los x sobre N. (fórmulas en cuaderno) 
La desviación estándar es el promedio de los desvíos respecto del promedio. 
Una forma de interpretar la desviación estándar es hacer el ejercicio contrario. 
Es decir, que desviación estándar yo esperaría que haya. 
La mediana tiene un enfoque diferente: se considera el medio de la variable el valor de la unidad de análisis que está 
en el medio de todas las unidades de análisis cuando las ordeno de mayor a menor. Acá se ve claramente que la 
mediana se calcula solo para variables intervalares u ordinales, no para nominales. La media solo para variables 
intervalares. 
La diferencia entre media y mediana: la media no siempre es el valor típico, la media responde o reacciona a los 
casos desviados y en ese sentido es una estadística no robusta (medida muy sensible a casos extremos o desviados). 
La mediana es robusta, poco sensible a casos desviados o sensibles. 
Cuanto tengo números pares esta definición que acabo de dar no la puedo aplicar estrictamente, porque no hay 
individuo en el medio de la distribución. Entonces por convención te imaginas un individuo entre esos dos individuos 
en el medio y generas un promedio entre ambos. 
La mediana de la variable se puede dilucidar fácilmente viendo el porcentaje acumulado al ver por donde ronda el 
50% de la muestra. El percentil 50% es el individuo mediano. 
TP PARA EL VIERNES 24. 
TALLER DE STATA I 17/8. 
Stata es un software para análisis de datos en particular de ciencias sociales, más dominante en academia. 
Stata ayuda a analizar bases de datos y manejo de datos. Los dos principalesson data (nos permite manipular, 
transformar, ponerles etiquetas a los datos), lo que estadística está en el menú de estadística y en el menú de 
gráficos. 
Sintaxis básica

Otros materiales