Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Esta obra esta bajo una licencia reconocimiento-no comercial 2.5 Colombia de creativecommons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o envié una carta a creative commons, 171second street, suite 30 San Francisco, California 94105, USA ANALISIS ESTADISTICO EN MATLAB Autores: CRISTIAN GERARDO GIL SANCHEZ MILLER GIOVANNY FRANCO LEMUS Director Unidad Informática: Henry Martínez Sarmiento Tutor Investigación: Álvaro Enrique Palacios Coordinadores: María Alejandra Enríquez Leydi Diana Rincón Coordinador Servicios Web: Daniel Alejandro Ardila Analista de Infraestructura y Comunicaciones: Adelaida Amaya Analista de Sistemas de Información: Álvaro Palacios Villamil Líder de Gestión de Recurso Humano: Islena del Pilar González UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES BOGOTÁ D.C. FEBRERO 2005 ANALISIS ESTADISTICO EN MATLAB Director Unidad Informática: Henry Martínez Sarmiento Tutor Investigación: Maria Alejandra Enríquez G. Auxiliares de Investigación: Adriana Lucia Castelblanco Alexis de Jesús Moros Andrés Ricardo Romero Brayan Ricardo Rojas Carlos Hernán Porras Catherine Cruz Pinzón Cristian Gerardo Gil Daniel Alejandro Melo Diana Patricia García Diego Fernando Rubio Edwin Montaño German David Riveros Guillermo Alberto Ariza Héctor Javier Cortés Leydy Johana Poveda Liliana Paola Rincón Luis Alfonso Nieto Luz Karina Ramos Maria Teresa Mayorga Martha Rubiela Guevara Miller Giovanny Franco Nubia Yolima Cucarian Rafael Leonardo Saavedra Sandra Liliana Barrios Sandra Milena Cardenas Sandra Mónica Bautista Sonia Janeth Ramírez Yaneth Adriana Cañón Juan Felipe Rincón Leidy Viviana Avilés Este trabajo es resultado del esfuerzo de todo el equipo perteneciente a la Unidad de Informática. Se prohíbe la reproducción parcial o total de este documento, por cualquier tipo de método fotomecánico y/o electrónico, sin previa autorización de la Universidad Nacional de Colombia. UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES BOGOTÁ D.C. DICIEMBRE 2005 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 3 TABLA DE CONTENIDO TABLA DE CONTENIDO ................................................................................................................ 3 1. RESUMEN ................................................................................................................................ 5 2. ABSTRACT .............................................................................................................................. 5 3. INTRODUCCIÓN .................................................................................................................. 7 Objetivo ............................................................................................................................................... 7 Justificación .......................................................................................................................................... 7 4. STATISTICS TOOLBOX ................................................................................................... 8 Estructura de funciones .................................................................................................................... 9 5. MANEJO DEL TOOLBOX ESTADISTICO ............................................................. 10 Estadística Descriptiva ................................................................................................................... 11 5.1.1. Medidas de localización ............................................................................ 11 5.1.2. Medidas de dispersión ............................................................................... 17 5.1.3. Grupos de datos ............................................................................................ 29 6. GRÁFICAS EN TOOLBOX ESTADÍSTICO........................................................... 37 Introducción ..................................................................................................................................... 38 Principales Funciones Utilizadas En Matlab Para Gráficas ...................................................... 38 7. PROBABILIDAD ................................................................................................................ 63 Distribuciones De Probabilidad Discretas................................................................................. 63 7.1.1. Distribución Binomial ................................................................................. 63 7.1.2. Distribución Poisson.................................................................................... 68 7.1.3. Distribución Hipergeometrica ............................................................... 74 Distribuciones De Probabilidad Continuas ............................................................................... 80 7.1.4. Distribución Normal .................................................................................... 80 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 4 7.1.5. Distribución Exponencial ......................................................................... 95 7.1.6. Distribución Gamma ................................................................................. 103 7.1.7. Distribución Chi-Cuadrado 2 ...................................................... 111 7.1.8. Distribución Beta ........................................................................................ 117 ANEXO 1 .......................................................................................................................................... 120 INNOVACIONES DE MATLAB 7 ................................................................................................ 120 NUEVAS CARACTERISTICAS .................................................................................................. 120 EDITOR AND DEBUGGER ....................................................................................................... 124 GRÁFICAS ...................................................................................................................................... 126 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 5 1. RESUMEN Matlab es un software aplicativo que permite su utilización en diferentes áreas del conocimiento, además permite la posibilidad de utilizar Toolbox especializados que facilitan el trabajo y aumentan la funcionalidad del programa, tal como es el caso del Toolbox estadístico en el cual enfocamos este trabajo de investigación. En el presente trabajo se pretenden dar a conocer algunas de las funciones básicas manejadas en el Toolbox estadístico, con el propósito de utilizar en la mayor medida posible, las herramientas proporcionadas por el software y adecuarlas a las necesidades presentes en el área estadística, complementando de esta forma las características básicas del Software, con las presentadas en investigaciones anteriores, la presente investigación y las posibles investigaciones futuras en el programa. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 6 2. ABSTRACT Matlab is applicative software that allows using indifferent areas of the knowledge, in addition allows the possibility of using specialized Toolbox that they facilitate the work and they increase the functionality of the program, it is the case of the statistical Toolbox in which we focused this work of investigation. This work tried to present some basic functions handled in the statistical Toolbox, in order to use in the greater possible measurement, the tools provided by software and to adapt them to the present necessities in the statistical area, complementing the Software‟s basic characteristics, with the presented ones in previous investigations, the present investigation and the future investigations possible in the program. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 7 3. INTRODUCCIÓN Objetivo Este trabajo se desarrolla con el objeto de continuar la investigación que se viene realizando en la UIFCE con miras a ampliar el campo de aplicación del programa MATLAB a las ciencias económicas, en este caso con un énfasis estadístico, disponible en un paquete específico - Statistics Toolbox- . Teniendo en cuenta lo mencionado con anterioridad, se considera de gran importancia avanzar en este sentido para llegar a consolidar un nivel adecuado en la aplicación de este software que garantice la óptima utilidad del mismo. De esta forma se busca desarrollar con esta investigación un manual relacionado con el uso específico del paquete estadístico de MATLAB, de tal manera que el mismo se encuentre disponible para los usuarios de la UIFCE con conocimientos estadísticos básicos que quieran encontrar una aplicabilidad suficiente del software. Justificación Durante el desarrollo de las carreras de la facultad de ciencias económicas se destaca la gran importancia del manejo y el procesamiento de datos de tal forma que nos permitan establecer conclusiones fiables que se acerquen en gran medida a las situaciones reales, es por esta razón que se considera de gran importancia establecer un uso adecuado de un software, como MATLAB y específicamente del Statistics Toolbox, que facilite este proceso de análisis de datos y además permita complementar un proceso de conocimiento en el área de la estadística. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 8 4. STATISTICS TOOLBOX El paquete estadístico de MATLAB ha sido desarrollado para proveer ayuda a cualquier tipo de área, desde las finanzas hasta la ingeniería, con herramientas interactivas capaces de establecer análisis detallados de datos, además viene acompañado de una completa serie de funciones para desarrollar desde las más básicas aplicaciones estadísticas hasta un completo diseño y proceso de cualquier análisis estadístico. Este paquete provee dos completas categorías para este uso: - Una estructura de funciones. - Herramientas de diseño interactivo. Este paquete es de gran funcionalidad puesto que permite combinar poderosas funciones estadísticas con interfaces gráficas interactivas, que han de generar un ambiente ideal para un completo montaje estadístico. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 9 Estructura de funciones MATLAB acompaña cada paquete de funciones con una completa guía de ayuda disponible en diferentes temas específicos, que se muestran a continuación. Las funciones que MATLAB incluye en este paquete las agrupa dentro de las siguientes áreas: Estadística descriptiva 30 Control de procesos estadísticos 7 Estadística multivariada 25 Regresión no Lineal 10 Gráficos estadísticos 26 Diseño de Experimentos 12 Distribuciones de probabilidad 138 Técnicas de árbol de decisión 5 Pruebas de distribución 4 Pruebas No Paramétricas 6 Modelos Lineales 27 Modelos Hidden Harkov 5 Importar/exportar archivos 5 Demostraciones 7 Pruebas de hipótesis 6 Utilidades 2 Es importante destacar como en MATLAB es posible acceder al código fuente de las funciones predeterminadas (*.m), y amplia este capacidad hasta el punto en el cual se puede crear y/o personalizar cualquier tipo de función, ajustándolas a necesidades especificas. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 10 Diseño interactivo - Interfaz Grafica de Usuario Además de la posibilidad de diseñar cualquier interfaz para un análisis especifico, MATLAB viene acompañado de opciones predefinidas muy útiles, una de estas es “The Distribution Fitting Tool” (Herramienta apropiada para las distribuciones) una herramienta de gran utilidad que permite observar el comportamiento de 16 diferentes tipos de distribuciones de probabilidad con la opción de combinar distintas condiciones para cada una de ellas. INVESTIGACIÓN Se ha planeado la investigación de tal manera que su resultado pueda acompañar un proceso académico, en el cual se establezca una interrelación entre la estadística y las ciencias económicas, es de esta manera como sin olvidar la gran funcionalidad de este paquete de herramientas, la investigación se va a enfocar en tres ejes temáticos, que se consideran de primera importancia para iniciar un estudio tan extenso. 5. MANEJO DEL TOOLBOX ESTADISTICO ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 11 En esta sección se explicará el uso de las funciones de más utilidad del toolbox estadístico, con ejemplos básicos y útiles donde se destaquen la aplicabilidad de cada una de ellas. Estadística Descriptiva 5.1.1. Medidas de localización Mean () Descripción Calcula la media aritmética de determinados valores. Sintaxis mean (a) - Si a es un vector, calcula la media de los valores. - Si a es una matriz, calcula la media de cada columna. mean (a, dim) - Devuelve los valores medios de la dimensión especificada de la matriz a. - La dimensión predefinida es 1. Ejemplo a = [1:10] Media = mean (a) Media = 5.5000 b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 12 m_columnas = mean (b) % media por columnas m_columnas = [5.0000 5.2500 4.0000] m_filas = mean (b, 2) % media por filas m_filas = [2 6 5 6] Nota Geomean () Descripción Calcula la media geométrica de determinados valores. Sintaxis geomean (a) - Al igual que la función anterior, si a es un vector, calcula la media de los valores. - Si a es una matriz, calcula la media de cada columna. Ejemplo a = [1:10] nanmean() Descripción Calcula la media ignorando aquellos datos perdidos. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 13 m_geometrica = geomean (a) m_geometrica = 4.5287 Nota Harmmean () Descripción Calcula la media armónica de determinados valores, en este caso representada por H, es igual al recíproco de una cantidad finita de números, o inverso, de la media aritmética de los recíprocos de dichos números Sintaxis harmmean (a) - Su parámetro funciona de la misma manera que para la media geométrica (mean). Ejemplo a = [1:10] m_armonica = harmmean (a) m_armonica = 3.4142 Media aritmética > Media geométrica mean (x) > geomean(x) ANALISISESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 14 Trimmean () Descripción Calcula la media ajustada de una muestra determinada, es decir excluye los y/2 percentiles mas bajos como los mas altos, muy útil cuando encontramos datos atípicos en la muestra. Sintaxis trimmean (a, y) - El parámetro a funciona de la misma manera que las funciones anteriores, donde a es la muestra. - Mientras y representa el numero de percentiles que se quieren obviar en los extremos. Ejemplo a = [1:10] %a = [1 2 3 4 5 6 7 8 9 10] y = 20 m_ajustada = trimmean (a, y) %Por el parámetro “y” la muestra que se calcula es a = [2 3 4 5 6 7 8 9] m_ajustada = 5.5000 %En este caso la media ajustada es igual a la media aritmética por las características de la muestra. b = [1 2 3 7 5 6 4 5 6 8 9 1] z = 10 m_ajustada = trimmean (b, z) m_ajustada = 5.5000 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 15 Max (); Min () Descripción Devuelve los valores extremos de una determinada muestra. Sintaxis max(a); min(a) - Si a es un vector, retorna el valor máximo/mínimo. - Si a es una matriz, retorna máximo/mínimo de cada columna. - max(a,[],dim); min(a[],2) - Si a es una matriz, retorna máximo/mínimo según dim ya especificada, cuando dim = 2 devuelve los valores extremos para las filas. Ejemplo b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] %Devuelve los valores extremos por cada columna. mx = max(b) mi = min(b) mx = [8 9 6] mi = [1 2 1] %Devuelve los valores extremos por cada fila. mxf = max(b,[],2) mif = min(b,[],2) mxf = [ 3 mif = [ 1 7 5 6 4 9 ] 1 ] Nota nanmax() ; nanmin () Descripción Devuelve los valores extremos de una determinada muestra ignorando aquellos datos perdidos. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 16 Median () Descripción Calcula la mediana de una muestra (matriz) especifica. Sintaxis median (a) - Si a es un vector, retorna la mediana de los valores. - Si a es una matriz, retorna la mediana de cada columna. median (a, dim) - Devuelve los valores medios de la dimensión especificada. - La dimensión predefinida es 1. Ejemplo a = [1:10] Mediana = median (a) Mediana = 5.5000 b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] mediana_col = median (b) % mediana por columnas mediana_col = [ 5.5000 5.0000 4.5000] mediana_fil = median (b, 2) % mediana por filas mediana_fil = [2 6 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 17 5 8] Nota 5.1.2. Medidas de dispersión Std () Descripción Devuelve la desviación estándar de una matriz o muestra específica. Desviación estándar Corregida Desviación estándar sin Corregir Sintaxis std (a) - Si a es un vector, retorna la desviación estándar corregida de los valores. - Si a es una matriz, retorna la desviación estándar corregida de los valores por columnas. std (a, flag) nanmedian() Descripción Calcula la mediana ignorando aquellos datos perdidos. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 18 - Cuando flag = 0, std (a,0) se comporta de la misma manera como std (a) - Cuando flag = 1, std (a, 1) devuelve la desviación estándar sin corregir, y el segundo momento de la muestra std (a, flag, dim) - obtenemos la desviación estándar de la dimensión determinada. - Cuando dim = 0 obtenemos la desviación estándar de las columnas. - Si dim = 1 se genera la desviación estándar de las filas. Ejemplo a = [1:10] Des_std = std (a) % desviación estándar corregida Des_std = 3.0277 Dstd = std (a, 1)% desviación estándar sin corregir Dstd = 2.8723 % segundo momento b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] dstd_col= std (b)% desviación estándar por columnas dstd_col = [ 3.1623 2.8723 2.4495] dstd_fil = std (b,0,2)% desviación estándar por filas ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 19 dstd_fil = [1.0000 1.0000 1.0000 4.3589 ] Nota Var () Descripción Calcula la varianza de una muestra específica, es igual al cuadro de la desviación estándar corregida. Sintaxis var (a) - Si a es un vector, retorna la varianza corregida de los valores. - Si a es una matriz, retorna la varianza corregida de cada columna. var (a,1) - Si a es un vector, retorna la varianza sin corregir de los valores, mientras si a es una matriz, retorna la varianza sin corregir de cada columna. Ejemplo a = [1:10] Varz = var (a) % desviación estándar corregida Varz = 9.1667 Recordemos que: std(a) = 3.0277. nanstd() Descripción Calcula la desviación estándar ignorando aquellos datos perdidos. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 20 [ std(x) ]2= (3.0277) 2 = 9.167 = var(x) b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] varc = var(b) % varianza por columnas varc = [ 10.0000 8.2500 6.0000 ] varf = var(b,1) % varianza por filas varf = [ 7.5000 6.1875 4.5000 ] Nota Range () Descripción Devuelve el rango de una determinada serie de datos, es decir calcula la diferencia entre el dato máximo y el dato mínimo. Sintaxis range (a) - Si a es un vector, calcula el rango del mismo. - Si a es una matriz, calcula el rango de cada columna. Varianza corregida: [ std(x) ] 2= var(x) Varianza sin corregir: [ std(x,1) ] 2 = var(x,1) nanvar() Descripción Calcula la varianza ignorando aquellos datos perdidos. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 21 Ejemplo a = [1:10] rango = range (a) rango = 9 b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] ran = range (b) ran = [ 7 7 5 ] Iqr () Descripción Calcula el rango intercuartil de una muestra especifica, es decir, la diferencia entre el percentil 75 y el 25. Sintaxis iqr (a) - Si a es un vector, calcula el rango intercuartil del mismo. - Si a es una matriz, calcula el rango intercuartil de cada columna. Ejemplo a = [1:10] R_ intercuartil = iqr (a) R_ intercuartil = 5 b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] R_ intercuartil = iqr (a) R_ intercuartil = [ 5.0000 3.5000 4.0000 ] ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 22 Prctile () Descripción Calcula el valor de un percentil determinado en el intervalo de [0 100] en una muestra especifica. Sintaxis prctile (a, p) - “p”, corresponde al percentil que se busca, puede ser un vector o escalar - “a”, es la muestra que se analiza, puede ser vector o matriz. a p Prctile (a , p) Vector Escalar Calcula el percentil “p” de la muestra “a”. Matriz Escalar Genera un vector con los percentiles “p” por cada columnade la matriz “a”. Vector Vector Genera un vector con los percentiles que contiene “p” de la muestra “a”. Matriz Vector Genera una matriz en la cual cada columna corresponde a los percentiles especificados en “p” de cada columna de la matriz “a” Nota Ejemplo a = [1:10] b = [25 50 75] Percentil 50 = Mediana ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 23 percentiles = prctile (a,b) percentiles = [ 3.0000 5.5000 8.0000 ] c = [1 2 3; 7 5 6; 4 5 6; 8 9 1] d = [25 50 75] percent = prctile (c,d) percent = [ 2.5000 3.5000 2.0000 5.5000 5.0000 4.5000 7.5000 7.0000 6.0000 ] Quantile () Descripción Calcula el valor de un quantiles de una muestra especifica, aunque su resultado es muy similar al de la función anterior – prctile() - . Sintaxis quantile (a, p, dim) - “p”, corresponde al quantil que se busca, puede ser un vector o escalar y se encuentra entre el rango [0 1] . - “a”, es la muestra que se analiza, puede ser vector o matriz. - Su comportamiento hasta este punto es igual a la función prctile(). - Sin embargo el parámetro dim es muy útil ya que nos permite buscar quantiles en otras dimensione. dim=1, por columnas, dim=2, por filas Nota Prctile( x , 50) = quantile (x, .50) = mediana ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 24 Ejemplo a = [1:10] Q5 = quantile(a, .5) %Igual a la mediana Q5 = 5.5000 Resume = quantile(a,[.025 .25 .50 .75 .975] ) Resume = [1.0000 3.0000 5.5000 8.0000 10.0000 ] b = magic(3) b = [8 1 6 3 5 7 4 9 2 ] MedianaC = quantile(b,.5,1) %Mediana por columnas MedianaC = [ 4 5 6 ] MedianaF = quantile(b,.5,1) %Mediana por filas MedianaF = [ 6 5 4 ] Skewness () Descripción Calcula la oblicuidad de una determinada muestra, ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 25 Sintaxis skewness (a) - Si a es un vector, calcula la oblicuidad de los valores. - Si a es una matriz, calcula la oblicuidad de cada columna. Ejemplo X = randn([5 4]) %genera una matriz aleatoria con distribución normal X = [ 0.2944 0.8580 -0.3999 0.6686 -1.3362 1.2540 0.6900 1.1908 0.7143 -1.5937 0.8156 -1.2025 1.6236 -1.4410 0.7119 -0.0198 -0.6918 0.5711 1.2902 -0.1567 ] obl = skewness (X) %En este caso la oblicuidad se acerca a cero obl = [ -0.0040 -0.3136 -0.8865 -0.2652 ] Nota . La oblicuidad (obl.) es una medida de asimetría de las muestras con distribución normal, se mide a partir de la media. Si obl. < 0, entonces la mayoría de los datos se encuentran a la izquierda de la media; Si obl.> 0, entonces la mayoría de los datos se encuentran a la derecha de la media; y Si obl. = 0, entonces la muestra corresponde a una distribución normal con perfecta simetría. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 26 kurtosis () Descripción Calcula la curtosis, removiendo los valores perdidos. Sintaxis kurtosis (a) - Cuando a es un vector, calcula la curtosis de los elementos del mismo. - Cuando a es una matriz, calcula la curtosis para cada columna. kurtosis (a, flag) - Especifica si se quiere corregir la diagonal (flag = 0) o no (flag = 1, por defecto). Ejemplo a = [1 5 9; 2 6 10; 3 7 11; 4 8 12] k=kurtosis (a) k= [1.6400 1.6400 1.6400] tabulate () Descripción Devuelve una tabla con las frecuencias absolutas y relativas de una muestra. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 27 Sintaxis tabulate (a) - El parámetro a representa la muestra, y solo puede ser un vector. Ejemplo a = [4 1 4 4 2 3 4 3 1 2] tabla = tabulate (a) tabla = Value Count Percent 1 2 20.00% 2 2 20.00% 3 2 20.00% 4 4 40.00% mad () Descripción Desviación absoluta media o mediana de una muestra. Sintaxis mad (a,flag,dim) Si flag = 0 : - Si a es un vector, calcula la desviación absoluta media de los valores. - Si a es una matriz, calcula la desviación absoluta media de cada columna. Si flag = 1: - Si a es un vector, calcula la desviación absoluta mediana de los valores. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 28 - Si a es una matriz, calcula la desviación absoluta medina de cada columna. - dim se usa para determinar la dimensión en la cual se quiere calcular.(dim = 0, por defecto, columnas, dim=1 por filas) Ejemplo a = [1:10] DesvAbs = mad(a) DesvAbs = 2.5000 b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] dac = mad(b) % desviación media por columnas dac =[ 2.5000 1.8750 2.0000 ] daf = mad(b,0,1)% desviación media por filas daf =[ * * * ] Nota moment () Descripción Devuelve los momentos centrales de cualquier orden (k). Para una distribución normal 'mad ()' es menos eficiente que la desviación estándar 'std()' como medida de dispersión. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 29 Sintaxis moment(a, order, dim) - Calcula el momento central de a según el entero positivo order. - SI a es un vector, calcula el momento central por cada columna. - dim especifica la dimensión con la cual se calcularan los momentos centrales. Ejemplo a = [1:10] DesvAbs = mad(a) DesvAbs = 2.5000 b = [1 2 3; 7 5 6; 4 5 6; 8 9 1] dac = mad(b) % desviación media por columnas dac =[ 2.5000 1.8750 2.0000 ] daf = mad(b,0,1)% desviación media por filas daf =[ * * * ] 5.1.3. Grupos de datos cov() Descripción Devuelve una matriz de covarianza. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 30 Sintaxis cov (a) - Cuando a es un vector, devuelve un valor con la varianza del mismo. - Cuando a es una matriz, cada columna es una observación y cada columna una variable. Proceso El algoritmo para cov () es: [n,p] = size(X); X = X - ones(n,1) * mean(X); Y = X'*X/(n-1); Ejemplo a = [1:10] Covarianza = cov(a) Covarianza = 9.1667 b = [1 2 3; 7 5 6; 4 5 6] Covarianza = cov (b) Covarianza =[ 9.0000 4.5000 4.5000 4.5000 3.0000 3.0000 4.5000 3.0000 3.0000 ] corr() Descripción Devuelve una matriz de correlación linear. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 31 Sintaxis RHO = corr(a) - a debe ser una matriz, y devuelve un matriz de correlacion entre columnas. RHO = corr(a,b) - Genera una matriz de correlación entre las dos matrices, las dimensiones de a deben ser iguales a las de b. RHO = corr(...,'param1', val1, 'param2',val2,...) - Especifica mas parámetros para determinar la Correlación. Parámetros Valores Descripción 'type' 'Pearson' (por defecto)● Calcula el coeficiente de correlación lineal de 'Pearson'. ● Para los valores-P usa la distribución T-Student 'Kendall' ● Calcula “Kendall's tau”, otra medida de correlación. 'Spearman' ● Calcula la correlación de 'Spearman'. 'rows' 'all' (por defecto) ● Calcula usando todas las filas así contengas valores perdidos. 'complete' ● Calcula las filas que no tengan valores perdidos. 'pairwise' ● Calcula RHO[i,j] usando las filas que no tengan valores perdidos en las columnas j e i . ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 32 'tail' 'ne' (por defecto) ● Correlación no es cero 'gt' ● Correlación es mayor que cero 'lt' ● Correlación es menor que cero (Cola – La hipótesis alternativa contraria a la que deseamos comprobar.) Ejemplo a = [1 2 3; 7 5 6; 4 5 6; 8 9 1] Rho = corr(a) Rho =[ 1.0000 0.8808 -0.1291 0.8808 1.0000 -0.4264 -0.1291 -0.4264 1.0000 ] b=[1 2 3; 4 5 6; 7 8 9; 10 11 12] RHO = corr(a) RHO = [ 1 1 1 1 1 1 1 1 1 ] corrcoef() Descripción Devuelve una matriz con los coeficientes de correlación, en el cual las filas son observaciones y las columnas son variables . ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 33 Sintaxis R = corrcoef (a) - a debe ser una matriz. [R,P]= corrcoef (a) - Devuelve además una matriz con los valores p usados en las pruebas de hipótesis. [R,P,RLO,RUP]=corrcoef(...) - Además devuelve RLO y RUP que son los límites de determinado intervalo a 95% de confianza. [...]=corrcoef(...,'param1',val1,'param2',val2,...) -Parámetros adicionales Parámetros Descripción 'alpha' Un numero entre 0 y 1 usado para especificar el nivel de confianza de 100*(1-alpha)% Ejemplo. Cuando alpha es 0.05, el intervalo de confianza esta a 95% 'rows' Los valores se determinan de la misma manera que para corr(). crosstab() ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 34 Descripción Genera una matriz con tabulación-cruzada entre diferentes vectores. Sintaxis crosstab (col1 ,col2) - Se genera una matriz donde el elemento (i,j) corresponde a la cuenta de todas las observaciones donde col1=i y col2 =j. Ejemplo a = [ 1 2 3 4 5 6 7 8 9 10 ] %Código de diez estudiantes b = [ 2 4 4 3 1 5 3.5 2.5 3 2 ] %Nota para los diez estudiantes respectivamente tabla = crosstab(a,b) tabla = [ 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 ] Puede interpretarse como: ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 35 Nota Alumno 1 2 2.5 3 3.5 4 5 1 0 1 0 0 0 0 0 2 0 0 0 0 0 1 0 3 0 0 0 0 0 1 0 4 0 0 0 1 0 0 0 5 1 0 0 0 0 0 0 6 0 0 0 0 0 0 1 7 0 0 0 0 1 0 0 8 0 0 1 0 0 0 0 9 0 0 0 1 0 0 0 10 0 1 0 0 0 0 0 grpstats () Descripción Devuelve un resumen estadístico por grupo. Sintaxis grpstats (a, group) - Genera la media de cada columna de a por grupo, el vector group define como se agruparan los datos. grpstats (a, group, alpha) - Genera un diagrama de las medias frente a un índice 100(1 - alpha) % de intervalo de confianza por cada media. grpstats (a, group, whichstats) ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 36 - En este caso whichstats corresponde a otros estadísticos que podemos calcular dentro de los siguientes: 'mean' Promedio 'sem' Error estándar 'numel' Cuenta, del número de elementos. 'gname' Nombre del grupo 'std' Desviación Estándar 'var' Varianza 'meanci' Intervalo de confianza al 95% 'predci' Intervalo de predicción a un 95% para una nueva observación bootstr () Descripción Permite efectuar el Bootstrap con determinadas características. Nota El Bootstrap es una metodología estadística que a tenido gran aplicación en los últimos años, y consiste en obtener nuevas muestras con características similares a una primera muestra real (raíz), y partir de los estadísticos de todas las muestras generadas establecer conclusiones mas precisas. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 37 Sintaxis bootstr (nboot, fboot,d1,d2,…) - nboot, es el numero de muestras que queremos generar. - fboot, es la función que se quiere aplicar a las muestras. - d1, d2, …. , son las muestras raíz. Ejemplo X = [1:5] %Muestra raíz B1 = bootstr(3,‟size‟,a) B1 = [ 5 1 5 1 5 1 ] B2 = bootstr(3,‟mean‟,a) B2 = [ 2.6000 2.2000 3.8000 ] 6. GRÁFICAS EN TOOLBOX ESTADÍSTICO ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 38 Introducción El Toolbox estadístico de MATLAB, proporciona grandes facilidades en lo relacionado con gráficas, situación que permite automatizar y agilizar el manejo y procesamiento de las mismas. Para ello dispone de una serie de funciones que permiten modificar dentro de la figura los parámetros que afectan el resultado de la misma. En el presente informe se pretende dar a conocer algunas de estas ventajas con una ayuda que permita una fácil utilización las funciones predefinidas para el programa. Las gráficas estadísticas en las que basaremos el presente trabajo serán algunas en las cuales se manejen las funciones de distribución básicas, de tal manera que se adecue a las necesidades de los estudiantes de la facultad de ciencias económicas, dando principal énfasis en funciones de distribución como la T, Chi-cuadrado, F, Binomial, Poisson, entre otras. Principales Funciones Utilizadas En Matlab Para Gráficas Existen una serie de criterios generales para seleccionar gráficas de tipo estadístico, criterios que corresponden a las posibilidades y características que poseen las gráficas en el TOOLOBOX ESTADISTICO. Algunas de las características de mayor importancia se encuentran relacionadas con el entendimiento de las gráficas, como bien es expresado en la siguiente frase “toda grafica debe explicarse por si misma, por tanto debe llevar un titulo claro, la fuente de donde fueron obtenidos los datos, rangos de escalas y leyendas o notas explicatorios”1. Las gráficas en matlab permiten la posibilidad de adecuarlas de tal forma que sean completamente entendibles para los usuarios, por medio de las diferentes posibilidades existentes para insertar en las graficas. En el menú insertar, Matlab permite la posibilidad de agregar a la gráfica etiquetas de diferentes tipos, de igual forma es posible colocar al interior de la misma formas y cuadros, estas opciones proporcionadas por el programa permiten responder a las características básicas para graficas, y además colocar algunos elementos adicionales que dan un toque personal y mejor entendimiento de las mismas. 1 Ciro Martínez Bencardino, ESTADISTICAANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 39 Para conocer algunas de las posibilidades de las gráficas en el Toolbox, presentaremos algunas de las funciones relacionadas con graficas de tipo estadístico en el programa. Las siguientes son las funciones básicas de mayor importancia, relacionadas con los estudios de tipo estadístico: RANDTOOL Esta función permite generar de forma interactiva números al azar mostrando los resultados gráficos por medio de un histograma. Instala un interfaz gráfico que permite indagar los efectos al realizar cambios en los parámetros que afectan la función que se desee graficar. Algunas características de la interfaz (VER FIGURA 1) La interfaz que se abre con la función, permite fijar valores de parámetro para la distribución y para cambiar sus límites superiores e inferiores en la generación de datos aleatorios. Permite dibujar otra muestra con la misma distribución, con el mismo tamaño y los parámetros, al igual que generar la grafica de otro tipo de distribución con los parámetros seleccionados en primera instancia. Permite exportar la muestra actual al workspace, para ello proporciona la opción exportar la cual permite ver los datos aleatorios que generaron la grafica y en general trabajar con estos como si hubiesen sido creados en el command window. Trae una barra de menús completa que permite realizar modificaciones a las características de la grafica, compuesta por bastantes opciones que permitirán adecuar la grafica a nuestros requerimientos y de igual forma obtener todo tipo de información relacionado con la grafica generada con datos aleatorios. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 40 FIGURA 1 DISTTOOL Esta función permite generar de forma interactiva diagramas de diferentes distribuciones de probabilidad. La interfaz generada por esta función permite escoger entre dos tipos de diagramas, el de cdf (genera una función distribución acumulativa elegida) o el de pdf (Función de densidad de probabilidad para una distribución especificada) y al igual que la función presentada con anterioridad permite realizar modificaciones a los parámetros relacionados con las características de la misma interfaz generada. Algunas características de la interfaz (VER FIGURA 2) Barra de menús Valor del parámetro Exportar datos al workspace Limite superior e inferior de los datos generados. FUNCIONES DE DISTRIBUCION TAMAÑO DE LA MUESTRA ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 41 La interfaz que se abre con la función, permite fijar valores de parámetro para la distribución y para cambiar sus límites superiores e inferiores en la generación de datos aleatorios. En la interfaz se tiene la posibilidad de conocer los valores de X correspondientes a un nivel de probabilidad, o viceversa. Estos valores pueden ser modificados de acuerdo a nuestras necesidades y varían automáticamente en la interfaz generada con esta función. Permite la posibilidad de generar un sin numero de gráficos, teniendo en cuenta los 20 tipos de distribución existentes, y las dos posibilidades de funciones que se pueden generar para cada tipo de distribución. FIGURA 2 TIPO DE FUNCION FUNCION TIPO CDF O PDF Limite superior e inferior de los datos generados. FUNCIONES DE DISTRIBUCION Valor del parámetro VALOR DE LA FUNCION VALOR DE X ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 42 Lsline Descripción Esta función genera la línea de ajuste de los mínimos cuadrados de una función predeterminada. Sintaxis lsline x = lsline Ejemplo Se puede generar un vector x con cualquier tipo de características (en este caso un vector que contiene 20 datos aleatorios con distribución normal), en este caso utilizamos la función randn; X = randn (20,1) Graficamos la función y pedimos que nos señale los valores al interior de la gráfica. plot (X,‟+‟) Por último utilizamos la función lsline para que nos genere la línea de tendencia de los valores graficados. lsline (ver FIGURA 3). ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 43 0 2 4 6 8 10 12 14 16 18 20 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 FIGURA 3 Cdfplot Descripción Este comando permite ver la gráfica de una función de distribución acumulativa empírica para datos en un solo vector X. El cdf empírico se define como la proporción de valores de X menor o igual a x. Este diagrama, al igual que los generados por hist y normplot, es útil para examinar la distribución de una muestra de datos. Sintaxis cdfplot (X) h = cdfplot(X) [h, stats] = cdfplot(X) Línea de tendencia Generada por la función ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 44 Ejemplo En primer lugar generaremos un vector con media: 0, desviación estándar: 1; con dimensiones m: 20 y n: 1. Para ello utilizaremos la función normrnd estableciendo los parámetros anteriormente mencionados, así: x = normrnd (0,1,50,1); Posteriormente utilizamos la función objetivo del ejemplo de la siguiente forma: cdfplot (x) (VER FIGURA 4) Y por ultimo le pedimos que nos muestre el h y los estadísticos básicos [h,stats] = cdfplot(X), así: stats values min: -1.7613 max: 2.7922 mean: -0.1579 median: -0.3096 std: 0.9138 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 45 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x F (x ) Empirical CDF FIGURA 4 Boxplot Descripción Diagrama de caja de una muestra de los datos Sintaxis - Boxplot(X): produce un diagrama de caja y de “bigotes” para cada columna de la matriz X. La caja tiene líneas en el cuartíl superior, en el punto medio, y en el cuartíl inferior de la caja. - Los “bigotes” son líneas que extienden de cada extremo de la caja para mostrar la extensión de los datos que se encuentran fuera de los limites de la caja. Los “mas” (+) son datos con valores más allá de los extremos de los “bigotes”. Si no hay datos fuera de los “bigotes”, un punto se coloca en el “bigote” inferior - boxplot (X,G): produce un diagrama de caja y bigotes para un vector X, agrupado por G. G es un grupo de variables definidas por un vector, una matriz o un conjunto de celdas variables. G también puede ser un conjunto de variables (tales como {G1 G2 G3} agrupando los valores en X por cada combinación de grupo de variables. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 46 - boxplot (...,'Param1', val1, 'Param2', val2,...): parámetros opcionales específicos, tales como los descritos en el siguiente cuadro: Parameter Name Parameter Values 'notch' 'on' para incluir los cortes en la caja (por defecto es 'off') 'symbol' Símbolo para usar fuera del limite del grafico (por defecto es r+') 'orientation' Orientación del diagrama 'vertical' (por defecto) o 'horizontal' 'whisker' Máxima extensión de los “bigotes” en unidades de rango de intercuartíl (por defecto 1.5) 'labels' Etiquetas para la secuencia de columnas (se usa solamente cuando X es una matriz,y la etiqueta por defecto es el numero de la columna). En un boxplot con cortes, dichos cortes representan un buen estimador de la incertidumbre, en la comparación de las medianas de cada caja graficada. Cuando los cortes no se traslapan indican que las medianas de los dos grupos difieren con un 5 por ciento de nivel de significancia. Ejemplo Los siguientes comandos generan un diagrama de boxplot usando una base de datos existente en el programa y que permite su ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 47 utilización para la explicación de varias funciones. Los siguientes comandos crean un boxplot de la aceleración relacionada con el año de fabricación de los carros. load carsmall boxplot (Acceleration, Model_Year) 70 76 82 8 10 12 14 16 18 20 22 24 V a lu e s Boxplot Acelaracion VS Modelo del carro En este ejemplo podemos ver un diagrama de caja para la aceleración de los vehículos de acuerdo con el año de fabricación, y podemos evaluar algunas de las características que evidencia la figura, tales como la diferencia entre medianas y los datos que se encuentra fuera de los límites del diagrama de caja. Este ejemplo produce los diagramas de la caja para los datos de la muestra, y acepta el defecto 1,5 * IQR para la longitud de las barbas. X1 = normrnd(6,1,60,1); % normrnd genera datos aleatorios con distribución normal X2 = normrnd(4,2,60,1); x = [X1 X2]; ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 48 boxplot(x, 1) 1 2 0 1 2 3 4 5 6 7 8 9 V a lu e s Column Number Boxplot para dos funciones con Dn normal La diferencia entre los puntos medios de las dos columnas de x es aproximadamente 1. Puesto que los cortes en el boxplot no se traslapan, se puede concluir, con un nivel de significancia del 95%, que las medianas de las dos muestras difieren. Este diagrama tiene varios elementos gráficos: Las líneas más bajas y superiores de la "caja" son el 25 y 75 por ciento de la muestra. La distancia entre la tapa y fondo de la caja es el rango de interquartile. La línea en el centro de la caja es el punto medio de la muestra. Si el punto medio no se centra en la caja, ésa es una indicación de la oblicuidad. Las " barbas" son líneas que extienden sobre y debajo de la caja. Demuestran el grado del resto de la muestra (a menos que hay afloramientos). No si se asume que ningún afloramiento, el máximo de la muestra es la tapa de la barba superior. El mínimo de la muestra es el fondo de la barba más baja. Por defecto, los datos que se encuentran por fuera de los bigotes son más de 1,5 veces la gama interquartile que se encuentran fuera de los límites de la caja. El signo de más en la tapa del diagrama es una indicación de un afloramiento en los datos. Este punto pudo ser el resultado de un ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 49 error de la entrada de datos, de una medida pobre, o de un cambio en el sistema que generó datos de forma errónea. Las cortes en la caja son un intervalo gráfico de la confianza sobre el punto medio de una muestra. Los diagramas de la caja no tienen cortes por defecto. Qqplot Descripción Un diagrama del quantile-quantile es útil para determinarse si dos muestras vienen de la misma distribución (si está distribuido normalmente o no). Sintaxis - qqplot(X) muestra una grafica de quantil-quantil para una muestra de datos de X en relación a una distribución teórica normal. Si la distribución de X es normal, la grafica será lineal. - qqplot(X, Y) muestra una grafica de quantil-quantil para dos muestras de datos si las muestra vienen de la misma distribución, la gráfica será lineal. Para una matriz X y Y, qqplot muestra líneas separadas para cada pareja de columnas, además la gráfica contiene la muestra de datos mostrando los mismos por medio de signos (+). - qqplot () este tipo de gráfico es usado para especificar los cuartiles en el vector pvec. Ejemplos 1. El ejemplo demuestra un diagrama del quantile-quantile-quantile de dos muestras de una distribución de Poisson. x = poissrnd (15, 140,1); y = poissrnd (10, 80,1); qqplot(x, y);); ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 50 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 X Quantiles Y Q u a n ti le s QQPLOT para comparar dos dstribuciones Poisson Aunque los parámetros y los tamaños de muestra son diferentes, la relación de línea recta demuestra que las dos muestras vienen de una misma distribución. 2. El ejemplo debajo de demostraciones qué sucede cuando las distribuciones subyacentes no son iguales. x = normrnd(10,1,50,1); y = weibrnd(4,0.5,50,1); qqplot(x, y); 7 7.5 8 8.5 9 9.5 10 10.5 11 11.5 12 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 X Quantiles Y Q u a n ti le s QQPLT Para distribuciones diferentes Estas muestras no son claramente de la misma distribución. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 51 Para determinar la validez de un procedimiento estadístico que dependa de que las dos muestras vienen de la misma distribución (ej. ANOVA), un diagrama linear del quantile-quantile-quantile debe ser suficiente. Gname Descripción Etiqueta los puntos trazados con el respectivo nombre o número, según el caso. Los datos que se ingresan para utilizar a función deben ser datos que se encuentren relacionados con un nombre específico, es decir que cada punto al interior de la grafica corresponda a un nombre en especial. Si se pulsa una vez un punto al interior de la gráfica, automáticamente el grafico muestra el nombre al que corresponde el punto seleccionado. De forma alternativa si se desea conocer el nombre de diferentes puntos se puede arrastrar el Mouse creando un rectángulo que mostrara el nombre de cada uno de los puntos que se encuentran al interior del mismo. Con el botón derecho del Mouse se puede quitar la etiqueta colocada sobre la gráfica. el gname sin discusiones etiqueta cada caja con su número del caso. Se puede utilizar el gname para etiquetar diagramas creados por funciones tales como plot, Scatter, gscatter, plotmatrix, entre otras. Sintaxis gname() permite conocer la procedencia de los datos con solo presionar el botón derecho del Mouse para gráficas realizadas de forma previa. h = gname(cases, line_handle) Ejemplo Este ejemplo utiliza información de ciudades estadounidenses con el objetivo de revisar la relación entre gastos e ingresos, y utilizando el comando gname para verificar a que ciudad corresponde cada punto. Load cities gastos = ratings(:,1); ingresos= ratings (:,4); plot(Gastos, Ingresos,'+') ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 52 gname(names) 1000 2000 3000 4000 5000 6000 7000 8000 9000 0 1 2 3 4 5 6 x 10 4 Los Angeles, Long Beach, CA Philadelphia, PA-NJ Para ver la procedencia de cualquier punto del grafico basta con dar clic sobre alguno de ellos. Refline Descripción Agregue una línea de referencia a la gráfica actual. Sintaxis refline(slope, intercept) - agrega una línea de referencia con la pendiente y a intercepción teniendo en cuenta las condiciones actuales refline(slope) - agrega la línea de referencia al gráfico, y utilizando únicamentela pendiente. ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 53 h = refline(slope, intercept) Ejemplo Para este ejemplo creamos un vector Y, creando diferentes líneas de referencia en la grafica de acuerdo a condiciones especificas. Y = [1.2 5.2 1.9 4.5 4.0 3.2 3.9 1.9 2.6 2.4 2.8]'; plot (y,'+') refline(1,3) refline(0.5,3) refline(2,3) refline(0,2) 1 2 3 4 5 6 7 8 9 10 11 2 4 6 8 10 12 14 REFLINE Gscatter Diagrama de la dispersión del grupo Sintaxis ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 54 gscatter(x,y,g) gscatter(x,y,g,'clr','sym',siz) gscatter(x,y,g,'clr','sym',siz,'doleg') gscatter(x,y,g,'clr','sym',siz,'doleg','xnam','ynam') h = gscatter(...) Descripción - gscatter(x, y, g) Crea un diagrama de la dispersión de x y y, en el cual X y Y son los vectores con el mismo tamaño y g es un grupo de variables definidas por un vector, una matriz o un conjunto de celdas variables. G también puede ser un conjunto de variables (tales como {G1 G2 G3} agrupando los valores en X por cada combinación de grupo de variables. Los puntos con el mismo valor de g se colocan en el mismo grupo, y aparecen en el gráfico con el mismo marcador y color. - gscatter(x, y, g, ' clr ', ' sym ', siz) Esta función permite crear el diagrama de dispersión y especificar el color, el tipo del marcador, y el tamaño para cada grupo. ' clr ' es un conjunto de colores reconocidos por la función plot.’sym ' son una serie de símbolos reconocidos por el comando plot, con el símbolo por defecto de '.'. siz es un vector de tamaños, con el defecto determinado por ' defaultlinemarkersize ' característico. Si no se especifican las características deseadas, gscatter establece los valores necesarios para el entendimiento de la gráfica. - gscatter(x, y, g, ' clr ', ' sym ', siz, ' doleg ') controla si la leyenda es mostrada en el gráfico ('doleg' = 'on', por defecto) o no ('doleg' = 'off'). - gscatter(x, y, g, ' clr ', ' sym ', siz, ' doleg ', 'xnam', 'ynam ') especifica el nombre para utilizar en las etiquetas del eje X y el eje Y. Si las etiquetas par x y Y son omitidas, por defecto se coloca en el gráfico el nombre de las variables. Ejemplo ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 55 El siguiente ejercicio consistirá en realizar un diagrama de dispersión para dos grupos el de salud y el de condiciones económicas agrupándolas por medio de la información de la columna group. Para ello se deben ingresar los siguientes comandos: Load discrim % carga tablas con información predefinida que se encuentra en el programa scatter(ratings(:,3),ratings(:,9),group,'rk','.*') 0 1000 2000 3000 4000 5000 6000 7000 8000 3000 4000 5000 6000 7000 8000 9000 10000 SALUD C O N D IC IO N E C O N O M IC A DIAGRAMA DE DISPERSION 1 2 Hist Descripción Grafico de histograma Sintaxis - hist(y) Grafica un histograma con diez barras para los valores contenidos en el vector y. las barras están igualmente espaciados entre el valor mínimo y máximo que toma la variable. - hist(y, nb) Las letras nb representan el número de barras que queremos sean colocados en el gráfico final. - hist(y, x) ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 56 Grafica un histograma usando el numero de barras que contiene el vector x. - [n,x] = hist(y...) no realiza el gráfico de histograma, pero retorna los vectores n y x, que contienen la frecuencia y la localización de las barras de tal forma que bar(x,n) grafica el histograma. Ejemplos 1. Con los siguientes comandos se genera un histograma con diez divisiones. y = normrnd(0,0.5,500,1) %la función normrnd genera datos aleatorios. Hist (y) -1.5 -1 -0.5 0 0.5 1 1.5 2 0 50 100 150 HISTOGRAMA 2. Los siguientes comandos generan un histograma, en el cual se utiliza una variable x, para elegir el número de barras contenidas en el gráfico y elegir los valores del eje x. y= normrnd(0,1,1500,1); x= -4.5:0.7:4.5; hist(y,x) ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 57 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 20 40 60 80 100 120 140 160 180 200 HISTOGRAMA 2 Errorbar Descripción Grafica las barras de error a lo largo de una curva. Sintaxis - errorbar(X,Y,L,U,symbol) Grafica X versus Y con un largo especifico de las barras de errores determinado por L(i)+U(i) que representan los puntos superiores e inferiores del gráfico. X, Y, L, y U deben ser de la misma longitud. Si X, Y, L, y U son matrices, cada columna produce una línea por separado. Las barras de error están graficadas a distancia de U(i) en la parte superior y L(i) en la parte inferior de los puntos en (X,Y). El símbolo (symbol) es una forma de controlar el tipo de línea, el símbolo del gráfico y el color de las barras de error. - errorbar(X,Y,L) Grafica X versus Y con barras de errores simétricas en relación a Y - errorbar(Y,L) Grafica Y con barras de error [Y-L Y+L]. Nota La función errorbar hace parte del lenguaje estándar de MATLAB ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 58 Ejemplo Con los comandos siguientes genere los vectores necesarios para realizar la grafica de errorbar. X =[1 2 3;6 5 4 ; 9 8 7]; Y =[5 4 9; 5 4 8 ; 1 8 6]; U =[3 6 7; 7 9 1; 8 9 2]; L =[2 8 6;7 9 5; 3 4 6] errorbar (X, Y, L, U,'s') 0 1 2 3 4 5 6 7 8 9 10 -5 0 5 10 15 20 ERRORBAR Ecdfhist Propósito Crea el histograma de salida de una distribución ecdf Sintaxis - n = ecdfhist (f, x) Toma un vector f, de valores una función de distribución acumulativa (cdf) y un vector de evaluación de los puntos de la función, y devuelve un vector n que contiene los puntos altos del histograma para 10 barras igualmente ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 59 espaciadas. La función computa las barras de mayor altura desde el incremento en la función empírica (cdf), y las normaliza de tal forma que el área del histograma sea igual a 1. A diferencia el comando hist genera barras que representan la frecuencia en la muestra. - n = ecdfhist(f, x, m) En este caso m es un número escalar y representa el numero de barras que deseamos aparezcan en el gráfico. n = ecdfhist(f, x, c) - n = ecdfhist(f, x, c) En este caso c es un vector, que permite centrar las barras específicamente en c. - [n, c] = ecdfhist(...) Devuelve la posición de las barras centradas en c. - ecdfhist(...) Sin argumentos produce un histograma de barras de los resultados. Ejemplo El código siguiente genera tiempos de error aleatorios y tiempos censurados , comparando la empírica pdf con una pdf que se conoce que es verdadera. “y = exprnd(10,50,1); % random failure times d = exprnd(20,50,1); % drop-out times t = min(y,d); % observe the minimum of these times censored = (y>d); % observe whether the subject failed % Calculate the empirical cdf and plot a histogram from it [f,x] = ecdf(t,'censoring',censored); ecdfhist(f,x); % Superimpose a plot of the known true pdf hold on; ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES60 xx = 0:.1:max(t); yy = exp(-xx/10)/10; plot(xx,yy,'g- '); hold off;”2 0 5 10 15 20 25 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 ECDFHIST GPLOTMATRIX Descripción Matriz diagramas de dispersión por grupo. Sintaxis -gplotmatrix(x,y,g) Esta función crea una matriz de gráficos de dispersión. Cada conjunto de ejes en la figura del resultado contiene un diagrama de dispersión de una columna de x contra una de y. Todos los gráficos están agrupados por la variable g. X y Y son matrices con el mismo número de filas. Si x tiene p columnas y q filas la figura contiene una matriz p * q de diagramas de dispersión. G es una variable para agrupar que puede ser vector, una matriz o un conjunto de celdas variables. G debe tener la misma cantidad de filas que X y Y. 2 Tomado de MATLAB \ ESTATISTICS Toolbox\ HELP \ ecdfhist ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 61 - gplotmatrix(x,y,g,'clr','sym',siz) Permite especificar el color, el tipo del marcador, y el tamaño para cada grupo. ' clr ' es un conjunto de colores reconocidos por la función plot.’sym ' son una serie de símbolos reconocidos por el comando plot, con el símbolo por defecto de '.'. siz es un vector de tamaños, con el defecto determinado por ' defaultlinemarkersize ' característico. Si no se especifican las características deseadas, gscatter establece los valores necesarios para el entendimiento de la gráfica. - gplotmatrix(x,y,g,'clr','sym',siz,'doleg') Permite controlar si una leyenda está exhibida en el gráfico (' doleg '=' on 'el defecto) o no (' doleg '=' off ') -gplotmatrix(x,y,g,'clr' 'sym',siz,'doleg','dispopt') Controla que aparezca alo largo de la diagonal del gráfico de la matriz de x versus x permitiendo a los valores nulos salir en la diagonal en blanco, 'hist'(por defecto) en la gráfica de histogramas, o 'variable' para graficar los nombres de las variables. - gplotmatrix(x,y,g,'clr','sym',siz,... 'doleg','dispopt','xnam','ynam') Especifica los nombres en las columnas en X y Y. Estos nombres son usados para etiquetar los ejes. 'xnam' y 'ynam ' deben ser celdas contenidas por caracteres, con una fila para cada columna de X y Y, respectivamente. Ejemplo ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 62 Con los comandos siguientes es posible realizar diagramas de dispersión de las diferentes categorías que aparecen al cargar los datos que aparecen en discrim. Los datos se pueden agrupar por el código del tamaño de la ciudad. load discrim gplotmatrix(ratings(:, 2:5), ratings(:, 6:), group) % en este caso lo que hacemos es seleccionar los datos que deseemos sean graficados de acuerdo a la información contenida en la matriz ratings. gplotmatrix(ratings(:,2:4),ratings(:,5:8),group, 'rk','.*' , [] , 'on' , '',categories(2:4,:) ,categories(5:8,:)) %para mayor entendimiento Colocamos en el gráfico marcadores, colores y lo necesario para dar mas comprensibilidad 500 10001500 20002500 crime 0 2000 4000 6000 8000 health 0.5 1 1.5 2 x 10 4 2000 4000 housing re c re a ti o n 0 2 4 x 10 4 a rt s 2000 2500 3000 3500 e d u c a ti o n 2000 4000 6000 8000 tr a n s p o rt a ti o n 1 2 El gráfico generado por esta función genera la posibilidad de combinar ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 63 diferentes análisis en un solo gráfico, lo que puede ahorrar tiempo y dar mayor orden las diferentes gráficas de dispersión que muestra. 7. PROBABILIDAD Distribuciones De Probabilidad Discretas 7.1.1. Distribución Binomial Recordemos como la distribución binomial responde a una muestra de n eventos independientes, en los cuales solo es posible obtener dos resultados. Para este caso la función de densidad de probabilidad es: nxqppnxfy xx n x ,...,1,0,, 1 Donde: x = [0 n] , p = [0 1] , q = 1- p y !! ! xnx nn x . Binofit () Descripción Estimación del parámetro (x) o intervalos de confianza ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 64 para datos de tipo binomial. (Solo dos posibilidades) Sintaxis p = binofit (a, n) - Devuelve la máxima probabilidad estimada para a suceso en n oportunidades. - a es una vector, entonces se devuelve un p(i) por cada a(i). - Cuando n también es un vector de la misma dimensión que a se calcula un p(i) para cada a(i) según n(i). [p, nc] = binofit (a, n, alpha) - Devuelve la máxima probabilidad estimada para a suceso en n oportunidades a un nivel de confianza de 100(1-alpha)%. - Por defecto el nivel de confianza es 95%, por ejemplo si queremos un nivel de confianza de 90% el valor de alpha debe ser 0.1. Ejemplo p = binofit (2,5) %Probabilidad de 2/5 p = 0.4000 a = [2 4 6 8] %Probabilidad de a/8 p1 = binofit (a, 8) p1 = [0.2500 0.5000 0.7500 1.0000] a = [2 4 6 8] %Probabilidad de a/n n = [4 8 12 16] p1 = binofit (a, n) ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 65 p1 = [0.5000 0.5000 0.5000 0.5000] Binocdf () Descripción Función binomial de distribución acumulada. niqp x n pnxFy ii x i ,...,1,0,, 1 0 Sintaxis p = binocdf (x, n, p) - Devuelve el valor de la función binomial de distribución acumulada para estos parámetros. - x, n y p, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales. Ejemplo p = binocdf (3, 4 ,0.6) p = 0.8704 Binopdf () Descripción Función binomial de densidad de probabilidad. nxqp x n pnxfy xx ,...,1,0,, 1 Sintaxis p = binopdf (x, n, p) ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 66 - Devuelve el valor de la función binomial de densidad de probabilidad para estos parámetros. - x, n y p, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales. Ejemplo p = binopdf (3, 4 ,0.6) p = 0.3456 Binoinv () Descripción Función binomial de densidad de probabilidad inversa. (Es la inversa de binocdf) Sintaxis x = binoinv (y, n, p) - Devuelve el valor de la función binomial inversa para estos parámetros. - y, n y p, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales. Ejemplo p = binopdf (2, 4 ,0.6) p = 0.3456 x = binoinv (0.3456, 4 ,0.6) x = 2 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 67 Si la probabilidad de lanzar una moneda y obtener cara frente a obtener sello es de 50-50, ¿Cual seria un rango razonable de éxitos (cara) en 120 intentos? Rango = [0.05 0.95] Intentos = 120 P_Exito = 0.5 %Probabilidad exito exitos = binoinv(Rango, Intentos, P_Exito) exitos = [ 51 69 ] Binornd () Descripción Genera una seria de números aleatorios a partir de una función binomial y unos parámetros definidos. Sintaxis x = binornd (n, p) - n y p, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales Ejemplo n = [10 20 30] x = binornd(n ,0.6) x = [ 8 8 17 ] %Primera serie obtenida x = [ 6 11 16 ] %Segunda serie obtenida ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 68 Binostat () Descripción Calcula la media y la varianza para una seria con distribución binomial. Sintaxis [m , v] = binostat (n, p) - n y p, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales Ejemplo [m , v] = binostat (4 , 0.6) m = 2.4000 %Media v = 0.9600 %Varianza Nota 7.1.2. Distribución Poisson La distribución Poisson es adecuada para eventos que involucren una cantidad determinada de casos en un tiempo, distancia o área determinada, solo es necesario un parámetro que sea entero no- negativo, y el cual se considera como la media. Para este caso la función de densidad de probabilidad es: Para una distribución binomial: - La media es: med = np - La varianza es: var = npq , q=1–p ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 69 ,...1,0, ! xe x xfy x poissfit () Descripción Estimación del parámetro (x) o intervalos de confianza para datos que se acomoden a las condiciones de una Poisson. n i ix n 1 1 ̂ Sintaxis [lambda, linter] = poissfit (x, alpha) - Genera el parámetro lambda ( ̂ ) a partir de la muestra x. - linter, muestra un intervalo con 100(1 - alpha)% de confianza, sino se especifica este parámetro el intervalo por defecto es de 95%. Ejemplo c = magic(3) c = [ 8 1 6 3 5 7 4 9 2 ] [d , intervalo ] = poissfit(c) %Parámetro e intervalo al 90% d = [ 5 5 5 ] ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 70 intervalo = [ 2.7985 2.7985 2.7985 8.2467 8.2467 8.2467 ] a = [1:10 ; 2:2:20] a = [1 2 3 4 5 6 7 8 9 10 2 4 6 8 10 12 14 16 18 20 ] b = poissfit (a) b = [1.5 3.0 4.5 6.0 7.5 9.0 10.5 12.0 13.5 15.0] Poisscdf () Descripción Función de distribución poisson acumulada. )( 0 ! xfloor i i i exFp Sintaxis p = poisscdf (x, lambda) - Calcula el valor de la sumatoria de los valores Poisson para los respectivos parámetros, donde x puede ser un vector o una matriz, sin embargo lambda debe ser positivo. Ejemplo ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 71 ● Supongamos que en cierta área el número X de tornados observados durante un año, tiene una distribución de Poisson con ̂ = 8, entonces cual es la probabilidad de obtener: a. A lo mucho 5 tornados? P(X≤5) entonces a = poisscdf(5 , 8) = 0.1912 b. Entre 6 y 9 tornados? P(6≤X≤9) entonces b = poisscdf(9 ,8)- poisscdf(6 ,8) = 0.7166 - 0.3134 = 0.4032 Poisspdf () Descripción Función Poisson de densidad de probabilidad. ,...1,0, ! xe x xfy x Sintaxis p = poisspdf (x, lambda) - Calcula el valor de densidad Poisson para un punto respectivo, donde x puede ser un vector o una matriz, sin embargo lambda debe ser positivo. Ejemplo ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 72 Supongamos que en cierta área el número X de tornados observados durante un año, tiene una distribución de Poisson con ̂ = 8, entonces cual es la probabilidad de obtener: a. exactamente 5 tornados ? P(X=5) entonces a = poisspdf (5 , 8) = 0.0916 Poissinv () Descripción Función Poisson de densidad de probabilidad inversa. (Es la inversa de poisscdf) Sintaxis x = poissinv (p, lambda) - Devuelve el valor de la función Poisson inversa mas aproximado para estos parámetros. - p, y lambda, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales. Ejemplo Supongamos que en cierta área el número X de tornados observados durante un año, tiene una distribución de Poisson con ̂ = 8; La afirmación de es falsa o verdadera : a. La probabilidad de obtener a lo mas 5 tornados es 0.1912. P(X≤5) = 0.1912 ? X = poissinv (0.1912 , 8) = 5 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 73 Entonces la afirmación es verdadera. b. La probabilidad de obtener a lo mas 9 tornados es 0.812. P(X≤9) = 0.812 ? X = poissinv (0.812 , 8) = 10 La afirmación es falsa, porque la probabilidad de 0.812 es de esperar 10 tornados Poissrnd () Descripción Genera una seria de números aleatorios a partir de una función Poisson y unos parámetros definidos. Sintaxis x = poissrnd (lambda, n, p) - Genera X con media aproximada a lambda, puede ser un vector o una matriz según las dimensiones del parámetro. - n y p, Serán las dimensiones de x. Ejemplo x = poissrnd (5 , 6 ,1) x = [2 7 8 3 5 4 ] ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 74 Media = mean (x) Media = 4.8333 Poisstat () Descripción Calcula la media y la varianza para una seria con distribución Poisson. Sintaxis [m , v] = poisstat (lambda) - n y p, pueden ser un vector o una matriz, sin embargo deben tener las dimensiones iguales Ejemplo [m , v] = binostat (8) m = 8.0000 %Media v = 8.0000 %Varianza Nota 7.1.3. Distribución Hipergeometrica La distribución hipergeométrica es adecuada para determinar Para una distribución Poisson: - La media es: med = ̂ - La varianza es: var = ̂ ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 75 probabilidad de que ocurra en un evento en las siguientes condiciones: la cantidad total de la población (M) y de la cual escogemos una muestra determinada (n) de donde se conoce un numero determinado de fracasos y exitos. Para este caso la función de densidad de probabilidad es: M n KM xn K x nKMxfy ,, hygecdf () Descripción Función de distribución hipergeométrica acumulada. M n KM in K i x i nKMxfy 0 ,, Sintaxis h = hygecdf (x,M,n,K) - Calcula el valor de la sumatoria de los valores para la distribución hipergeométrica para los respectivos parámetros, donde x,M,n,k pueden ser un vector o una matriz. Ejemplo Se tienen 100 microchips, y se sabe que 20 de estos están dañados. ¿Cuál es la probabilidad de sacar entre 0 y 3 ANALISIS ESTADISTICO EN MATLAB UNIVERSIDAD NACIONAL COLOMBIA FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES 76 microchips dañados de una muestra aleatoria de 10 microchips que escogemos? p = hygecdf(3,100,20,10) p = 0.8904 Hygepdf () Descripción Función hipergeométrica de densidad de probabilidad. M n KM xn K x nKMxfy ,, Sintaxis p = hygepdf (x,M,n,K) - Calcula el valor para la distribución hipergeométrica para los respectivos parámetros, donde
Compartir