Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE CIENCIAS ANÁLISIS MATRICIAL PARA RESOLVER SISTEMAS LINEALES CON MÉTODOS DIRECTOS T E S I S QUE PARA OBTENER EL TÍTULO DE: ACTUARIA P R E S E N T A : MICHELLE YADIRA CASTELLANOS REYES TUTOR: M. EN C. JOSÉ LUIS NAVARRO URRUTIA 2010 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Hoja de Datos del Jurado 1. Datos del alumno Castellanos Reyes Michelle Yadira 22331923 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaría 9438814-7 2. Datos del tutor M en C José Luis Navarro Urrutia 3. Datos del sinodal 1 Dr. Alejandro Alvarado García 4. Datos del sinodal 2 M en C María Guadalupe Elena Ibargüengoitia González 5. Datos del sinodal 3 M en C Agustín Alberto Rosas Medina 6. Datos del sinodal 4 M en C Pedro Reyes Pérez 7.Datos del trabajo escrito. Análisis matricial para resolver sistemas lineales con métodos directos 90 p 2010 Gracias a todos los que hicieron esto posible. Contenido Introducción v 1 Sistemas de Ecuaciones Lineales y Vectores Ortonor- males 1 1.1 Sistemas de Ecuaciones Lineales . . . . . . . . . . . 1 1.1.1 Propiedades básicas de matrices . . . . . . . 7 1.1.2 Eliminación gaussiana . . . . . . . . . . . . 15 1.1.3 Ortogonalidad (Proceso de Gram-Shmidt) y norma vectorial . . . . . . . . . . . . . . . . 23 1.1.4 Norma matricial . . . . . . . . . . . . . . . 31 2 El Número de Condición de una Matriz 35 2.1 Errores por redondeo . . . . . . . . . . . . . . . . . 35 2.2 Residuo de una solución aproximada. Sistemas mal condicionados . . . . . . . . . . . . . . . . . . . . . 40 3 Métodos Directos para Resolver Sistemas Lineales 53 3.1 Factorización de Matrices . . . . . . . . . . . . . . 53 3.1.1 Factorización LU . . . . . . . . . . . . . . . 54 3.1.2 El método de Cholesky o el método de la ráız cuadrada para matrices simétricas . . . 69 3.1.3 Factorización para matrices tridiagonales . . 75 3.1.4 Factorización QR . . . . . . . . . . . . . . . 81 4 Conclusiones 87 iii iv Bibliograf́ıa 89 Introducción Al trabajar con sistemas de ecuaciones lineales, en la práctica no es extraño producir un programa lineal con muchos miles de ren- glones y un número aparente ilimitado de columnas. En tales problemas es necesario aplicar algún método para convertir los grandes problemas en uno o varios problemas más pequeños, de manera que su tamaño sea manejable. Los sistemas de ecuaciones lineales son una de las herramientas matemáticas de modelación más comunes en las aplicaciones. Estos sistemas se pueden re- solver por medio de métodos directos o por métodos iterativos (donde los cálculos tienen sentido sólo si la solución numérica está cerca de la solución exacta del problema original). Estos cálculos se realizan con algoritmos numéricamente estables. En la actualidad hemos sido testigos del rápido desarrollo de las computadoras y con ellas el uso de programas para resolver sis- temas lineales por distintos métodos, aśı mismo han sido una he- rramienta para mejorar la estabilidad en la solución. Esta obra tiene como objetivo divulgar el uso de los método di- rectos para resolver sistemas lineales por medio de la factorización de la matriz de coeficientes. Esto conlleva esencialmente dos eta- pas: transformación del sistema original a otro u otros sistemas equivalentes más simples y luego encontrar la solución del nuevo sistema (que es equivalente al original). La transformación del sistema original a uno más -simple- toma muchas formas, la más común de ellas es el proceso de eliminación gaussiana (que veremos v vi Introducción en el primer caṕıtulo), esta es una de las herramienta escenciales e importantes en la solución directa de los sistemas de ecuaciones lineales. La factorización es un procedimiento sistemático para resolver problemas lineales de escala no muy grande (menor de un millón) [5]. El tipo de factorización que se aplicará a cada sistema depen- derá del tamaño y la forma de cada matriz. En el primer caṕıtulo, damos las definiciones básicas referen- tes a matrices, sus propiedades más utilizadas a través de toda la tesis, como son: el proceso de eliminación gaussiana, el proceso de Gram-Shmidt, norma vectorial y norma matricial. En el segundo caṕıtulo, hacemos un análisis matricial, para los sistemas mal condicionados, con el fin de conocer el compor- tamiento del sistema y el comportamiento de la solución. En el tercer caṕıtulo, desarrollamos cuatro factorizaciones ma- triciales, para obtener la solución de un sistema lineal -grande- o dif́ıcil y convertirlo en sistemas -fáciles- o sencillos de resolver. En el último caṕıtulo concluimos con algunos comentarios y observaciones de este trabajo. Michelle Yadira Castellanos Reyes Caṕıtulo 1 Sistemas de Ecuaciones Lineales y Vectores Ortonormales En este caṕıtulo damos la definiciones básicas, teoremas y proce- sos, que serán utilizados para los fines de este trabajo. 1.1 Sistemas de Ecuaciones Lineales Las ecuaciones son igualdades entre expresiones algebraicas que aparecen en la resolución de problemas, como son los de deter- minar el valor de una cantidad o una magnitud en el supuesto de que haya de cumplir determinadas condiciones. Los árabes in- trodujeron el término de álgebra para referirse a toda una serie de métodos estandarizados que permitian resolver cuestiones me- diante procedimientos determinados por la forma del problema. Más tarde se desarrolló un simbolismo algebraico y las ecuaciones se convirtieron en el instrumento indispensable para reducir pro- blemas complicados a términos más simples. La introducción 1 2 Sistemas de Ecuaciones Lineales y Vectores Ortonormales por Descartes,1 de los sistemas de coordenadas permitió expre- sar gráficamente las ecuaciones mediante ĺıneas y puntos, lo cual contribuyó a que naciera el concepto de función. La igualdad formal define una relación de equivalencias en el con- junto de expresiones algebraicas. Algunas de las posibles igual- dades formales entre dos expresiones algebraicas son válidas con independencia del valor numérico de dichas expresiones, es decir, con independencia de los valores que puedan tomar las indetermi- nadas o variables; por ejemplo consideremos 3xy − 6xz = 3x(y − 2z) (1.1) (x+ y)2 = x2 + 2xy + y2 (1.2) (1.1) y (1.2) son igualdades que se cumplen con independencia de cuáles sean los valores asignados a las variables x, y y z. Una igualdad de este tipo se denomina identidad. En cambio, existen otras igualdades entre expresiones algebraicas que sólo son válidas para determinados valores de las variables; son las llamadas propiamente ecuaciones, por ejemplo x+ 1 7 x = 19 (1.3) las variables que intervienen en ella acostumbran a recibir el nom- bre de incógnitas. Las ecuaciones se clasifican de acuerdo con el grado máximo de las variables que intervienen en ellas. Lasecuaciones más sencillas son las ecuaciones de primer grado, llamadas también ecuaciones lineales. 1René Descarte, matemático y filósofo que también dedicó mucha atención a la f́ısica, observando fenómenos naturales, es uno de los grandes nombres en el estudio y resolución de ecuaciones. Sistema de Ecuaciones Lineales 3 Las ecuaciones lineales aparecen asociadas en muchas ocasiones a problemas algebraicos que pueden plantearse en el marco de la vida cotidiana, y una vez que se ha formulado la ecuación, es claro que nos interesa determinar su solución. Por ejemplo, supongamos que se trata de resolver la siguiente cuestión: ¿Cuál es la distancia que ha de recorrer un excursion- ista que sigue un determinado itinerario si se sabe que, cuando ha recorrido 2 5 de camino, está todav́ıa a 1 km de distancia de la mitad de la ruta prevista? Si llamamos x la distancia que se quiere calcular y convirtiendo el enunciado en una ecuación, resulta que: 2 5 x+ 1 = 1 2 x (1.4) para resolver (1.4), simplemente despejamos la variable y tenemos que x = 10 km que es la distancia que ha de recorrer el excursio- nista. Resolver el problema anterior es sencillo, ya que la ecuación obtenida es una ecuación lineal con una incógnita. En la práctica existen problemas donde las ecuaciones obtenidas son más de una y también el número de variables, las cuales se les nombra sistema de ecuaciones. El siguiente ejemplo muestra una problemática donde se re- quiere un sistema de ecuaciones lineales, con tres incógnitas y tres ecuaciones: El promedio de las temperaturas del Distrito Federal (DF), Jalisco (Ja) y Monterrey (Mo) fue de 88 oF durante cierto d́ıa de verano, en Monterrey fue de 9 oF mayor que el promedio de las temperatu- ras de las otras dos cuidades, en el Distrito Federal fue 9 oF menor que la temperatura promedio de las otras dos ciudades. ¿Cuál fue 4 Sistemas de Ecuaciones Lineales y Vectores Ortonormales la temperatura en cada ciudad? x+ z 2 + 9 = y (1.5) y + z 2 − 9 = x x+ y + z 3 = 88 resolviendo el sistema (1.5) por sustitución2 u otro método3, obtenemos la solución x = DF = 82 oF y = Mo = 94 oF z = Ja = 88 oF. Cuando el problema es mayor, hay muchas incógnitas por de- terminar y deben satisfacer a todas las ecuaciones. En estos ca- sos ya no es sencillo resolver por medio de sustitución, debido al número de operaciones que hay que realizar. Para facilitar el trabajar con sistemas de ecuaciones, los coeficientes de estas se transcriben de forma ordenada en un arreglo de columnas y ren- glones, llamadas matrices. Para los fines que perseguimos, los elementos de las matrices siempre estarán contenidos en el campo de los números reales (R). 1 Definición. Una matriz A de n×m es un arreglo rectangular de elementos con n renglones y m columnas y denotaremos por Anm, donde no sólo es importante el valor de un elemento, sino también su posición en el arreglo. 2El método por sustitución para resolver sistemas de ecuaciones lineales, se puede consultar en cualquier libro de algebra, por ejemplo Baldor. 3El el caṕıtulo 3, veremos otros métodos para encontrar la solución de sistemas de ecuaciones lineales. Sistema de Ecuaciones Lineales 5 Observación. Utilizaremos la notación [aij], para determinar la matriz A, cuando hacemos referencia a sus elementos y también utilizaremos A sin subindices, para definir una matriz cuando no haya confusión acerca del tamaño de la matriz. Por ejemplo, sea el siguiente sistema de ecuaciones lineales a11x1 + a12x2 + · · ·+ a1mxm = b1 a21x1 + a22x2 + · · ·+ a2mxm = b2 ... ... ... (1.6) an1x1 + an2x2 + · · ·+ anmxm = bn Si consideramos únicamente el lado izquierdo de las igualdades de (1.6), obtenemos la matriz Anm, y si nos fijamos en la parte derecha, obtenemos la matriz bn1. Anm = a11 a12 · · · a1m a21 a22 · · · a2m ... ... . . . ... an1 an2 · · · anm y bn1 = b1 b2 ... bn considerando el sistema (1.6) con ambos lados de la igualdad, ob- servemos que la matriz asociada Cn(m+1), no es otra cosa que un arreglo entre las matrices Anm y bn1, Cn(m+1) = [Anm|bn1] = a11 a12 · · · a1m b1 a21 a22 · · · a2m b2 ... ... . . . ... ... an1 an2 · · · anm bn donde [Anm | bn1] se lee, la matriz aumentada. Observemos que no es necesario escribir todas las ecuaciones completas en cada paso ni retener las variables xi en los cálculos, pues siempre per- manecen en su misma columna. La única variante de un sistema a 6 Sistemas de Ecuaciones Lineales y Vectores Ortonormales otro se presenta en los coeficientes de las incógnitas y en los valo- res del lado derecho de las ecuaciones, por tal razón en el álgebra lineal, a menudo un sistema lineal se reemplaza por una matriz que contiene toda la información necesaria, lo cual nos permite manipular el sistema de una manera más sencilla para determinar su solución, de forma fácil y compacta. Observación. Dos matrices A y B son iguales, si tiene el mismo tamaño y si aij = bij para cada i = 1, 2, . . . n, y j = 1, 2, . . . ,m. 2 Definición. Un Espacio vectorial real V es un conjunto de objetos llamados vectores, junto con dos operaciones, llamadas suma y multiplicación por un escalar que satisfacen diez axiomas, que se enumeran a continuación. 1. Si x̄ y ȳ ∈ V , entonces x̄ + ȳ ∈ V (V es cerrado para la suma). 2. Para todos x̄, ȳ, z̄ ∈ V, (x̄+ ȳ)+ z̄ = x̄+(ȳ+ z̄) (ley asociativa de la suma). 3. Existe un vector 0̄ ∈ V , tal que para todo x̄ ∈ V, x̄ + 0̄ = 0̄ + x̄ = x̄ (0̄ es el neutro aditivo). 4. Si x̄ ∈ V , existe un vector −x̄ ∈ V , tal que x̄ + (−x̄) = 0̄ (−x̄ es el inverso aditivo de x̄). 5. Si x̄, ȳ ∈ V , entonces x̄ + ȳ = ȳ + x̄ (ley conmutativa de la suma de vectores). 6. Si x̄ ∈ V , y α es un escalar, entonces αx̄ ∈ V (V es cerrado para la multiplicación escalar). 7. Si x̄, ȳ ∈ V y si α es un escalar, entonces α(x̄+ ȳ) = αx̄+αȳ (primera ley distributiva). Sistema de Ecuaciones Lineales 7 8. Si x̄ ∈ V y si α y β son escalares, entonces (α+β)x̄ = αx̄+βx̄ (segunda ley distributiva). 9. Si x̄ ∈ V y si α y β son escalares, entonces α(βx̄) = (α ·β)x̄, donde α ·β es el producto punto de escalares, (ley asociativa de la multiplicación por escalar). 10. Para todo vector x̄ ∈ V, 1x̄ = x̄ (1 es el neutro multiplica- tivo). 1.1.1 Propiedades básicas de matrices Las matrices constituyen un método adecuado para expresar y tratar un sistema lineal. Veamos un poco del álgebra asociada a ellas y sus propiedades, para poder resolver problemas que con- tengan sistemas de ecuaciones lineales. Podemos dar a las matrices Mmn ∈ R, estructura de espacio vectorial, ya que en realidad sus columnas y sus renglones en el arreglo son vectores columna o vectores renglón respectivamente, y cumplen con los axiomas de espacio vectorial, como veremos a continuación. Definimos la suma de matrices y el producto de una matriz por un número real. 3 Definición. Sean Anm y Bnm matrices, entonces la suma de Anm y Bnm, denotada Anm +Bnm, es la matriz de tamaño n×m cuyos elementos son aij + bij, para cada i = 1, 2, . . . , n y para cada j = 1, 2, . . . ,m. 4 Definición. Sea Anm y α ∈ R, entonces la multiplicación de la matriz Anm por el escalar α, denotada αAnm, es una matriz de tamaño n×m cuyos elementos son αaij, para cada i = 1, 2, . . . , n y para cada j = 1, 2, . . . ,m. 8 Sistemas de Ecuaciones Lineales y Vectores Ortonormales Observación. La matriz nula es aquella cuyos elementos aij = 0, para toda i = 1, . . . , n y para toda j = 1, 2, . . . ,m. Observación. La matriz −A, es aquella cuyos elementos son −aij, para toda i = 1, . . . , n y para toda j = 1, 2, . . . ,m. 1.1 Teorema. Sean Anm, Bnm y Cnm matrices y sean α y β ∈ R, entonces se cumplen las siguientes propiedades 1. Anm +Bnm = Bnm + Anm 2. (Anm +Bnm) + Cnm = Anm + (Bnm + Cnm) 3. Anm + 0nm = 0nm + Anm = Anm 4. Anm + (−Anm) = −Anm + Anm = 0nm 5. α(Anm +Bnm) = αAnm + αBnm 6. (α + β)Anm = αAnm + βAnm 7. α(βAnm) = (αβ)Anm. La demostraciónde este teorema es muy similar a la prueba que se hace con los números reales y se puede ver en cualquier texto elemental de álgebra lineal, por lo que no se realizará en este trabajo. 5 Definición. Se dice que una matriz A es cuadrada si el número de renglones es igual al número de columnas. En este caso se dice que la matriz A es de tamaño n× n, y la denotaremos por An. 6 Definición. Se dice que D es matriz diagonal si D = { dij = 0 para i 6= j. } . Sistema de Ecuaciones Lineales 9 Observación. La matriz identidad (I) es una matriz diagonal con dij = 1, para i = j. 7 Definición. Sea An, se dice que Un es matriz triangular supe- rior de An, si todos sus elementos debajo de la diagonal son cero. Análogamente se dice que Ln es matriz triangular inferior de An si todos sus elementos por encima de la diagonal son cero. Además podemos definir un producto de matrices de la siguien- te manera: 8 Definición. Sean Anm y Bmp matrices. El producto matricial de Anm y Bmp, denotamos AnmBmp, es una matriz Cnp cuyos ele- mentos cij están dados por cij = m∑ k=1 aikbkj = ai1b1j + ai2b2j + · · ·+ aimbmj, para cada i = 1, 2, . . . , n, y j = 1, 2, . . . , p, es decir ( ai1, ai2, · · · , aim ) b1j b2j ... bmj = cij. 1.2 Teorema. Sean las matrices Anm, Bmk, Ckp, Dmk y α ∈ R. Se tienen las siguientes propiedades 1. Anm(BmkCkp) = (AnmBmk)Ckp 2. Anm(Bmk + Ckp) = AnmBmk + AnmCkp 3. ImBmk = Bmk y BmkIk = Bmk 4. α(AnmBmk) = (αAnm)Bmk = Anm(αBmk). Una manera de probar estas propiedades es desarrollando los dos lados de la igualdad de cada inciso y se llegará al mismo re- sultado en cada caso. 10 Sistemas de Ecuaciones Lineales y Vectores Ortonormales 9 Definición. Se dice que una matriz An es no singular, si existe una matriz A−1n , tal que AnA −1 n = A −1 n An = In. A la matriz A −1 n se le llama inversa de An. Si la inversa de An no existe, se dice que An es singular. 1.3 Teorema. Sean las matrices An y Bn no singulares, entonces 1. A−1n es única 2. A−1n es no singular y (A −1 n ) −1 = An 3. (AnBn) −1 = B−1n A −1 n . Demostración. Para la demostración no usaremos los subindices de las matrices, se da por entendido que el tamaño de las matrices en este teorema es n. 1. Supongamos que la inversa de A no es única, entonces sean A−1 y B−1, inversas de la matriz A. Partimos del hecho que A = A y si multiplicamos por B−1 y A−1 del lado izquierdo y derecho respectivamente en ambos lados de la igualdad obtenemos B−1AA−1 = B−1AA−1 asociamos de la siguiente manera (B−1A)A−1 = B−1(AA−1) por hipótesis B−1 y A−1 son inversas de A, entonces IA−1 = B−1I por el Teorema (1.2 - inciso 3) A−1 = B−1 lo que nos lleva a una contradicción, por lo tanto la inversa de A es única. Sistema de Ecuaciones Lineales 11 2. Por hipótesis A−1 es no singular, entonces existe (A−1)−1 por definición de inversa, definición (9) (A−1)−1A−1 = I si multiplicamos la igualdad por A y asociamos (A−1)−1(A−1A) = IA por definición de inversa y por el Teorema (1.2 - inciso 3) (A−1)−1 = A. 3. Por hipótesis existe A−1, B−1 y (AB)−1, por definición de inversa (AB)−1(AB) = I por demostrar B−1A−1(AB) = I asociamos B−1(A−1A)B = I por definición de inversa B−1IB = I B−1B = I I = I como la inversa es única, entonces (AB)−1 = B−1A−1. � 10 Definición. La transpuesta de una matriz Anm = [aij], se de- nota por At, donde la i-ésima columna de At es el i-ésimo renglón de Anm, es decir, A t = [aji] = Amn, (intercambio de renglones y columnas). Observación. Una matriz cuadrada A será simétrica si A = At. 12 Sistemas de Ecuaciones Lineales y Vectores Ortonormales 1.4 Teorema. Las siguientes operaciones son relativas a la trans- puesta de una matriz, y son válidas siempre que se cumpla la definición de suma y producto de matrices 1. (At)t = A 2. (A+B)t = At +Bt 3. (AB)t = BtAt 4. Si A−1 existe, (A−1)t = (At)−1. Demostración. 1. Sea A = [aij], al transponer por definición, At = [aji], si aplicamos la definición de transpuesta por segunda vez, (At)t = [aij] = A. 2. Por hipótesis la suma de A y B está definido entonces, trans- ponemos (A+B)t = [a+ b]ji = [aji] + [bji], por definición de transpuesta [aji] + [bji] = A t +Bt. 3. Por hipótesis existe el producto AB, entonces [aij][bjk], por la definición (5) producto de matrices, el número de columnas (j) de A debe ser igual al número de renglones (j) de B. Si transponemos a A y a B, tenemos, At = [aji] y B t = [bkj], Sistema de Ecuaciones Lineales 13 para que el producto sea factible por definición del producto de matrices, ahora el número de columnas de B coinciden con el número de renglones de A, es decir, BtAt. El primer renglón de este producto es la primera columna de (AB)t, los otros renglones de (AB)t también coinciden con las columnas de BtAt. 4. Por definición de inversaAA−1 = I, y tomando la transpuesta (AA−1)t = I t por el punto anterior (producto de transpuestas) (A−1)tAt = I t multiplicamos por (At)−1 y asociando términos (A−1)t(At(At)−1) = I t(At)−1 por definición de inversa (A−1)tI = I t(At)−1 I = I t por ser una matriz simétrica, por lo tanto (A−1)t = (At)−1. � Ahora veamos la definición del determinante de una matriz, ya que es un concepto fundamental del álgebra lineal, con el cual se determina la existencia y la unicidad de la solución de los sistemas de ecuaciones lineales. 11 Definición. 1. Si A1 = [a], entonces el detA = a. 2. Sea An, el menor Mij es el determinante de la submatriz (n− 1)× (n− 1) de An, que se obtiene al suprimir el i-ésimo renglón y la j-ésima columna de la matriz An. 14 Sistemas de Ecuaciones Lineales y Vectores Ortonormales 3. El cofactorAij asociado aMij se define conAij = (−1)i+jMij. 4. El determinante de la matriz An, cuando n > 1, está dado por detA = n∑ j=1 aijAij = n∑ j=1 (−1)i+jaijMij. 1.5 Teorema. Sean las matrices An y Bn, entonces se cumplen las siguientes proposiciones: 1. Si un renglón o columna cualquiera de An tiene exclusiva- mente elementos cero, entonces el detAn = 0. 2. Si obtenemos Ãn a partir de An intercambiando los renglones i y j, con i 6= j, entonces el det Ãn = −(detAn). 3. Si An tiene dos renglones iguales o dos columnas iguales, entonces detAn = 0. 4. Si obtenemos Ãn a partir de multiplicar el i-ésimo renglón de An por un escalar λ, entonces det Ãn = λ(detAn). 5. Si obtenemos Ãn a partir de sumarle al i-ésimo renglón de An el producto del j-ésimo renglón de An por el escalar λ, entonces det Ãn = detAn. 6. El det(AnBn) = (detAn)(detBn). 7. detAtn = detAn. 8. Cuando A−1n existe, detA −1 n = (detAn) −1. 9. Si An = [aij] es una matriz triangular superior o triangular inferior (o diagonal), entonces detAn = ∏n i=1 aii. Sistema de Ecuaciones Lineales 15 La demostración de este teorema se puede ver en [1]. En este trabajo sólo consideraremos sistemas de ecua- ciones lineales que tengan solución y que esta sea única. A continuación se presenta el resultado más importante que relaciona la no singularidad, la eliminación gaussiana, los sistemas lineales y los determinantes de las matrices, que son las condiciones básicas para que el sistema tenga solución única. 1.6 Teorema. Las afirmaciones que siguen son equivalentes para cualquier matriz An 1. La ecuación Anx̄ = 0̄, tiene la solución única x̄ = 0̄. 2. El sistemaAnx̄ = bn1, tiene una solución única para cualquier vector columna n dimensional b̄. 3. La matriz An es no singular, es decir, existe A −1 n . 4. detAn 6= 0. 5. La eliminación gaussiana con intercambio de renglones puede efectuarse en el sistema Anx̄ = bn1, para cualquier vector b̄ columna n dimensional. La demostración de este teorema se puede ver en [1]. 1.1.2 Eliminación gaussiana La eliminación de Gauss, es uno de mejores métodos para resolver sistemas lineales. Es por eso que lo utilizaremos para resolver sistemas de n ecuaciones lineales, el método consiste en aplicar 16 Sistemas de Ecuaciones Lineales y VectoresOrtonormales ciertas operaciones para simplificar el sistema lineal E1 : a11x1 + a12x2 + · · ·+ a1nxn = b1 E2 : a21x1 + a22x2 + · · ·+ a2nxn = b2 ... ... ... ... En : an1x1 + an2x2 + · · ·+ annxn = bn las operaciones que se aplican sobre cualquier sistema de ecua- ciones, llamadas operaciones elementales, son: • La ecuación Ei puede multiplicarse por una constante λ 6= 0, y la ecuación resultante se emplea en vez de Ei. Esta operación se denota por (λ Ei) → Ei. • La ecuación Ej puede multiplicarse por una constante λ y sumarse a la ecuación Ei, la ecuación resultante se emplea en vez de Ei. Esta operación se denota por (Ei + λEj)→ (Ei). • El orden de las ecuaciones Ei y Ej puede intercambiarse. Esta operación se denota por (Ei) ↔ (Ej). A partir de estas operaciones elementales podemos trans- formar un sistema lineal en otro, y al resolver el nuevo sistema no se altera la solución del sistema original, es decir, los sistemas son equivalentes. Si queremos resolver el sistema Anx̄ = bn1, podemos transfor- mar la matriz de coeficientes An, por medio de las operaciones elementales, en una matriz triangular superior. Si el sistema es denotado por A(1)x̄ = b(1), para indicar el estado original del sis- tema, entonces el proceso de eliminación gasussiana está dado por: Primer paso de eliminación Si a (1) 11 6= 0, podemos eliminar la incógnita x1 de las ecuaciones Sistema de Ecuaciones Lineales 17 siguientes. El paso t́ıpico es restar de la i-ésima ecuación (i : 2, 3, . . . , n) la primera, multiplicada por mi1 = a (1) i1 a (1) 11 (i = 2, 3, . . . , n), este número mi1 se conoce como el multiplicador asociado con la i-ésima ecuación. Después de realizar esta operación la i-ésima ecuación tendrá nuevos coeficientes a (2) ij y b (2) i cuyos valores son a (2) i1 = 0 y a (2) ij = a (1) ij −mi1a (1) 1j , (i = 2, 3, . . . , n), b (2) i = b (1) i −mi1b (1) 1 . Después de la aplicación de las operaciones anteriores para cada renglón i = 2, 3, . . . , n, obtenemos el nuevo sistema A(2)x = b(2) dado expĺıcitamente por a (1) 11 x1 + a (1) 12 x2 + · · ·+ a (1) 1nxn = b (1) 1 a (2) 22 x2 + · · ·+ a (2) 2nxn = b (2) 2 ... ... ... a (2) n2x2 + · · ·+ a(2)nnxn = b(2)n . Observación. Nótese que si se resuelve computacionalmete el problema, para almacenar los coeficientes aij y bij, podemos es- cribir sobre los a (1) ij los nuevos valores a (2) ij que se acaban de cal- cular. Podemos guardar también los multiplicadores mi1 en donde teńıamos los coeficientes a (1) i1 siempre y cuando recordemos que to- dos los elementos debajo de la diagonal principal en la primera columna de A(2) son en realidad iguales a cero. Segundo paso de eliminación Ahora el objetivo es eliminar la incógnita x2 desde la tercera 18 Sistemas de Ecuaciones Lineales y Vectores Ortonormales ecuación hasta la última. Si a (2) 22 6= 0, en primer término calcu- lamos los multiplicadores mi2 = a (2) i2 a (2) 22 (i = 3, 4 . . . , n), los nuevos coeficientes a (3) ij y b (3) i sern a (3) i2 = 0 y a (3) ij = a (2) ij −mi2a (2) 2j , (i = 3, 4 . . . , n), b (3) i = b (2) i −mi2b (2) 2 . Luego de aplicar estas operaciones a cada renglón i = 3, . . . , n, obtenemos el nuevo sistema A(3)x = b(3) definido por a (1) 11 x1 + a (1) 12 x2 + a (1) 13 x3 + · · ·+ a (1) 1nxn = b (1) 1 a (2) 22 x2 + a (2) 23 x3 + · · ·+ a (2) 2nxn = b (2) 2 a (3) 33 x3 + · · ·+ a (3) 3nxn = b (3) 3 ... ... ... a (3) n3x3 + · · ·+ a(3)nnxn = b(3)n . Continuando de esta manera, después de n−1 pasos de eliminación obtenemos un sistema de la forma a (1) 11 x1 + a (1) 12 x2 + a (1) 13 x3 + · · ·+ a (1) 1nxn = b (1) 1 a (2) 22 x2 + a (2) 23 x3 + · · ·+ a (2) 2nxn = b (2) 2 a (3) 33 x3 + · · ·+ a (3) 3nxn = b (3) 3 ... ... ... a(n)nnxn = b (n) n . que se denotará por A(n)x = b(n). Este procedimiento es aplica- ble toda vez que cada uno de los coeficientes a (1) 11 , a (2) 22 , a (3) 33 , . . . , a (n) nn (denominados pivotes), sean distintos de cero. Sistema de Ecuaciones Lineales 19 Cuando se realiza computacionalmente este proceso la matriz An se reescribe en forma sucesiva, en cada paso de eliminación, almacenando los nuevos coeficientes a (k) ij y los correspondientes multiplicadores mik en los lugares antes asignados a las variables eliminadas. Hasta obtener el sistema triangular superior Unx̄ = bn1, tal que Un = A (n), bn1 = b (n). Es claro que no necesariamente las entradas uij de la matriz U concuerden con las entradas de la matriz original, sin embargo, son equivalentes. Observemos que como el nuevo sistema es tri- angular superior, podemos efectuar sustitución regresiva, para encontrar la solución. xn = b (n) n a (n) nn , xi = b (i) i − ∑n j=i+1 a (i) ij xj aii , i = n− 1, n− 2, . . . , 1. Consideremos el sistema (1.5), expresado en la matriz de coefi- cientes y apliquemos la eliminación gaussiana para encontrar la solución. 1.1.1 Ejemplo. [A|b] = 1 −12 −12 −9−1 2 1 −1 2 9 1 3 1 3 1 3 88 Para comenzar la fase de triangulación superior, tomamos [A(0)|b(0)] como [A|b]. Para obtener ceros debajo de a11 = 1, usamos las sustracciones; 1) (E2 − a21a11E1)→ E2 = [−1 2 , 1,−1 2 : 9] + 1 2 [1,−1 2 ,−1 2 : −9] = [0, 3 4 ,−3 4 : 9 2 ] 20 Sistemas de Ecuaciones Lineales y Vectores Ortonormales 2) (E3 − a31a11E1)→ E3 = [ 1 3 , 1 3 , 1 3 : 88]− 1 3 [1,−1 2 ,−1 2 : −9] = [0, 1 2 , 1 2 : 91] la matriz aumentada [A(1)|b(1)] resultante es = 1 −12 −12 −90 3 4 −3 4 9 2 0 1 2 1 2 91 Para obtener ceros debajo de a22 = 3 4 , usamos la sustracción; (E3 − a32a22E2)→ E3 = [0, 1 2 , 1 2 : 91]− 2 3 [0, 3 4 ,−3 4 : 9 2 ] = [0, 0, 1 : 88] La matriz triangular superior resultante es [A(2)|b(2)] = 1 −12 −12 −90 3 4 −3 4 9 2 0 0 1 88 y el sistema de ecuaciones es x− 1 2 y − 1 2 z = −9 (1.7) 3 4 y − 3 4 z = 9 2 z = 88 Aqúı termina el proceso de eliminación y ahora aplicando susti- tución regresiva, obtenemos la solución del sistema (1.7) z = 88 y = 94 x = 82 La cual es solución del sistema original (1.5). Sistema de Ecuaciones Lineales 21 Pivoteo El método de eliminación de Gauss tal y como se ha presentado hasta el momento, por definición, los pivotes no pueden ser cero, ya que es necesario dividir entre ellos. Si el primer coeficiente es cero, en la esquina superior izquierda, la eliminación de las incognitas de las otras ecuaciones es imposi- ble. Lo mismo es cierto en toda etapa intermedia. Observe que en una posición pivote puede aparecer un cero, aún si el coeficiente original en ese sitio no era cero. En términos generales, no se sabe si aparecera un cero sino hasta que se intenta, al realizar en verdad el proceso de eliminación. En muchos casos este problema puede restablecerse, por lo que la eliminación puede continuar. Un sistema aśı sigue siendo no singular; es sólo el algoritmo lo que requiere reparación. En otros casos es inevitable la falla. Estos sistemas incurables son singulares, no tienen solución o tienen una infinidad de estas, por lo que no es posible encontrar un conjunto completo de pivotes. Si bien es cierto que no podemos eliminar completamente la in- estabilidad, podemos controlarla permutando el orden de los ren- glones (operaciones elementales) y/o columnas de la matriz. A esta técnica se le conoce como pivoteo y ha sido utilizada desde la aparición de las computadoras (alrededor de 1950). El pivoteo consiste en que si durante el proceso de eliminación se obtiene un pivote nulo, por ejemplo a (k−1) kk , se debe buscar en la parte inferior de la columna k-ésima un coeficiente no nulo, es decir de entre los a (k−1) ik , i = k + 1, . . . , n, se toma uno que sea distinto de cero. Se sustituye entonces la fila k (y su término inde- pendiente, b (k−1) k por la fila i (y su término independiente b (k−1) i ) que se haya escogido. 22 Sistemas de Ecuaciones Lineales y Vectores Ortonormales 1.1.2 Ejemplo. Seael sistema 2x+ 2y − 4z = −1 (1.8) x+ y + 5z = −2 x+ 3y + 6z = −5 [A(0)|b(0)] = 2 2 −4 −11 1 5 −2 1 3 6 −5 , multiplicamos el primer renglón por (−1 2 ) y lo sumamos el segundo y tercer renglón [A(1)|b(1)] = 2 2 −4 −10 0 7 −3 2 0 2 8 −9 2 , en este caso el segundo pivote a22 = 0 y es imposible usarlo para continuar con la eliminación gaussiana, ya que no podemos dividir entre esta entrada, aplicamos pivoteo, es decir, intercambiamos el segundo y tercer renglones [A(2)|b(2)] = 2 2 −4 −10 2 8 −9 2 0 0 7 −3 2 , aqúı termina el proceso, ya que los elementos debajo de la diagonal son todos cero. Ahora proseguimos con la sustitución regresiva para obtener la solución del sistema (1.8) (x, y, z)t = (7,−9 2 , 3 2 )t. La eliminación gaussiana es la base para hacer una de las des- composiciones más importante y más usada en la práctica que veremos en el caṕıtulo 3. Sistema de Ecuaciones Lineales 23 1.1.3 Ortogonalidad (Proceso de Gram-Shmidt) y norma vectorial Haremos una breve introducción al concepto de ortogonalidad. Recordemos la definición de subespacio y base vectorial. 12 Definición. Un subconjunto W de un espacio vectorial V se denomina subespacio de V , si W es un espacio vectorial bajo la adición y la multiplicación escalar definidas sobre V . Si W es un conjunto formado por uno o más vectores de un espacio vectorial V , entonces W es un subespacio de V , si y sólo si se cumplen las siguientes condiciones. 1. Si ū y v̄ son vectores en W , entonces ū+ v̄ están en W . 2. Si α es cualquier escalar y ū es cualquier vector en W , en- tonces αū está en W . 13 Definición. Base. Un conjunto de vectores {v1, v2, · · · , vn} forma una base para V si 1. {v1, v2, · · · , vn} es linealmente independiente. Recordemos que {v1, v2, · · · , vn} son linealmente indepen- dientes, si existen n escalares {α1, α2, . . . , αn} y si la ecuación α1v1 + α2v2 + · · ·+ αnvn = 0 sólo se satisface si α1 = α2 = · · · = αn = 0. 2. {v1, v2, · · · , vn} genera V , es decir cualquier vector de v̄ en V se puede escribir en términos de {v1, v2, · · · , vn}, por ejemplo v̄ = α1v1 + α2v2 + · · ·+ αnvn. Vectores y subespacios ortogonales Se requiere una base para convertir construcciones geométricas en 24 Sistemas de Ecuaciones Lineales y Vectores Ortonormales cálculos algebraicos, y se necesita una base ortogonal para que es- tos cálculos sean sencillos. Además de vectores, los subespacios también pueden ser perpendiculares. El primer paso es encontrar la longitud de un vector , que se denota por ‖x̄‖, 14 Definición. Una función ‖‖ se llama norma vectorial si para cualquier vector x̄ y ȳ ∈ Rn, se satisfacen los siguientes axiomas: 1. ‖x̄‖ > 0, 2. ‖x̄‖ = 0⇔ x̄ = 0, 3. ‖ax̄‖ = |a|‖x̄‖ para cualquier número real a, 4. ‖x̄+ ȳ‖ 6 ‖x̄‖+ ‖ȳ‖ (desigualdad del triángulo), La norma vectorial en dos dimensiones proviene de la hipotenusa de un triangulo rectángulo. El cuadrado de la longitud que fue proporcionada por Pitágoras es: ‖x̄‖2 = x21 + x22. En el espacio tridimensional, x̄ = (x1, x2, x3) es la diagonal de un paralelepipedo, entonces la longitud en tres dimensiones es ‖x̄‖2 = x21 + x22 + x23. La extensión a x̄ = (x1, · · · , xn) en n dimensiones es inmediata. Por el teorema de Pitágoras multiplicando por n − 1 veces, la longitud de ‖x̄‖ ∈ Rn es la ráız cuadrada positiva de x̄tx̄: longitud al cuadrado ‖x̄‖2 = x21 + x22 + · · ·+ x2n = x̄tx̄. (1.9) Sistema de Ecuaciones Lineales 25 Siguiendo con la idea de la definición (14), enunciamos las nor- mas vectoriales más generales. 15 Definición. Sea p > 1. La norma de Hölder, o norma-p, se define como: ‖x̄‖p = ( n∑ i=1 |xi|p) 1 p . En particular, para p = 1 obtenemos la norma-1 ‖x̄‖1 = n∑ i=1 |xi|, (1.10) la norma-2 (o norma euclidiana, por ser semejante a la fórmula de la distancia en geometŕıa), para p = 2, ‖x̄‖2 = ( n∑ i=1 |xi|2) 1 2 , (1.11) y la norma-∞, es decir para p =∞, es ‖x̄‖∞ = máx16i6n|xi|. (1.12) Vectores ortogonales En el plano generado por x y y, estos vectores son ortogonales en el supuesto de que formen un ángulo recto. Si a estos vec- tores aplicamos el teorema de Pitagoras (a2 + b2 = c2), obtenemos Lados de un triangulo rectángulo ‖x‖2 + ‖y‖2 = ‖x− y‖2. Al aplicar la fórmula de longitud (1.9), esta prueba de ortogonali- dad en Rn se vuelve (x21 + · · ·+ x2n) + (y21 + · · ·+ y2n) = (x1 − y1)2 + · · ·+ (xn − yn)2 26 Sistemas de Ecuaciones Lineales y Vectores Ortonormales desarrollando los binomios del lado derecho de la igualdad contiene un término −2xiyi extra de cada (xi − yi)2. miembro derecho = (x21 + · · ·+ x2n)− 2(x1y1 + · · ·+ xnyn) + (y21 + · · ·+ y2n), es decir 0 = −2(x1y1 + · · ·+ xnyn). Se tiene un triangulo rectángulo cuando la suma de los términos del producto xiyi es cero (vectores ortogonales), es decir x̄tȳ = x1y1 + · · ·+ xnyn = 0. Esta suma es x̄tȳ = ∑ xiyi = ȳ tx̄, el vector x̄t multiplicando por el vector columna ȳ, se denomina producto interior . Lo anterior es la prueba del siguiente teorema. 1.7 Teorema. El producto interno x̄tȳ es cero si y sólo si x̄ y ȳ son vectores ortogonales, para el caso en que x̄, ȳ 6= 0̄, ya que el vector cero es ortogonal a cualquier vector. Subespacios ortogonales 16 Definición. Dos subespacios V y W del mismo espacio Rn son ortogonales si cada vector v̄ en V es ortogonal a cada vector w̄ en W : v̄tw̄ = 0̄ para toda ū y w̄. Bases Ortogonales En una base ortogonal, todos los vectores son perpendiculares en- tre śı. Los ejes coordenados son mutuamente ortogonales. Esta situación es casi óptima, y la única mejoŕıa es fácil de realizar: cada vector se divide entre su longitud con la finalidad de hacerlo un vector unitario. Aśı se cambia una base ortogonal a una base ortonormal . Sistema de Ecuaciones Lineales 27 17 Definición. Los vectores q1, · · · , qn son ortonormales si qTi qj = { 0 siempre que i 6= j, proporcionando la ortogonalidad 1 siempre que i = j, proporcionando la normalización Una matriz con columnas ortonormales se denomina Q. Un buen ejemplo es considerar la base canónica de R2, la cual está formada por {e1, e2}, donde e1 = (1, 0) y e2 = (0, 1), son los ejes más conocidos y no sólo son perpendiculares, si no que también son horizontal y vertical, respectivamente. Entonces Q = I2. Si consideramos la base canónica de Rn, está formada por {e1, · · · , en} y Q = In. Al rotar los ejes sin modificar los ángulos a los que se cortan son ejemplos de Q(matrices ortogonales). Si se tiene un subespacio de Rn, los vectores canónicos ei pueden no estar en ese subespacio. Sin embargo, el subespacio siempre tiene una base ortonormal, que puede construirse en forma sencilla a partir de cualquier base dada. Esta construcción que transforma un conjunto sesgado de ejes en un conjunto perpendi- cular, se denomina ortogonalización de Gram-Schmidt. 1.8 Teorema (Proceso de Gram - Schmidt). Sea W un subespa- cio no nulo de Rn con base S = {ū1, ū2, . . . , ūm}, entonces, hay una base ortonormal T = {w̄1, w̄2, . . . , w̄m} para W . Demostración. Esta se realizará de forma constructiva, es decir, construiremos gradualmente la base T deseada. El primer paso consiste en encontrar una base ortogonal T ∗ = {v̄1, v̄2, . . . , v̄m} para W . Primero elegimos cualquiera de los vectores de S, digamos ū1, y lo llamamos v̄1; v̄1 = ū1. Después buscamos un vector v̄2 en el subespacio W1 de W generado por {ū1, ū2} que sea ortogonal a v̄1. 28 Sistemas de Ecuaciones Lineales y Vectores Ortonormales Como v̄1 = ū1, W1 es también el subespacio generado por {v̄1, ū2}. Hagamos, v̄2 = c1v̄1 + c2ū2. Intentaremos determinar c1 y c2 de modo que v̄1 · v̄2 = 0. Ahora, 0 = v̄2 · v̄1 = (c1v̄1 + c2ū2) · v̄1 = c1(v̄1 · v̄1) + c2(ū2 · v̄1). (1.13) Como v̄1 6= 0̄, porque, v̄1 · v̄1 6= 0, y al resolver para c1 y c2 en (1.13), obtenemos c1 = −c2 ū2 · v̄1 v̄1 · v̄1 . Donde podemos asignar un valor arbitrario no nulo a c2. Si hace- mos c2 = 1, obtenemos c1= − ū2 · v̄1 v̄1 · v̄1 . Por lo tanto, v̄2 = c1v̄1 + c2ū2 = ū2 − ( ū2 · v̄1 v̄1 · v̄1 )v̄1. Observe que hasta este momento hemos construido un subconjunto ortogonal v̄1, v̄2 de W . A continuación, determinaremos un vector v̄3 que está en el sub- espacio W2 de W generado por {ū1, ū2, ū3} y es ortogonal a v̄1 y v̄2. Por supuesto, W2 es también el subespacio generado por {v̄1, v̄2, ū3}, ya que, sea, v̄3 = d1v̄1 + d2v̄2 + d3ū3. Trataremos que d1 y d2 sean tales que v̄3 · v̄1 = 0 y v̄3 · v̄2 = 0. Ahora, 0 = v̄3 ·v̄1 = (d1v̄1+d2v̄2+d3ū3)·v̄1 = d1(v̄1 ·v̄1)+d3(ū3 ·v̄1), (1.14) Sistema de Ecuaciones Lineales 29 0 = v̄3 ·v̄2 = (d1v̄1+d2v̄2+d3ū3)·v̄2 = d2(v̄2 ·v̄2)+d3(ū3 ·v̄2). (1.15) En la obtención de los dos lados derechos de (1.14) y (1.15) usare- mos el hecho de que v̄1 · v̄2 = 0. Observe que v̄2 6= 0̄, porque, al despejar d1 y d2, respectivamente, obtenenos d1 = −d3 ū3 · v̄1 v̄1 · v̄1 y d2 = −d3 ū3 · v̄2 v̄2 · v̄2 . Podemos asignar un valor arbitrario, no nulo, a d3. Si d3 = 1, obtenemos d1 = − ū3 · v̄1 v̄1 · barv1 y d2 = − ū3 · v̄2 v̄2 · v̄2 . Por lo tanto, v̄3 = ū3 − ( ū3 · v̄1 v̄1 · v̄1 )v̄1 − ( ū3 · v̄2 v̄2 · v̄2 )v̄2. Observe que hasta el momento tenemos un subconjunto ortogonal {v̄1, v̄2, v̄3} de W . Ahora determinaremos un vector v̄4 en el subespacio W3 de W ge- nerado por el conjunto {ū1, ū2, ū3, ū4} (y por lo tanto, por {v̄1, v̄2, v̄3, ū4}), que sea ortogonal a v̄1, v̄2 y v̄3. Podemos escribir v̄4 = ū4( ū4 · v̄1 v̄1 · v̄1 )v̄1 − ( ū4 · v̄2 v̄2 · v̄2 )v̄2 − ( ū4 · v̄3 v̄3 · v̄3 )v̄3. Continuando de esta manera hasta obtener un conjunto ortogonal T ∗ = {v̄1, v̄2, . . . , v̄m} de m vectores. Entonces, T ∗ es una base para W . Para terminar, normalizamos los v̄i, es decir, hacemos w̄i = 1 ‖v̄i‖ v̄i (1 6 i 6 m), entonces T = {w̄1, w̄2, . . . , w̄m} es una base ortonormal para W . � El siguiente ejemplo ilustra el proceso de Gram-Schmidt, 30 Sistemas de Ecuaciones Lineales y Vectores Ortonormales 1.1.3 Ejemplo. Supongamos que los vectores independientes son ū1, ū2, ū3: ū1 = 10 1 , ū2 = 10 0 , ū3 = 21 0 , De acuerdo al teorema (1.8), v̄1 = ū1, después buscamos el vector v̄2 generado por {ū1, ū2} que es ortogonal a v̄1 v̄2 = ū2 − ( ū2v̄1 v̄1v̄1 )v̄1 = (1, 0, 0)− ((1, 0, 0)(1, 0, 1) (1, 0, 1)(1, 0, 1) )(1, 0, 1) = ( 1 2 , 0,−1 2 ) Para determinar v̄3 v̄3 = ū3 − ( ū3v̄1 v̄1v̄1 )v̄1 − ( ū3v̄2 v̄2v̄2 )v̄2 = (2, 1, 0)− ((2, 1, 0)(1, 0, 1) (1, 0, 1)(1, 0, 1) )(1, 0, 1)− ( (2, 1, 0)(12 , 0,− 1 2) (12 , 0,− 1 2)( 1 2 , 0,− 1 2) )( 1 2 , 0,−1 2 ) = (0, 1, 0) Ahora normalizando los vectores {v̄1, v̄2, v̄3} w̄1 = v̄1 ‖v̄1‖ = ( 1√ 2 , 0, 1√ 2 ) w̄2 = v̄2 ‖v̄2‖ = ( 1√ 2 , 0,− 1√ 2 ) w̄3 = v̄3 ‖v̄3‖ = (0, 1, 0) La matriz ortonormal es Q = [ q1 q2 q3 ] = 1√2 1√2 00 0 1 1√ 2 − 1√ 2 0 . Sistema de Ecuaciones Lineales 31 Matrices ortogonales 18 Definición. Sea Q una matriz (cuadrada o rectangular) que tiene columnas ortonormales, entonces QtQ = I: Columnas Ortonormales = − qt1 − − qt2 − − qtn − | | |q1 q2 qn | | | = 1 0 · 0 0 1 · 0 · · · · 0 0 · 0 = I Observación. Si una matriz ortogonal Q es una matriz cuadrada con columnas ortonormales, Qt es Q−1. Si Q es rectangular Qt es sólo una inversa izquierda. 1.1.4 Norma matricial La norma ‖A‖ de una matriz A, debe satisfacer los mismos tipos de condiciones que una norma vectorial, con una condición adicional. 19 Definición. Una función ‖‖ se llama norma matricial si para matrices A y B cualesquiera se satisfacen los siguientes axiomas: • ‖A‖ > 0, • ‖A‖ = 0⇔ A = 0, • ‖aA‖ = |a|‖A‖ para cualquier número real a, • ‖A+B‖ 6 ‖A‖+ ‖B‖ (desigualdad del triángulo), 32 Sistemas de Ecuaciones Lineales y Vectores Ortonormales • ‖AB‖ 6 ‖A‖‖B‖ (compatibilidad). Las normas ‖A‖1 y ‖A‖∞ para una matriz An, son compatibles con las normas vectoriales ‖x̄‖1 y ‖x̄‖∞, y estan definidas por, 20 Definición. Sea p > 1 un número entero. La norma-p de una matriz A se define por ‖A‖p = máx‖x̄‖p=1‖Ax̄‖p = máx‖x̄‖6=0 ‖Ax̄‖p ‖x̄‖p . Para calcular ‖A‖∞ = máx‖x̄‖∞=1‖Ax̄‖∞ por la fórmula (1.12), obtenemos ‖Ax̄‖∞ = máx16i6n| n∑ j=1 aijxj| 6 máx16i6n n∑ j=1 |aij||xj| 6 ‖x̄‖∞máx16i6n n∑ j=1 |aij|. Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x̄, entonces ‖A‖∞ = máx16i6n ∑n j=1 |aij|. Con este objetivo, se fija un i, y se elije x̄ = {xj}nj=1, donde xj = sign{aij}. En este caso, ‖x̄‖∞ = 1, ∑n j=1 aijxj = ∑n j=1 |aij|, y ‖Ax̄‖∞ = ‖x̄‖∞máx16i6n ∑n j=1 |aij. As ‖A‖∞ = máx16i6n n∑ j=1 |aij|. (1.16) Se llama la norma máxima por filas (máxima suma absoluta de los renglones). Sistema de Ecuaciones Lineales 33 Ahora demostremos que ‖A‖1 = máx16j6n n∑ i=1 |aij| (1.17) En efecto, según (1.10), tenemos ‖Ax̄‖1 = n∑ i=1 | n∑ j=1 aijxj| 6 n∑ i=1 n∑ j=1 |aij||xj| 6 n∑ i=1 [máx16j6n|aij|( n∑ j=1 |xj|)] = ‖x̄‖1(máx16j6n n∑ i=1 |aij|). Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x̄, entonces, ‖A‖1 = máx16j6n|aij ∑n i=1 |aij|. Sea máx16j6n ∑n i=1 |aij| se alcanza para j = k, y elegimos un x̄ = {xj}nj=1 donde todos xj son nulos excepto xk = sign{aik}. En este caso, ‖x̄‖1 = 1, por lo tanto, ‖Ax̄‖1 = ∑n i=1 | ∑n j=1 aijxj| =∑n i=1 |aik| = ‖x̄‖1máx16j6n ∑n i=1 |aij|. La fórmula (2.13) queda demostrada. Se llama la norma máxima por columnas, (máxima suma absoluta de las columnas). 1.1.4 Ejemplo. En este caso tomaremos la norma infinito. Sea A = 1 2 −10 3 −1 5 −1 1 , 34 Sistemas de Ecuaciones Lineales y Vectores Ortonormales Entonces 3∑ j=1 |a1j| = |1|+ |2|+ | − 1| = 4 3∑ j=1 |a2j| = |0|+ |3|+ | − 1| = 4 3∑ j=1 |a3j| = |5|+ | − 1|+ |1| = 7 por lo tanto ‖A‖∞ = máx{4, 4, 7} = 7. Concluimos este caṕıtulo, donde hemos proporcionado las bases para continuar con los fines de este trabajo. Caṕıtulo 2 El Número de Condición de una Matriz En este caṕıtulo análizaremos algunos ejemplos, con el fin de hacer más claro el concepto de un sistema mal condicionado y las impli- caciones al estar en un caso de esta forma para obtener el conjunto solución. 2.1 Errores por redondeo En la mayoŕıa de los casos usados en la práctica, no se logra hallar una solución exacta del problema matemático planteado. Esto ocurre principalmente porque la solución no se puede expresar en términos de funciones elementales o en otras funciones conocidas. Los métodos numéricos reducen el procedimiento de resolución de un problema a operaciones aritméticas, que pueden ser realizadas por una computadora. Según el grado de complejidad del pro- blema, la exactitud requerida, el método aplicado, entre otras, puede ser necesario realizar desde varias decenas hasta una gran cantidad de operaciones aritméticas. La solución obtenida por un método numérico es aproximada, es decir, hay cierta diferencia no 35 36 El Número de Condición de una Matriz nula entre la solución exacta y la solución numérica. Las causas principales de la diferencia son las siguientes: • Falta de correspondencia entre el modelo matemático y el fenómeno f́ısico real; • Errores en los datos iniciales; • Errores de un método numérico usado para resolver el mo- delo matemático; • Errores por redondeo en las operaciones aritméticas. Los errores por redondeo son inevitables y se producen cuando se usan números que tienen un número finito de cifras significa- tivas para representar números exactos. Su nivel de confiabilidad depende de los números máquina. Nos enfocaremos en este último punto, ya que sólo trabajaremos con encontrar la solución usando métodos directos sin embargo, los primeros tres tipos de errores a menudo son más grandes que los errores por redondeo. Muchos de los problemas de error por redondeo se pueden mi- nimizar por medio de prácticas de programación adecuadas o la aplicación de los algoritmos correctamente. En el caṕıtulo uno vimos la aplicacióndel pivoteo durante el proceso de eliminación gaussiana cuando un pivote se hace cero, sin embargo para este caṕıtulo aplicaremos está permutación de filas no sólo cuando el pivote es exactamente cero. Cuando los pivotes tienen valores pequeños se pueden producir grandes errores de redondeo, ya que siempre se divide por el valor del pivote. Por consiguiente, para reducir los errores por redondeo conviene escoger el pivote máximo en valor absoluto. Para ello, hay dos técnicas posibles: al estar realizando el proceso de eliminación gaussiana, Condicional de una Matriz 37 1. En el k−ésimo sistema se toma como pivote el coeficiente mayor en valor absoluto de la columna k situado por debajo de la fila k inclisive. Para ello es necesario permutar las filas k y la correspondiente al pivote escogido en la matriz y su término independiente. Esta técnica se denomina método de Gauss con pivotamiento parcial. 2. En el k−ésimo sistema, se toma como pivote el coeficiente mayor en valor absoluto de la submatriz de orden n − k definida por los coeficientes que quedan por debajo de la fila k y a la derecha de la columna k. Para ello, se permuta la fila k (y el término independiente asociado) y las columnas k con las correspondientes al coeficiente que cumpla la condición citada. Al final del proceso deben ponerse en orden inicial las componentes del vector solución, puesto que su posición ha sido modificada al realizar las permutaciones de columnas. Esta técnica es el método de Gauss con pivotamiento total. Estas dos últimas estrategias producen métodos numéricamente estables. El método de Gauss sin pivotamiento no es necesaria- mente estable4. 2.1.1 Ejemplo. Consideremos el siguiente sistema lineal .0001x1 + x2 = 1 (2.1) x1 + x2 = 2 Resolvemos por eliminación gaussiana con pivote, entonces 4La estabilidad, es una caracteŕıstica muy importante de la calidad de cada método. La estabilidad caracteriza la manera de propagación de los errores iniciales durante los cálculos en el algoritmo. Si el incremento de los errores iniciales es considerable y sin ningún control, entonces el método numérico se llama inestable. Al contrario, si los errores en los cálculos dependen continua- mente de los errores iniciales (es decir, se reducen a cero cuando los errores iniciales tienden a cero), entonces el método se llama estable. 38 El Número de Condición de una Matriz hacemos intercambio de renglones PA1 = ( 1 1 2 .0001 1 1 ) continuando con el proceso de eliminación, multiplicamos el primer renglón por (−.0001) y lo sumamos al segundo renglón, PA2 = ( 1 1 2 0 .9999 .9998 ) hacemos sustitución regresiva, con redondeo N = 3 x2 = 1 x1 = 2− x2 = 1. Por otro lado, resolvemos sin hacer el pivote A = ( .0001 1 1 1 1 2 ) multiplicamos el primer renglón por (− 1 .0001 ) y lo sumamos al se- gundo renglón, A2 = ( .0001 1 1 0 .9999 .9998 ) hacemos sustitución regresiva, con redondeo N = 3 x2 = 1 .0001x1 = 1− x2 = 0. Al sustituir en (2.1) con N=3, la solución que obtuvimos con piv- oteo .0001(1) + (1) = 1 (1) + (1) = 2 Condicional de una Matriz 39 si satisface el sistema. Con la segunda solución sin pivoteo, .0001(1) + (0) = 1 (1) + (0) 6= 2 no satisface el sistema. Hemos visto que el pivoteo mejora la exactitud de la solución del problema, sin embargo hay otra técnica que tambien mejora la exactitud de la solución, y es aumentar la precisión 5 del cálculo. Al aplicarlos conjuntamente el resultado es aun más favorable. 2.1.2 Ejemplo. La solución exacta del siguiente problema en forma de arreglo es aquella en donde todas las soluciones valen 1, debido a que los términos libres son la suma de los coeficientes del mismo renglón: 1.334E − 4 4.123E + 1 7.912E + 2 −1.544E + 3 −711.5698662 1.777 2.367E − 5 2.070E + 1 −9.035E + 1 −67.87297633 9.188 0 −1.015E + 1 1.988E − 4 −0.961801200 1.002E + 2 1.442E + 4 −7.014E + 2 5.321 13824.12100 . En la solución de este problema se consideran dos casos: a) Se resuelve el sistema sin pivoteo y después con pivoteo, usando precisión simple. b) Se repite el problema resolviendo con doble precisión. Solución a) Precisión simple6: i Sin pivoteo Con pivoteo 1 0.95506 0.99998 2 1.00816 1 3 0.96741 1 4 0.98352 1 5La precisión es el número de bits que se usan en las computadoras. 40 El Número de Condición de una Matriz Los resultados en precisión simple sin pivoteo son muy desalenta- dores, pero el pivoteo mejora la exactitud en forma significativa. b) Doble precisión 6 i Sin pivoteo Con pivoteo 1 0.9999 9999 9861 473 1.0000 0000 0000 002 2 1.0000 0000 0000 784 1.0000 0000 0000 000 3 0.9999 9999 9984 678 1.0000 0000 0000 000 4 0.9999 9999 9921 696 1.0000 0000 0000 000 La doble precisión mejora la exactitud, incluso sin pivote. Pero con el pivoteo, aquella aumenta todav́ıa más. Cualquier solución de un sistema lineal, se debe considerar como una solución aproximada, debido a los errores de redondeo. 2.2 Residuo de una solución aproximada. Sistemas mal condicionados Si ˜̄x es una solución aproximada del sistema Anx̄ = bn1, entonces su error es la diferencia ē = x̄− ˜̄x Generalmente este error es desconocido, pero siempre podemos calcular el residuo r̄ = Anx̄− An ˜̄x puesto que Anx̄ es justamente la parte derecha bn1. El residuo debe proporcionar una medida de la precisión de la solución aproximada 6Estos datos se obtuvieron de [3], donde describe la información: los cálculos se llevaron a cabo en una VAX, cuya precisión es casi la misma que la de la PC de IBM y las mainframe de IBM. La precisión simple de CDC y Cray es aproximadamente del doble de VAX, IBM PC y de la mainframe de IBM. Por lo tanto, si se utilizan CDC o Cray con precisión simple en este problema, los resultados sern equivalentes a los que se muestran aqúı con doble precisión. Condicional de una Matriz 41 x̄, en aquellos casos donde el error se debe principalmente a los errores por redondeo. Si r̄ es el vector nulo, entonces ˜̄x es la solución exacta y, por tanto, ē es el vector nulo. Si x̄ es una buena aproximación de la solución, debemos esperar que r̄ sea pequeña. Hay sistemas de ecuaciones, sin embargo, para los cuales el residuo no provee una buena medida de la precisión de una solución. Estos son sistemas en los cuales pequeños cambios en los coefi- cientes del sistema producen grandes cambios en la solución. Tales sistemas se denominan sistemas mal condicionados. 2.2.1 Ejemplo. En este ejemplo veamos el residual (r̄) y como la solución obtenida se aproxima a la solución exacta. Sea A = ( 0.780 0.563 0.913 0.659 )( y1 y2 ) = ( 0.217 0.254 ) = bn1, y sea ˜̄x1 = ( 0.341 −0.087 ) y ˜̄x2 = ( 0.999 −1.001 ) , donde ˜̄x1 y ˜̄x2 son aproximaciones a la solución exacta x̄. ¿Son ˜̄x1 y ˜̄x2 buenas aproximaciones?, si ˜̄x = x̄, entonces r̄ = 0̄. Como no sabemos la solución exacta, entonces r̄ = An ˜̄x− bn1, (2.2) es claro que esperamos que r̄ sea muy pequeña. Sustituimos ˜̄x1 en (2.2) 0.780(0.341) + 0.563(−0.087)− 0.217 = 0.000001 0.913(0.341) + 0.659(−0.087)− 0.254 = 0 r̄1 = (10 −6, 0)t 42 El Número de Condición de una Matriz Ahora sustituimos ˜̄x2 en (2.2) 0.780(0.999) + 0.563(−1.001)− 0.217 = 0.0013 0.913(0.999) + 0.659(−1.001)− 0.254 = −0.0015 r̄2 = (0.0013,−0.0015)t Al comparar r̄1 y r̄2, concluimos que ˜̄x1 es mejor aproximación a la solución exacta que ˜̄x2, ya que, r̄1 < r̄2. Tomando esto en cuenta, r̄1 es casi cero. A pesar de esto, ˜̄x1 no es una buena aproximación a la solución exacta, ya que al resolver por eliminación gaussiana la solución exacta es y1 = 1 y y2 = −1, de tal manera que ˜̄x2, es la mejor aproximación. ¿Por qué, al analizar los residuos, obtenemos conclusiones erró- neas? Para dar respuesta, examinemos el sistema lineal Ax̄ = b̄ (2.3) cuando detAn 6= 0 y bn1 6= 0. En este caso, el sistema lineal tiene solución única x̄ 6= 0. Análicemos ahora un sistema perturbado A(x̄+ ε̄) = b̄+ δ̄ donde ε̄ y δ̄ son los erroresde la solución x̄ y del vector b̄, respec- tivamente. Es claro que Aε̄ = δ̄ y ε̄ = A−1δ̄. (2.4) Dividiendo el error relativo ‖ε̄‖/‖x̄‖ en la solución y por el error relativo ‖δ̄‖/‖b̄‖, en (2.3) y (2.4) obtenemos ‖ε̄‖ ‖x̄‖ ‖δ̄‖ ‖b̄‖ = ‖b̄‖ ‖x̄‖ · ‖ε̄‖ ‖δ̄‖ = ‖Ax̄‖ ‖x̄‖ · ‖A −1δ̄‖ ‖δ̄‖ 6 ‖A‖‖A−1‖, (2.5) Condicional de una Matriz 43 21 Definición. Sea la matriz An. El número Cond(A) = { ‖A‖‖A−1‖, si A no es singular ∞, si A es singular se denomina número de condición de la matriz A Se deduce de (2.5) y de la definición (21) que ‖ε̄‖ ‖x̄‖ 6 Cond(A) ‖δ̄‖ ‖b̄‖ , (2.6) es decir, el error relativo de la solución del problema (2.3) se estima mediante el error relativo del vector b̄ multiplicado por el número de condición de la matriz. Veamos que también el número de condición es una caracteŕıstica importante de la solución del sistema lineal (2.3), respecto a un error en la matriz A. Supongamos que b̄ es exacto pero A contiene un error E, (A+ E) = Å, (2.7) aśı en lugar de la solución exacta (2.3) tenemos una solución aproximada (A+ E)xapx = b, (2.8) 44 El Número de Condición de una Matriz de (2.3) obtenemos x̄ = A−1b̄, = A−1(Åx̄apx) = A−1(A+ Å− A)x̄apx = (I + A−1(Å− A))x̄apx = x̄apx + A −1(Å− A)x̄apx x̄− x̄apx = A−1Ex̄apx, ‖x̄− x̄apx‖ = ‖A−1Ex̄apx‖ 6 ‖A−1‖‖E‖‖x̄apx‖ = ‖A−1‖‖A‖‖E‖ ‖A‖ ‖x̄apx‖ ‖x̄− x̄apx‖ ‖x̄apx‖ = Cond(A) ‖E‖ ‖A‖ de lado izquierdo de la igualdad tenemos el error relativo de la solución y del lado derecho el condicional multiplicado por el error relativo de la matriz A, que es pequeño y no afecta al condicional. Con esto podemos ver que la diferencia entre la solución exacta y la aproximada puede ser casi tan grande como el condicional de A. Por eso cuando el Cond(A) es -pequeño- o moderado, el error re- lativo en la solución del problema (2.3) está acotado y depende continuamete del error relativo de b en el sentido de que ‖x−xapx‖‖xapx‖ tiende a cero junto con ‖E‖‖A‖ . En esta situación, la matriz A se llama bien condicionada. Sin embargo, si el número de condición de la matriz A es muy grande, entonces el error en la solución ‖x−xapx‖‖xapx‖ ya no es controlable a pesar de que el error ‖E‖‖A‖ es muy pequeño. En esta situación, la matriz A se llama mal condicionada, y es posible esperar problemas graves con la precisión de la solución calculada. Ahora es posible contestar la pregunta sobre el comportamiento extraño de las soluciones en el ejemplo (2.2.1), lo que está pasando Condicional de una Matriz 45 se debe al mal condicionamiento de la matriz y de acuerdo con la estimación (2.6), un error pequeño en el vector b̄ o en la matriz A, produce un error grande en la solución. Hemos visto que para un sistema mal condicionado, el residuo no es necesariamente una buena medida de la precisión de la solución. Otra indicador del mal condicionamiento es el determinante. 2.2.2 Ejemplo. Tomemos dos sistemas lineales y comparémoslos; x+ y = −3 x+ 1.016y = 5 (2.9) y x+ y = −3 x+ 1.02y = 5 (2.10) Ambas ecuaciones son muy parecidas, podriamos suponer que la solución no debeŕıa ser muy variable entre ambas. Si hicieramos redondeo N = 3, las ecuaciones seŕıan exactamente igual, pero si conservamos todos sus d́ıgitos, la solución de (2.9) es x = −503 y = 500 y la solución de (2.10) es x = −403 y = 400 Observamos que las soluciones son muy distintas, ¿A qué se debe? Si hubiésemos redondeado en (2.9), la solución obtenida seŕıa in- correcta. 46 El Número de Condición de una Matriz Notemos que un ligero cambio en los coeficientes provoca cambios significativos en la solución. El determinante de ambos sistemas (2.9) y (2.10) son 0.016 y 0.02 respectivamente. El teorema (1.6), dice que, si el determinante es distinto de cero, entonces la solución del sistema es única, pero sabemos que si el determinante es cero, no habŕıa solución o habŕıa una in- finidad de soluciones. Pero en estos dos sistemas el determinante es - casi - cero. Este comportamiento tiene significado y es muy importante, hay que poner la suficiente atención ya que se trata de matrices especiales. La pregunta inmediata es ¿Qué tipo de matrices son estas?, ¿Podremos obtener una solución estable?. Estas matrices son llamadas matrices casi singulares, si conside- ramos las matrices A y B de los sistemas (2.9) y (2.10) respecti- vamente A = ( 1 1 1 1.016 ) B = ( 1 1 1 1.02 ) y hacemos un ligero cambio en el elemento a22 en A o el elemento b22 en B, es decir, en lugar de 1.016 y 1.02 redondeamos a 1 (N = 2), el determinante de ambas seŕıa cero, es decir, una matriz es casi singular si se hace singular cuando alguno de sus elementos sufre pequeños cambios relativos. Una forma precisa para definirlo es la siguiente: Primeramente normalizamos la matriz de los coeficientes de A dividiendo cada fila de A por la raiz cuadrada de la suma de los cuadrados de los elementos de aquella fila. Esto es, si A está definida por A = a11 a12 · · · a1n a21 a22 · · · a2n ... ... . . . ... an1 an2 · · · ann Condicional de una Matriz 47 y αk por αk = (a 2 k1 + a 2 k2 + · · ·+ a2kn) 1 2 k = 1, 2, . . . , n) entonces el determinante normalizado de A esta definido por: |Anorm| = ∣∣∣∣∣∣∣∣∣ a11 α1 a12 α1 · · · a1n α1 a21 α2 a22 α2 · · · a2n α2 ... ... . . . ... an1 αn an2 αn · · · ann αn ∣∣∣∣∣∣∣∣∣ = |A| α1α2 · · ·αn Una matriz A se dice mal condicionada, si la |Anorm| es pequeña comparada con 1. Aplicando este criterio al sistema (2.10), obtenemos α1 = √ 2 α2 = √ 2.0404 de aqúı |Anorm| = (1)(1.02)− (1)(1)√ 2 √ 2.0404 ≈ 0.01 Para problemas en los cuales el determinante normalizado es 0(10−k), un cambio en la k−ésima o anterior cifra significativa de cualquiera de los coeficientes de A puede producir cambios de 10k en la solución. Sin embargo el determinante no es suficiente para detectar el mal condicionamiento. 2.2.3 Ejemplo. Tenemos el sistema lineal 8x+ 9y = 17 7x+ 8y = 15 (2.11) donde, A = ( 8 9 7 8 )( x y ) = ( 17 15 ) . 48 El Número de Condición de una Matriz En este caso el detA = 1, no está cerca del cero como vimos en el ejemplo (2.1.3), sin embargo es una matriz que no está bien condicionada. Si resolvemos el sistema (2.4) con la fórmula x̄ = A−1b̄, se tiene x̄ = 1 64− 63 ( 8 −9 −7 8 )( 17 15 ) tal que, x̄ = ( 1 1 ) , esta solución es única, por el teorema (1.6), sin embargo los puntos x̄2 = ( 0 1.8819 ) y x̄3 = ( 2.125 0 ) satisfacen el sistema (2.4) si el redondeo es N=2, sustituimos x̄2 y x̄3 en (2.11), obtenemos 8(0) + 9(1.8819) = 16.937 ≈ 17 7(0) + 8(1.8819) = 15.055 ≈ 15 8(2.125) + 9(0) = 17.000 = 17 7(2.125) + 8(0) = 14.875 ≈ 15 Observemos las pendientes de ambas rectas: y = −8 9 x+ 17 9 y = −7 8 x+ 15 8 las pendientes son casi iguales, entonces las rectas generadas por estas ecuaciones son casi paralelas, en consecuencia, aunque cam- bios relativos pequeños en ai1, ai2 y bi producen pequeños movimien- tos de estas gráficas, estos pequeños movimientos pueden efectuar Condicional de una Matriz 49 grandes movimientos del punto de intersección de las rectas. El mal condicionamiento corresponde a renglones casi propor- cionales de y. Aśı puede dicernirse por inspección. Desafortunada- mente, no existe tal criterio general para detectar el mal condi- cionamiento por inspección de alguna matriz An cuando n > 2. En el siguiente ejemplo se expone una matriz conocida mal condi- cionada. 2.2.4 Ejemplo. La matriz de Hilbert [Morris] se define como A = [aij], donde aij = 1 i+ j − 1 , de la cual se sabe que está mal condicionada, incluso para un or- den pequeño. Calculemos a) (A−1)((A−1)−1) y b) (detA)(detA−1) para de- terminar la matriz de Hilbert de 4× 4. A = 1 1 2 1 3 1 4 1 2 1 3 1 4 1 5 1 3 1 4 1 5 1 6 1 4 1 5 1 6 1 7 . Se obtiene los siguientes resultados, a) (A−1)((A−1)−1) = 1.0001183 −0.0014343 0.0032959 −0.0021362 −0.0000019 1.0000000 −0.0001221 0.0000610 0.0000000 0.0000000 0.99993900.0000305 0.0000000 −0.0000305 0.0000610 0.9999390 . b) (detA)(detA−1) = (1.6534499E − 07)(6047924) = 0.99999393 50 El Número de Condición de una Matriz La matriz de Hilbert de tamaño 2 × 2 y 3 × 3 cumplen con las propiedades de inversa y del determinante. El producto de los determinantes se desv́ıa de la unidad al aumentar el orden de la matriz, es decir, a partir de la matriz de tamaño 4 × 4. Sin embargo, la desviación de (A−1)(A−1)−1 de la matriz identidad detecta las matrices mal condicionadas en forma más clara que el producto de los determinantes. Después del breve anális de matrices, enlistamos las las siguien- tes caracteŕısticas para sistemas mal condicionados: • Un ligero cambio en los coeficientes provoca cambios signi- ficativos en la solución, • Los elementos de la diagonal de la matriz de coeficientes tienden a ser menores que los elementos que no pertenecen a la diagonal, • El producto (detA)(detA−1) difiere en forma significativa de 1, • El resultado de (A−1)−1 es muy distinto de A, • El producto (A)(A−1) difiere en grado sumo de la matriz identidad, • El producto (A−1)(A−1)−1 difiere más de matriz identidad que lo que difiere el producto (A)(A−1). El calcular la norma de una matriz A, es indistinto usar norma uno o norma infinito, y es importante destacar que si el número de condición de una matriz A calculado con normas diferentes, estas son equivalentes. Esto quiere decir que, si A esta bien (o mal) condicionada, calculada con alguna de las dos normas antes mencionadas, entonces también está bien (o mal) condicionada si Condicional de una Matriz 51 el calculo se hace con la otra norma. Mientras que en teoria, el número de condición de una matriz depende totalmente de las normas de la matriz y de su inversa, en la práctica, el calculo de la inversa está sujeto a errores de redondeo y es dependiente de la exactitud con la que se estén realizando los cálculos. Si las operaciones involucran aritmética con N digitos significativos de precisión, el número de condición aproximado para la matriz A, es la norma de la matriz multipli- cada por por la norma de la apriximación de la inversa de A, que se obtiene usando aritmética de N digitos. En realidad, este número de condición dependerá incluso del método usado para calcular la inversa de A. Una prueba sencilla para el mal condicionamiento que no re- quiere el cálculo de la inversa, es resolver el sistema para un vec- tor adicional del miembro derecho que difiera ligeramente de b, a partir de (2.5) se observa que una matriz de coeficientes mal condicionada produce soluciones para b, y el vector adicional del miembro derecho son significativamente diferentes entre śı. 52 El Número de Condición de una Matriz Caṕıtulo 3 Métodos Directos para Resolver Sistemas Lineales En este caṕıtulo veremos como resolver sistemas de ecuaciones lin- eales con métodos directos, que son por medio de la factorición de la matriz de coeficientes del sistema. 3.1 Factorización de Matrices Sin duda en el ámbito cient́ıfico y tecnológico se presentan pro- blemas que involucran matrices, es natural que el objetivo como primer paso es resolverlos. Para ésto hay diferentes métodos para encontrar la solución, para utilizar algún método, se consideran, de acuerdo las preferencias de cada usuario; aquel que proporcione la mayor velocidad en el cálculo o que consuma la menor canti- dad de memoria (ambas condiciones son mutuamente excluyentes), por ello la decisión de qué método usar deberá considerarse al mo- mento de tener que resolver un problema particular. Los métodos de solución para sistemas lineales se dividen en dos grupos: los de aproximación y los directos. Nosotros estaremos interesados en 53 54 Métodos Directos para Resolver Sistemas Lineales los métodos directos. Los métodos directos de resolución de sistemas lineales son aquellos que permiten obtener la solución después de un número finito de operaciones aritméticas. Este número de operaciones es en función del tamaño de la matriz. En el primer caṕıtulo, vimos como resolver un sistema line- al por medio de la eliminación gaussiana y sustitución regresiva. Ahora veremos como obtener la solución por medio de una facto- rización de la matriz de coeficientes, existen diferentes algoritmos para factorizar una matriz, el algoritmo a escoger depende del tipo de la matriz aprovechando las ventajas del algoritmo en cada caso. El factorizar la matriz de coeficientes A, del sistema Ax̄ = bn1, como el producto de matrices, podemos obtener matrices con una estructura más simple que el del problema original y por ende en- contrar su solución será más sencillo. La matriz de coeficientes A, con que trabajaremos en esta sección es cuadrada. 3.1.1 Factorización LU Veamos como resolver el sistema una vez obtenida la factorización LU . Se desea resolver el sistema Anx̄ = bn1, (3.1) y suponemos que An tiene factorización LnUn, el sistema (3.1) se puede escribir como Anx̄ = (LnUn)x̄ = bn1, Factorización de Matrices 55 donde Ln es una matriz triangular inferior, y Un es una matriz escalonada (es decir, triangular superior). Asociando términos Anx̄ = Ln(Unx̄) = bn1, (3.2) si definimos a ȳ = Unx̄ (3.3) y sustituimos en (3.2) Lnȳ = bn1, (3.4) resolvemos para ȳ, como la matriz Ln es triangular inferior este sistema puede resolverse mediante la sustitución progresiva. Ya encontrados los valores de ȳ en (3.4), ahora resolvemos para x̄ en (3.3) y como Un es escalonada, este sistema puede resolverse en caso de tener solución mediante la sustitución regresiva. Y aśı obtenemos la solución del sistema original (3.1). En lo sucesivo indicaremos como realizar una factorización LU , para la matriz de coeficientes del sistema lineal (3.1), antes intro- ducimos algunos elementos necesarios. 22 Definición. Una matriz de tamaño n×n se denomina matriz elemental si se puede obtener a partir de la matriz identidad In al efectuar una sola operación elemental en los renglones. 3.1 Teorema. Si la matriz elemental E resulta de la ejecución de ciertas operaciones en los renglones de In y sea An, entonces el producto EA es la matriz que se obtiene cuando la misma opera- ción en los renglones se efectúa en An. Demostración. 56 Métodos Directos para Resolver Sistemas Lineales Sea la matriz identidad In = 111 0 · · · · · · · · · · · · 0 0 . . . . . . ... ... . . . 1ii . . . ... ... . . . . . . . . . ... ... . . . 1jj . . . ... ... . . . . . . 0 0 · · · · · · · · · · · · 0 1nn Para las matrices elementales (E), se da por entendido que su tamaño es de n× n, en consecuencia no se usaran los subindices que lo indiquen. Existen tres operaciones ele- mentales: Primera operación elemental. Sea E(1), la matriz elemental que se obtuvo de multiplicar el i-ésimo renglón de In por el es- calar α 6= 0. Al multiplicar E(1)An = 1 0 · · · · · · 0 0 . . . . . . ... ... . . . α1ii . . . ... ... . . . . . . ... 0 · · · · · · 0 1 a11 · · · · · · · · · a1n ... . . . ... ... ... ai1 · · · aii · · · ain ... ... ... . . . ... an1 · · · · · · · · · ann = a11 · · · · · · · · · a1n ... . . . ... ... ... αai1 · · · αaii · · · αain a(i+1)1 · · · a(i+1)i · · · a(i+1)n ... ... ... ... ... an1 · · · · · · · · · ann Que es justamente multiplicar el escalar α por el i-ésimo renglón de An. Segunda operación elemental. Sea E(2), la matriz elemental Factorización de Matrices 57 que se obtuvo de intercambiar el renglón i de In por el renglón j de In. Al multiplicar E(2)An = 1 0 · · · · · · · · · · · · 0 0 1 . . . . . . . . . . . . 0 . . . 1jj . . . . . . . . . 1 . . . . . . . . . 1ii . . . 0 . . . . . . . . . . . . 1 0 0 · · · · · · · · · · · · 0 1 a11 · · · · · · · · · · · · · · · a1n . . .. . . . . . . . . . . . . . . . . . ai1 . . . aii . . . . . . . . . ai1 . . . . . . . . . . . . . . . . . . . . . aj1 . . . . . . . . . ajj . . . ajn . . . . . . . . . . . . . . . . . . . . . an1 · · · · · · · · · · · · · · · ann = a11 · · · · · · · · · · · · · · · a1n ... ... ... ... ... ... ... aj1 · · · · · · · · · ajj · · · ajn ... ... ... ... ... ... ... ai1 · · · aii · · · · · · · · · ain ... ... ... ... ... ... ... an1 · · · · · · · · · · · · · · · ann Que es justamente intercambiar el i-ésimo renglón con el j-ésimo renglón de An. Tercera operación elemental. Sea E(3), la matriz elemental que se obtuvo de sumar al j-ésimo renglón de In, el producto del escalar α 6= 0 por el i-ésimo renglón de In. Al multiplicar E(3)An = 111 0 · · · · · · · · · · · · 0 0 . . . . . . . . . . . . . . . 1ii . . . . . . . . . . . . . . . . . . . . . . . . α1ii . . . 1jj . . . . . . . . . . . . 0 0 · · · · · · · · · · · · 0 1nn a11 · · · · · · · · · · · · · · · a1n . . . . . . . . . . . . . . . . . . . . . ai1 . . . aii . . . . . . . . . ai1 . . . . . . . . . . . . . . . . . . . . . aj1 . . . . . . . . . ajj . . . ajn . . . . . . . . . . . . . . . . . . . . . an1 · · · · · · · · · · · · · · · ann 58 Métodos Directos para Resolver Sistemas Lineales = a11 · · · · · · · · · · · · · · · a1n ... . . . . . . ... ... ... ... ai1 . . . aii . . . ... ... ai1 ... ... . . . . . . . . . ... ... αai1 + aj1 · · · αaii + aji · · · αaij + ajj · · · αain + ajn a(j+1)1 · · · · · · · · · · · · · · · a(j+1)n ... ... ... ... ... ... ... an1 · · · · · · · · · · · · · · · ann Que es justamente sumarle al j-ésimo renglón de An, el producto del escalar α por el i-ésimo renglón de An. � 3.2 Teorema. Toda matriz elemental es invertible, y la inversa también es una matriz elemental y del mismo tipo. Demostración. La matriz identidad (In)es una matriz no singular, su determi- nante es el producto de los elementos de su diagonal, por ser una matriz diagonal, y su valor es igual a 1, entonces existe su inversa. Existen tres tipos de matrices elementales, si tomamos las matri- ces elementales del teorema (3.1), E(1), E(2) y E(3): Primera matriz elemental. Sea E(1) la matriz elemental que se obtuvo a partir de multiplicar el i-ésimo renglón de In por α. E(1) sigue siendo una matriz diagonal, entonces su determinante es el escalar α 6= 0, entonces existe su inversa E−1(1) y se debe cumplir E(1)E −1 (1) = In al obtener el determinante de ambos lados de la igualdad det(E(1)E −1 (1)) = det(In) det(E(1)) det(E −1 (1)) = 1 α det(E−1(1)) = 1 Factorización de Matrices 59 α es un escalar, entonces por el inverso multiplicativo ∈ R, el det(E−1(1)) debe ser 1 α , para que se cumpla α( 1 α ) = 1 entonces E−1(1) = 1 0 · · · · · · 0 0 1 . . . ... ... . . . 1 α . . . ... ... . . . 1 ... 0 · · · · · · 0 1 que es del mismo tipo que E(1). Segunda matriz elemental. Sea E(2) la matriz que se ob- tuvo a partir de intercambiar el i-ésimo renglón de In, con el j- ésimo renglón de In. Entonces el det(E(2)), por el teorema (1.5 - proposición 2), es (−1), entonces existe E−1(2) y se debe cumplir E(2)E −1 (2) = In al obtener el determinante de ambos lados de la igualdad det(E(2)E −1 (2)) = det(In) det(E(2)) det(E −1 (2)) = 1 (−1) det(E−1(1)) = 1 entoces el det(E−12 ) es (-1), lo que nos dice que (E −1 2 ) es del mismo tipo que (E2). Tercera matriz elemental. Por último, sea E(3) la matriz que se obtuvo de sumarle al j-ésimo renglón de In, el producto del escalar α 6= 0 por el i-ésimo renglón de In. El det(E3) es 1, por el teorema (1.5 - proposición 5). Entonces su inversa existe, y se debe cumplirse que E(3)E −1 (3) = In 60 Métodos Directos para Resolver Sistemas Lineales Si tomamos el producto de E(3)A del teorema (3.1), observamos el j-ésimo renglón, ya que es el renglón que se afecta al hacer el producto, el resto de los elementos deben ser iguales a la matriz In, (αai1 +aj1, αai2 +aj2, · · · , αaii+aji, · · · , αaij+ajj, · · · , αain+ajn) el elemento que esta en la j-ésima columna del producto E(3)A debe valer 1 y el resto de los elementos deben ser ceros, como el valor de los elementos aii = ajj = 1 ya que están en la diagonal, entonces αaii + aji = 0 α = −aji aji = −α entonces E−1(3) = 111 0 · · · · · · · · · · · · 0 0 . . . . . . ... ... . . . 1ii . . . ... ... . . . . . . . . . ... ... −λ1ii . . . 1jj . . . ... . . . . . . 0 0 · · · · · · · · · · · · 0 1nn que es del mismo tipo que E(3). Por lo tanto las matrices inversas de las matrices elementales existen y son del mismo tipo. � 3.3 Teorema. El producto de matrices triangulares inferiores es triangular inferior, y el producto de matrices triangulares superio- res es triangular superior. Factorización de Matrices 61 Demostración. Sea An = [aij] y Bn = [bij] matrices triangulares inferiores, y sea Cn = [cij] el producto Cn = AnBn, probaremos que [cij] = 0 para i < j; por la definición de multiplicación de matrices, cij = ai1b1j + ai2b2j + · · ·+ ainbnj Para i < j, y si agrupamos cij = ai1b1j + ai2b2j + · · ·+ aij−1bj−1j︸ ︷︷ ︸+ aijbjj + · · ·+ ainbnj︸ ︷︷ ︸ Por hipótesis las matrices An y Bn son triangular inferior, por lo que en el primer grupo se tienen los términos bij = 0 y en el se- gundo grupo se tienen los términos aij = 0 ya que i < j, de esto se sigue que cij = 0, para i < j, que es lo que se queŕıa demostrar. La demostración para matrices triangulares superiores es equi- valente. Sea A = [aij] y B = [bij] matrices triangulares superiores, y sea Cn = [cij] el producto Cn = AnBn, probaremos que [cij] = 0 para i > j; por la definición de multiplicación de matrices, cij = ai1b1j + ai2b2j + · · ·+ ainbnj Para i > j, y si agrupamos cij = ai1b1j + ai2b2j + · · ·+ aij−1bj−1j︸ ︷︷ ︸+ aijbjj + · · ·+ ainbnj︸ ︷︷ ︸ Por hipótesis las matrices An y Bn son triangular superior, por lo que en el primer grupo se tienen los términos aij = 0 y en el segundo grupo se tienen los términos bij = 0 ya que i > j, de esto se sigue que cij = 0, para i > j, que es lo que se queŕıa demostrar. � Ahora continuaremos con el método de descomposición. Sea An una matriz y supóngase que An se ha reducido a una forma 62 Métodos Directos para Resolver Sistemas Lineales escalonada Un mediante una sucesión de operaciones elementales. Por el teorema (3.1) cada una de estas operaciones se puede efec- tuar multiplicando por la izquierda de An por una matriz elemental apropiada. De esta forma es posible encontrar matrices elemen- tales E(1), E(2), . . . , E(k) tales que E(k) · · ·E(2)E(1)An = Un. (3.5) Por el Teorema (3.2), sabemos que cada una de las matrices E(1), E(2), . . . , E(k) son invertibles, de modo que es posible multiplicar por la izquierda ambos miembros de la ecuación (3.5), por E−1(k), . . . , E −1 (2) , E −1 (1) , para obtener A = E−1(1)E −1 (2) · · ·E −1 (k)Un, (3.6) Si suponemos que al reducir la matriz An a la matriz Un no se efectuó ningún intercambio de renglones y por el teorema (3.3), se sigue que la matriz Ln = E −1 (1)E −1 (2) · · ·E −1 (k), (3.7) es triangular inferior. Entonces sustituyendo (3.7) en (3.6), se obtiene An = LnUn. 3.1.1 Ejemplo. Tomemos el ejemplo (1.1.1) donde aplicamos eliminación gaussiana, ahora factorizaremos la matriz de coefi- cientes A, lo haremos paso por paso para ver el desarrollo del método, aún cuando ya se tiene a U . Sea A = 1 −12 −12−1 2 1 −1 2 1 3 1 3 1 3 y b = −99 88 , para obtener la descomposición, A se reducirá a una forma escalo- nada U y luego L se calculará a partir de (3.7). Recordemos que Factorización de Matrices
Compartir