fbpx
Wikipedia

Mínimos cuadrados

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados —variable independiente, variable dependiente— y una familia de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

El resultado del ajuste de un conjunto de datos a una función cuadrática.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los datos a procesar estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía o maximizando la entropía.

Índice

El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres. Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no lineales de Kepler de movimiento es muy difícil). La mayoría de las evaluaciones fueron inútiles; el único cálculo suficientemente preciso para permitir a Franz Xaver von Zach, astrónomo alemán, reencontrar a Ceres al final del año fue el de Carl Friedrich Gauss, por entonces un joven de 24 años (los fundamentos de su enfoque ya los había planteado en 1795, cuando aún tenía 18 años). Sin embargo, su método de mínimos cuadrados no se publicó sino hasta 1809, y apareció en el segundo volumen de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente en 1805.

En 1829, Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento: simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto se conoce como teorema de Gauss-Márkov.

Sea { ( x k , y k ) } k = 1 n {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} un conjunto de n puntos en el plano real, y sea { f j ( x ) } j = 1 m {\displaystyle {\{f_{j}(x)\}}_{j=1}^{m}} una base de m funciones linealmente independiente en un espacio de funciones. Queremos encontrar una función f ( x ) {\displaystyle f(x)\!} que sea combinación lineal de las funciones base, de modo que f ( x k ) y k {\displaystyle f(x_{k})\approx y_{k}} , esto es:

f ( x ) = j = 1 m c j f j ( x ) {\displaystyle f(x)=\sum _{j=1}^{m}c_{j}f_{j}(x)}

Por tanto, se trata de hallar los m coeficientes c j {\displaystyle c_{j}} que hagan que la función aproximante f ( x ) {\displaystyle f(x)\!} dé la mejor aproximación para los puntos dados ( x k , y k ) {\displaystyle (x_{k},y_{k})\!} . El criterio de "mejor aproximación" puede variar, pero en general se basa en aquel que minimice una "acumulación" del error individual (en cada punto) sobre el conjunto total. En primer lugar, el error (con signo positivo o negativo) de la función f ( x ) {\displaystyle f(x)\!} en un solo punto, ( x k , y k ) {\displaystyle (x_{k},y_{k})} , se define como:

e k = y k f ( x k ) {\displaystyle e_{k}=y_{k}-f(x_{k})\!}

pero se intenta medir y minimizar el error en todo el conjunto de la aproximación, { ( x k , y k ) } k = 1 n {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} . En matemáticas, existen diversas formas de definir el error, sobre todo cuando este se refiere a un conjunto de puntos (y no solo a uno), a una función, etc. Dicho error (el error "total" sobre el conjunto de puntos considerado) suele definirse con alguna de las siguientes fórmulas:

Error Máximo: E ( f ) = max ( | e k | ) {\displaystyle E_{\infty }(f)=\max(|e_{k}|)}
Error Medio: E m ( f ) = k = 1 n | e k | n {\displaystyle E_{\rm {m}}(f)={\frac {\sum _{k=1}^{n}|e_{k}|}{n}}}
Error cuadrático medio: E c m ( f ) = k = 1 n ( e k ) 2 n {\displaystyle E_{\rm {cm}}(f)={\sqrt {\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}}

La aproximación por mínimos cuadrados se basa en la minimización del error cuadrático medio o, equivalentemente, en la minimización del radicando de dicho error, el llamado error cuadrático, definido como:

E c ( f ) = k = 1 n ( e k ) 2 n {\displaystyle E_{\rm {c}}(f)={\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}

Para alcanzar este objetivo, se utiliza el hecho que la función f debe poder describirse como una combinación lineal de una base de funciones. Los coeficientes de la combinación lineal serán los parámetros que queremos determinar. Por ejemplo, supongamos que f es una función cuadrática, lo que quiere decir que es una combinación lineal, f ( x ) = a x 2 + b x + c {\displaystyle f(x)=ax^{2}+bx+c\,\!} , de las funciones f 1 ( x ) = x 2 {\displaystyle f_{1}(x)=x^{2}} , f 2 ( x ) = x {\displaystyle f_{2}(x)=x} y f 3 ( x ) = 1 {\displaystyle f_{3}(x)=1} (m=3 en este caso), y que se pretende determinar los valores de los coeficientes: a , b , c {\displaystyle a,b,c\!} , de modo que minimicen la suma (S) de los cuadrados de los residuos:

S = i = 1 n ( y i f ( x i ) ) 2 = i = 1 n ( y i a x i 2 b x i c ) 2 {\displaystyle S=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}=\sum _{i=1}^{n}(y_{i}-ax_{i}^{2}-bx_{i}-c)^{2}}

Esto explica el nombre de mínimos cuadrados. A las funciones que multiplican a los coeficientes buscados, que en este caso son: x 2 {\displaystyle x^{2}} , x {\displaystyle x} y 1 {\displaystyle 1} , se les conoce con el nombre de funciones base de la aproximación, y pueden ser funciones cualesquiera. Para ese caso general se deduce a continuación la fórmula de la mejor aproximación discreta (i.e. para un conjunto finito de puntos), lineal y según el criterio del error cuadrático medio, que es la llamada aproximación lineal por mínimos cuadrados. Es posible generar otro tipo de aproximaciones, si se toman los errores máximo o medio, por ejemplo, pero la dificultad que entraña operar con ellos, debido al valor absoluto de su expresión, hace que sean difíciles de tratar y casi no se usen.

La aproximación mínimo cuadrática consiste en minimizar el error cuadrático mencionado más arriba, y tiene solución general cuando se trata de un problema de aproximación lineal (lineal en sus coeficientes c j {\displaystyle c_{j}} ) cualesquiera que sean las funciones base: f j ( x ) {\displaystyle f_{j}(x)} antes mencionadas. Por lineal se entiende que la aproximación buscada se expresa como una combinación lineal de dichas funciones base. Para hallar esta expresión se puede seguir un camino analítico, expuesto abajo, mediante el cálculo multivariable, consistente en optimizar los coeficientes c j {\displaystyle c_{j}} ; o bien, alternativamente, seguir un camino geométrico con el uso del álgebra lineal, como se explica más abajo, en la llamada deducción geométrica. Para los Modelos estáticos uniecuacionales, el método de mínimos cuadrados no ha sido superado, a pesar de diversos intentos para ello, desde principios del Siglo XIX. Se puede demostrar que, en su género, es el que proporciona la mejor aproximación.

Deducción analítica de la aproximación discreta mínimo cuadrática lineal

Sea { ( x k , y k ) } k = 1 n {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} un conjunto de n pares con abscisas distintas, y sea { f j ( x ) } j = 1 m {\displaystyle {\{f_{j}(x)\}}_{j=1}^{m}} un conjunto de m funciones linealmente independientes (en un espacio vectorial de funciones), que se llamarán funciones base. Se desea encontrar una función f ( x ) {\displaystyle f(x)} de dicho espacio, o sea, combinación lineal de las funciones base, tomando por ello la forma:

f ( x ) = c 1 f 1 ( x ) + c 2 f 2 ( x ) + . . . + c m f m ( x ) = j = 1 m c j f j ( x ) {\displaystyle f(x)=c_{1}f_{1}(x)+c_{2}f_{2}(x)+...+c_{m}f_{m}(x)=\sum _{j=1}^{m}{c_{j}f_{j}(x)}} .

Ello equivale por tanto a hallar los m coeficientes: { c j ( x ) } j = 1 m {\displaystyle {\{c_{j}(x)\}}_{j=1}^{m}} . En concreto, se desea que tal función f ( x ) {\displaystyle f(x)} sea la mejor aproximación a los n pares ( x k , y k ) 1 n {\displaystyle {(x_{k},y_{k})}_{1}^{n}} empleando, como criterio de "mejor", el criterio del mínimo error cuadrático medio de la función f ( x ) {\displaystyle f(x)} con respecto a los puntos ( x k , y k ) 1 n {\displaystyle {(x_{k},y_{k})}_{1}^{n}} .

El error cuadrático medio será para tal caso:

E c m = k = 1 n ( e k ) 2 n = 1 n k = 1 n ( y k f ( x k ) ) 2 = 1 n k = 1 n ( y k j = 1 m c j f j ( x k ) ) 2 {\displaystyle E_{\rm {cm}}={\sqrt {\frac {\sum _{k=1}^{n}(e_{k})^{2}}{n}}}={\sqrt {{\frac {1}{n}}\sum _{k=1}^{n}(y_{k}-f(x_{k}))^{2}}}={\sqrt {{\frac {1}{n}}\sum _{k=1}^{n}(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))^{2}}}}

Minimizar el error cuadrático medio es equivalente a minimizar el error cuadrático, definido como el radicando del error cuadrático medio, esto es:

E c = k = 1 n ( y k j = 1 m c j f j ( x k ) ) 2 {\displaystyle E_{\rm {c}}=\sum _{k=1}^{n}(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))^{2}}

Así, los c j {\displaystyle c_{j}} que minimizan E c m {\displaystyle E_{\rm {cm}}} también minimizan E c {\displaystyle E_{\rm {c}}} , y podrán ser calculados derivando e igualando a cero este último:

E c c i = k = 1 n 2 ( y k j = 1 m c j f j ( x k ) ) ( f i ( x k ) ) = 0 {\displaystyle {\frac {\partial E_{\rm {c}}}{\partial c_{i}}}=\sum _{k=1}^{n}2(y_{k}-\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))(-f_{i}(x_{k}))=0}

Siendo i=1,2, . . .,m. Se obtiene un sistema de m ecuaciones con m incógnitas, que recibe el nombre de "Ecuaciones Normales de Gauss". Operando con ellas:

k = 1 n ( j = 1 m c j f j ( x k ) ) f i ( x k ) = k = 1 n y k f i ( x k ) {\displaystyle \sum _{k=1}^{n}(\sum _{j=1}^{m}c_{j}f_{j}(x_{k}))f_{i}(x_{k})=\sum _{k=1}^{n}y_{k}f_{i}(x_{k})} para i=1,2, . . .,m
j = 1 m ( k = 1 n f i ( x k ) f j ( x k ) ) c j = k = 1 n y k f i ( x k ) {\displaystyle \sum _{j=1}^{m}(\sum _{k=1}^{n}f_{i}(x_{k})f_{j}(x_{k}))c_{j}=\sum _{k=1}^{n}y_{k}f_{i}(x_{k})} , para i=1,2, . . .,m

Si se desarrolla la suma, se visualiza la ecuación "i-ésima" del sistema de m ecuaciones normales:

( k = 1 n f i ( x k ) f 1 ( x k ) ) c 1 + ( k = 1 n f i ( x k ) f 2 ( x k ) ) c 2 + . . . + ( k = 1 n f i ( x k ) f m ( x k ) ) c m = k = 1 n y k f i ( x k ) {\displaystyle (\sum _{k=1}^{n}f_{i}(x_{k})f_{1}(x_{k}))c_{1}+(\sum _{k=1}^{n}f_{i}(x_{k})f_{2}(x_{k}))c_{2}+...+(\sum _{k=1}^{n}f_{i}(x_{k})f_{m}(x_{k}))c_{m}=\sum _{k=1}^{n}y_{k}f_{i}(x_{k})} , para cada i=1,2, . . .,m

Lo cual, en forma matricial, se expresa como:

[ ( f 1 , f 1 ) d ( f 1 , f 2 ) d ( f 1 , f m ) d ( f 2 , f 1 ) d ( f 2 , f 2 ) d ( f 2 , f m ) d ( f m , f 1 ) d ( f m , f 2 ) d ( f m , f m ) d ] [ c 1 c 2 . . . c m ] = [ ( f 1 , y ) d ( f 2 , y ) d . . . ( f m , y ) d ] {\displaystyle {\begin{bmatrix}{(f_{1},f_{1})}_{d}&{(f_{1},f_{2})}_{d}&\dots &{(f_{1},f_{m})}_{d}\\{(f_{2},f_{1})}_{d}&{(f_{2},f_{2})}_{d}&\dots &{(f_{2},f_{m})}_{d}\\\vdots &\vdots &\ddots &\vdots \\{(f_{m},f_{1})}_{d}&{(f_{m},f_{2})}_{d}&\dots &{(f_{m},f_{m})}_{d}\end{bmatrix}}{\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}{(f_{1},y)}_{d}\\{(f_{2},y)}_{d}\\...\\{(f_{m},y)}_{d}\end{bmatrix}}}

Siendo ( a , b ) d {\displaystyle {(a,b)}_{d}} el producto escalar discreto, definido para dos funciones dadas h(x) y g(x) como:

( h ( x ) , g ( x ) ) d = k = 1 n h ( x k ) g ( x k ) {\displaystyle {(h(x),g(x))}_{d}=\sum _{k=1}^{n}h(x_{k})g(x_{k})} ,

y para una función h(x) y vector cualquiera u, como:

( h ( x ) , u ) d = k = 1 n h ( x k ) u k {\displaystyle {(h(x),u)}_{d}=\sum _{k=1}^{n}h(x_{k})u_{k}}

La resolución de dicho sistema permite obtener, para cualquier base de funciones derivables localmente, la función f(x) que sea mejor aproximación mínimo cuadrática al conjunto de puntos antes mencionado. La solución es óptima –esto es, proporciona la mejor aproximación siguiendo el criterio de mínimo error cuadrático–, puesto que se obtiene al optimizar el problema.

Corolario

Si se tratara de hallar el conjunto de coeficientes { c j } {\displaystyle \{c_{j}\}} tal que f ( x ) {\displaystyle f(x)} pase exactamente por todos los pares { ( x k , y k ) } k = 1 n {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} , esto es, tales que f ( x ) {\displaystyle f(x)} interpole a { ( x k , y k ) } k = 1 n {\displaystyle {\{(x_{k},y_{k})\}}_{k=1}^{n}} , entonces tendría que cumplirse que:

j = 1 m c j f j ( x k ) = y k {\displaystyle \sum _{j=1}^{m}c_{j}f_{j}(x_{k})=y_{k}}

Que en forma matricial se expresa como:

[ f 1 ( x 1 ) f 2 ( x 1 ) f m ( x 1 ) f 1 ( x 2 ) f 2 ( x 2 ) f m ( x 2 ) f 1 ( x n ) f 2 ( x n ) f m ( x n ) ] [ c 1 c 2 c m ] = [ y 1 y 2 y n ] = A c = b {\displaystyle {\begin{bmatrix}f_{1}(x_{1})&f_{2}(x_{1})&\dots &f_{m}(x_{1})\\f_{1}(x_{2})&f_{2}(x_{2})&\dots &f_{m}(x_{2})\\\vdots &\vdots &\ddots &\vdots \\f_{1}(x_{n})&f_{2}(x_{n})&\dots &f_{m}(x_{n})\end{bmatrix}}{\begin{bmatrix}c_{1}\\c_{2}\\\vdots \\c_{m}\end{bmatrix}}={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}=\mathbf {A} \mathbf {c} =\mathbf {b} }

Esto establece un sistema de n ecuaciones y m incógnitas, y como en general n>m, quedaría sobredeterminado: no tendría siempre una solución general. Por tanto, la aproximación tratará en realidad de hallar el vector c que mejor aproxime A c = b {\displaystyle \mathbf {A} \mathbf {c} =\mathbf {b} } .

Se puede demostrar que la matriz de coeficientes de las ecuaciones normales de Gauss coincide con A 1 A {\displaystyle \mathbf {A} ^{-1}\mathbf {A} } , siendo A {\displaystyle \mathbf {A} } la matriz de coeficientes exactas, y como el término independiente de las ecuaciones normales de Gauss coincide con el vector A 1 b {\displaystyle \mathbf {A} ^{-1}\mathbf {b} } , se tiene que los valores { c j } {\displaystyle \{c_{j}\}} que mejor aproximan f(x) pueden calcularse como la solución al sistema A c = b {\displaystyle \mathbf {A} \mathbf {c} =\mathbf {b} } :

A 1 A c = A 1 b {\displaystyle \mathbf {A} ^{-1}\mathbf {A} \mathbf {c} =\mathbf {A} ^{-1}\mathbf {b} }

que es, precisamente, el sistema de las ecuaciones normales de Gauss.

Caso particular de una recta

Es de especial interés la aproximación de una serie de puntos con una recta. Para ello, elegimos la base funcional f 1 ( x ) = x {\displaystyle f_{1}(x)=x} y f 2 ( x ) = 1 {\displaystyle f_{2}(x)=1} . De este modo la combinación lineal es idéntica a la ecuación de la recta c 1 f 1 ( x ) + c 2 f 2 ( x ) = c 1 x + c 2 {\displaystyle c_{1}f_{1}(x)+c_{2}f_{2}(x)=c_{1}x+c_{2}} . Llamamos a = c 1 , b = c 2 {\displaystyle a=c_{1},b=c_{2}} . El sistema de ecuaciones planteado en la sección anterior es en este caso:

k = 1 n ( a x k + b ) . x k = k = 1 n ( y k x k ) {\displaystyle \sum _{k=1}^{n}(ax_{k}+b).x_{k}=\sum _{k=1}^{n}(y_{k}x_{k})}

k = 1 n ( a x k + b ) .1 = k = 1 n ( y k ) {\displaystyle \sum _{k=1}^{n}(ax_{k}+b).1=\sum _{k=1}^{n}(y_{k})}

{ a k = 1 n x k 2 + b k = 1 n x k = k = 1 n ( y k x k ) a k = 1 n x k + n . b = k = 1 n ( y k ) {\displaystyle {\begin{cases}a\sum _{k=1}^{n}x_{k}^{2}+b\sum _{k=1}^{n}x_{k}=\sum _{k=1}^{n}(y_{k}x_{k})\\a\sum _{k=1}^{n}x_{k}+n.b=\sum _{k=1}^{n}(y_{k})\end{cases}}}

Lo resolvemos con la regla de cramer:

Δ = n k = 1 n x k 2 ( k = 1 n x k ) 2 {\displaystyle \Delta =n\sum _{k=1}^{n}x_{k}^{2}-(\sum _{k=1}^{n}x_{k})^{2}}

Δ a = n k = 1 n x k y k k = 1 n x k k = 1 n y k {\displaystyle \Delta a=n\sum _{k=1}^{n}x_{k}y_{k}-\sum _{k=1}^{n}x_{k}\sum _{k=1}^{n}y_{k}}

Δ b = k = 1 n x k 2 k = 1 n y k k = 1 n x k y k k = 1 n x k {\displaystyle \Delta b=\sum _{k=1}^{n}x_{k}^{2}\sum _{k=1}^{n}y_{k}-\sum _{k=1}^{n}x_{k}y_{k}\sum _{k=1}^{n}x_{k}}

a = n k = 1 n ( x k y k ) k = 1 n ( x k ) k = 1 n ( y k ) n k = 1 n x k 2 ( k = 1 n x k ) 2 {\displaystyle a={\frac {n\sum _{k=1}^{n}(x_{k}y_{k})-\sum _{k=1}^{n}(x_{k})\sum _{k=1}^{n}(y_{k})}{n\sum _{k=1}^{n}x_{k}^{2}-(\sum _{k=1}^{n}x_{k})^{2}}}}

b = k = 1 n ( y k ) k = 1 n ( x k 2 ) k = 1 n ( x k ) k = 1 n ( x k y k ) n k = 1 n x k 2 ( k = 1 n x k ) 2 {\displaystyle b={\frac {\sum _{k=1}^{n}(y_{k})\sum _{k=1}^{n}(x_{k}^{2})-\sum _{k=1}^{n}(x_{k})\sum _{k=1}^{n}(x_{k}y_{k})}{n\sum _{k=1}^{n}x_{k}^{2}-(\sum _{k=1}^{n}x_{k})^{2}}}}

Añadido a esta solución, si los valores de los puntos, tienen indeterminación en el eje y, puede asociarse una indeterminación a los valores a , b {\displaystyle a,b} . Para calcular esta indeterminación, tomamos los valores como funciones de cada y k {\displaystyle y_{k}} , luego calculamos la serie de taylor de primer orden:

a ( y 1 , y 2 , y n ) a ( y 1 + Δ y 1 , y 2 + Δ y 2 , y n + Δ y n ) = a ( y 1 , y 2 , y n ) + k = 1 n ( Δ y k a y k ) + ϵ a {\displaystyle a(y_{1},y_{2}\dots ,y_{n})\Rightarrow a(y_{1}+\Delta y_{1},y_{2}+\Delta y_{2}\dots ,y_{n}+\Delta y_{n})=a(y_{1},y_{2}\dots ,y_{n})+\sum _{k=1}^{n}(\Delta y_{k}{\frac {\partial a}{\partial y_{k}}})+\epsilon _{a}}

b ( y 1 , y 2 , y n ) b ( y 1 + Δ y 1 , y 2 + Δ y 2 , y n + Δ y n ) = b ( y 1 , y 2 , y n ) + k = 1 n ( Δ y k b y k ) + ϵ b {\displaystyle b(y_{1},y_{2}\dots ,y_{n})\Rightarrow b(y_{1}+\Delta y_{1},y_{2}+\Delta y_{2}\dots ,y_{n}+\Delta y_{n})=b(y_{1},y_{2}\dots ,y_{n})+\sum _{k=1}^{n}(\Delta y_{k}{\frac {\partial b}{\partial y_{k}}})+\epsilon _{b}}

Donde ϵ a {\displaystyle \epsilon _{a}} y ϵ b {\displaystyle \epsilon _{b}} agrupan todos los términos de orden superior. Al ser cada y k {\displaystyle y_{k}} , una variable independiente, las indeterminaciones de primer orden, por teorema de Pitágoras son:

σ a = k = 1 n Δ y k 2 ( a y k ) 2 σ b = k = 1 n Δ y k 2 ( b y k ) 2 {\displaystyle \sigma _{a}={\sqrt {\sum _{k=1}^{n}\Delta y_{k}^{2}({\frac {\partial a}{\partial y_{k}}})^{2}}}\sigma _{b}={\sqrt {\sum _{k=1}^{n}\Delta y_{k}^{2}({\frac {\partial b}{\partial y_{k}}})^{2}}}}

Luego, sabiendo que los Δ y k {\displaystyle \Delta y_{k}} son errores, y por ende deben ser pequeños, podemos despreciar los términos de orden superior. Si realizamos los cálculos para los a y b calculados obtenemos:

σ a = n n k = 1 n x k 2 ( k = 1 n x k ) 2 {\displaystyle \sigma _{a}={\sqrt {\frac {n}{n\sum _{k=1}^{n}x_{k}^{2}-(\sum _{k=1}^{n}x_{k})^{2}}}}}

σ b = k = 1 n x k 2 n k = 1 n x k 2 ( k = 1 n x k ) 2 {\displaystyle \sigma _{b}={\sqrt {\frac {\sum _{k=1}^{n}x_{k}^{2}}{n\sum _{k=1}^{n}x_{k}^{2}-(\sum _{k=1}^{n}x_{k})^{2}}}}}

Así obtenemos la recta que mejor se aproxima a nuestros n puntos:

f ( x ) = ( a + σ a ) x + ( b + σ b ) {\displaystyle f(x)=(a+\sigma _{a})x+(b+\sigma _{b})}

Deducción geométrica de la aproximación discreta mínimo cuadrática lineal

La mejor aproximación deberá tender a interpolar la función de la que proviene el conjunto de pares ( x k , y k ) {\displaystyle (x_{k},y_{k})} , esto es, deberá tender a pasar exactamente por todos los puntos. Eso supone que se debería cumplir que:

f ( x k ) = y k con k = 1 , 2 , , n {\displaystyle f(x_{k})=y_{k}\quad {\text{con }}k=1,2,\dots ,n}

Sustituyendo f(x) por su expresión como combinación lineal de una base de m funciones:

j = 1 m c j f j ( x k ) = y k con k = 1 , , n {\displaystyle \sum _{j=1}^{m}c_{j}f_{j}(x_{k})=y_{k}\quad {\text{con }}k=1,\dots ,n}

Esto es, se tendría que verificar exactamente un sistema de n ecuaciones y m incógnitas, pero como en general n>m, dicho sistema estaría sobredeterminado y, por tanto, sin solución general. De ahí surge la necesidad de aproximarlo. Dicho sistema podría expresarse en forma matricial como:

[ f 1 ( x 1 ) f 2 ( x 1 ) . . . f m ( x 1 ) f 1 ( x 2 ) f 2 ( x 2 ) . . . f m ( x 2 ) . . . . . . . . . . . . f 1 ( x n ) f 2 ( x n ) . . . f m ( x n ) ] × [ c 1 c 2 . . . c m ] = [ y 1 y 2 . . . y n ] {\displaystyle {\begin{bmatrix}f_{1}(x_{1})&f_{2}(x_{1})&...&f_{m}(x_{1})\\f_{1}(x_{2})&f_{2}(x_{2})&...&f_{m}(x_{2})\\...&...&...&...\\f_{1}(x_{n})&f_{2}(x_{n})&...&f_{m}(x_{n})\end{bmatrix}}\times {\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}={\begin{bmatrix}y_{1}\\y_{2}\\...\\y_{n}\end{bmatrix}}}

Esto es:

A c = b {\displaystyle Ac=b\;}

La aproximación trata de hallar el vector c aproximante que mejor aproxime el sistema A c = b {\displaystyle Ac=b} . Con dicho vector c aproximante, es posible definir el vector residuo como:

r = b A c {\displaystyle r=b-Ac\;}

De manera que el mínimo error cuadrático supone minimizar el residuo, definiendo su tamaño según la norma euclídea o usual del residuo, que equivale al error cuadrático:

r 2 = ( r , r ) 2 = r T r = k = 1 n ( r k ) 2 {\displaystyle \|r\|_{2}={\sqrt {(r,r)_{2}}}={\sqrt {r^{\mathrm {T} }r}}={\sqrt {\sum _{k=1}^{n}(r_{k})^{2}}}}

siendo ( r , r ) 2 {\displaystyle (r,r)_{2}} el producto interior o escalar del vector residuo sobre sí mismo. Si atendemos al sistema A c = b {\displaystyle Ac=b} , entonces se ve claramente que al multiplicar A y c, lo que se realiza es una combinación lineal de las columnas de A:

A c = [ A 1 A 2 . . . A m ] × [ c 1 c 2 . . . c m ] = c 1 A 1 + c 2 A 2 + . . . + c m A m {\displaystyle Ac={\begin{bmatrix}A_{1}&A_{2}&...&A_{m}\end{bmatrix}}\times {\begin{bmatrix}c_{1}\\c_{2}\\...\\c_{m}\end{bmatrix}}=c_{1}A_{1}+c_{2}A_{2}+...+c_{m}A_{m}}

El problema de aproximación será hallar aquella combinación lineal de columnas de la matriz A lo más cercana posible al vector b. Se comprueba que el conjunto de las columnas de A generan un espacio vectorial o span lineal: span ( A 1 , A 2 , . . . , A m ) {\displaystyle \operatorname {span} (A_{1},A_{2},...,A_{m})} , al que el vector b no tiene porqué pertenecer (si lo hiciera, el sistema A·c=b tendría solución).

Entonces, de los infinitos vectores del span ( A 1 , A 2 , . . . , A m ) {\displaystyle \operatorname {span} (A_{1},A_{2},...,A_{m})} que son combinación lineal de los vectores de la base, se tratará de hallar el más cercano al vector b.

De entre todos ellos, el que cumple esto con respecto a la norma euclídea es la proyección ortogonal de b sobre span ( A 1 , A 2 , . . . , A m ) {\displaystyle \operatorname {span} (A_{1},A_{2},...,A_{m})} , y que por tanto hace que el tamaño del vector r, que será el vector que une los extremos de los vectores b y proyección ortogonal de b sobre el span, sea mínimo, esto es, que minimiza su norma euclídea.

Es inmediato ver que si el residuo une b con su proyección ortogonal, entonces es a su vez ortogonal al span ( A 1 , A 2 , . . . , A m ) {\displaystyle \operatorname {span} (A_{1},A_{2},...,A_{m})} , y a cada uno de los vectores de la base, esto es, ortogonal a cada columna de A.

La condición de minimización del residuo será:

r span ( A 1 , A 2 . . . , A m ) {\displaystyle r\perp \operatorname {span} (A_{1},A_{2}...,A_{m})}

Que es cierto si y solo si:

r A j , j A j r , j ( A j , r ) 2 = 0 = A j t r , j = 1 , 2 , . . . , m {\displaystyle r\perp A_{j},\forall j\iff A_{j}\perp r,\forall j\iff (A_{j},r)_{2}=0=A_{j}^{t}r,\forall j=1,2,...,m}

A su vez, cada una de las m condiciones de perpendicularidad se pueden agrupar en una sola:

A T r = 0 {\displaystyle A^{\mathrm {T} }r=0\;}

Sustituyendo el residuo por su expresión:

A T ( b A c ) = 0 A T A c = A T b {\displaystyle A^{\mathrm {T} }(b-Ac)=0\iff A^{\mathrm {T} }Ac=A^{\mathrm {T} }b}

Por tanto, la mejor aproximación mínimo cuadrada lineal para un conjunto de puntos discretos, sean cuales sean las funciones base, se obtiene al resolver el sistema cuadrado:

A T A c = A T b {\displaystyle A^{\mathrm {T} }Ac=A^{\mathrm {T} }b\;}

A esta ecuación se le llama ecuación normal de Gauss, y es válida para cualquier conjunto de funciones base. Si estas son la unidad y la función x, entonces la aproximación se llama regresión lineal.

En el análisis de regresión, se sustituye la relación

f ( x i ) y i {\displaystyle f(x_{i})\approx y_{i}}

por

f ( x i ) = y i + ε i , {\displaystyle f(x_{i})=y_{i}+\varepsilon _{i},}

siendo el término de perturbación ε {\displaystyle \varepsilon } una variable aleatoria con media cero y varianza constante y finita, es decir, E [ ε ] = 0 {\displaystyle \operatorname {E} [\varepsilon ]=0} y Var [ ε ] = σ 2 < {\displaystyle \operatorname {Var} [\varepsilon ]=\sigma ^{2}<\infty } . Obsérvese que estamos asumiendo que los valores x {\displaystyle x} son exactos y que todos los errores están en los valores y {\displaystyle y} . De nuevo, distinguimos entre la regresión lineal, en cuyo caso la función f {\displaystyle f} es lineal para los parámetros a ser determinados, por ejemplo f ( x ) = a x 2 + b x + c {\displaystyle f(x)=ax^{2}+bx+c} y la regresión no lineal. Como antes, la regresión lineal es mucho más sencilla que la no lineal. (Es tentador pensar que la razón del nombre regresión lineal es que la gráfica de la función f ( x ) = a x + b {\displaystyle f(x)=ax+b} es una línea. Ajustar una curva f ( x ) = a x 2 + b x + c {\displaystyle f(x)=ax^{2}+bx+c} , estimando a {\displaystyle a} , b {\displaystyle b} y c {\displaystyle c} por mínimos cuadrados es un ejemplo de regresión lineal porque el vector de estimadores mínimos cuadráticos de a {\displaystyle a} , b {\displaystyle b} y c {\displaystyle c} es una transformación lineal del vector cuyos componentes son f(xi) + εi).

Los parámetros (a, b y c en el ejemplo anterior) se estiman con frecuencia mediante mínimos cuadrados: se toman aquellos valores que minimicen la suma S {\displaystyle S} . El teorema de Gauss-Márkov establece que los estimadores por mínimos cuadráticos son óptimos en el sentido de que son los estimadores lineales insesgados de menor varianza, y por tanto de menor error cuadrático medio, si tomamos f(x) = ax + b estando a y b por determinar y con los términos de perturbación ε independientes y distribuidos idénticamente (véase el artículo si desea una explicación más detallada y con condiciones menos restrictivas sobre los términos de perturbación).

La estimación de mínimos cuadrados para modelos lineales es notoria por su falta de robustez frente a valores atípicos (outliers). Si la distribución de los atípicos es asimétrica, los estimadores pueden estar sesgados. En presencia de cualquier valor atípico, los estimadores mínimos cuadráticos son ineficientes y pueden serlo en extremo. Si aparecen valores atípicos en los datos, son más apropiados los métodos de regresión robusta.

  • Abdi, H (2003). «[1] (2003). Least-squares.». M. Lewis-Beck, A. Bryman, T. Futing (Eds): Encyclopedia for research methods for the social sciences. Thousand Oaks (CA): Sage. pp. 792-795.

En español:

En inglés:


Mínimos cuadrados
mínimos, cuadrados, idioma, vigilar, editar, técnica, análisis, numérico, enmarcada, dentro, optimización, matemática, dados, conjunto, pares, ordenados, variable, independiente, variable, dependiente, familia, funciones, intenta, encontrar, función, continua,. Minimos cuadrados Idioma Vigilar Editar Minimos cuadrados es una tecnica de analisis numerico enmarcada dentro de la optimizacion matematica en la que dados un conjunto de pares ordenados variable independiente variable dependiente y una familia de funciones se intenta encontrar la funcion continua dentro de dicha familia que mejor se aproxime a los datos un mejor ajuste de acuerdo con el criterio de minimo error cuadratico El resultado del ajuste de un conjunto de datos a una funcion cuadratica En su forma mas simple intenta minimizar la suma de cuadrados de las diferencias en las ordenadas llamadas residuos entre los puntos generados por la funcion elegida y los correspondientes valores en los datos Especificamente se llama minimos cuadrados promedio LMS cuando el numero de datos medidos es 1 y se usa el metodo de descenso porgradiente para minimizar el residuo cuadrado Se puede demostrar que LMS minimiza el residuo cuadrado esperado con el minimo de operaciones por iteracion pero requiere un gran numero de iteraciones para converger Desde un punto de vista estadistico un requisito implicito para que funcione el metodo de minimos cuadrados es que los errores de cada medida esten distribuidos de forma aleatoria El teorema de Gauss Markov prueba que los estimadores minimos cuadraticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse por ejemplo a una distribucion normal Tambien es importante que los datos a procesar esten bien escogidos para que permitan visibilidad en las variables que han de ser resueltas para dar mas peso a un dato en particular vease minimos cuadrados ponderados La tecnica de minimos cuadrados se usa comunmente en el ajuste de curvas Muchos otros problemas de optimizacion pueden expresarse tambien en forma de minimos cuadrados minimizando la energia o maximizando la entropia Indice 1 Historia 2 Formulacion formal del problema bidimensional 3 Solucion del problema de los minimos cuadrados 3 1 Deduccion analitica de la aproximacion discreta minimo cuadratica lineal 3 1 1 Corolario 3 2 Caso particular de una recta 3 3 Deduccion geometrica de la aproximacion discreta minimo cuadratica lineal 4 Minimos Cuadrados y Analisis de Regresion 5 Vease tambien 6 Referencias 7 Enlaces externosHistoria Editar Karl Friedrich Gauss El dia de Ano Nuevo de 1801 el astronomo italiano Giuseppe Piazzi descubrio el planeta enano Ceres Fue capaz de seguir su orbita durante 40 dias Durante el curso de ese ano muchos cientificos intentaron estimar su trayectoria con base en las observaciones de Piazzi resolver las ecuaciones no lineales de Kepler de movimiento es muy dificil La mayoria de las evaluaciones fueron inutiles el unico calculo suficientemente preciso para permitir a Franz Xaver von Zach astronomo aleman reencontrar a Ceres al final del ano fue el de Carl Friedrich Gauss por entonces un joven de 24 anos los fundamentos de su enfoque ya los habia planteado en 1795 cuando aun tenia 18 anos Sin embargo su metodo de minimos cuadrados no se publico sino hasta 1809 y aparecio en el segundo volumen de su trabajo sobre mecanica celeste Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium El frances Adrien Marie Legendre desarrollo el mismo metodo de forma independiente en 1805 En 1829 Gauss fue capaz de establecer la razon del exito maravilloso de este procedimiento simplemente el metodo de minimos cuadrados es optimo en muchos aspectos El argumento concreto se conoce como teorema de Gauss Markov Formulacion formal del problema bidimensional EditarSea x k y k k 1 n displaystyle x k y k k 1 n un conjunto de n puntos en el plano real y sea f j x j 1 m displaystyle f j x j 1 m una base de m funciones linealmente independiente en un espacio de funciones Queremos encontrar una funcion f x displaystyle f x que sea combinacion lineal de las funciones base de modo que f x k y k displaystyle f x k approx y k esto es f x j 1 m c j f j x displaystyle f x sum j 1 m c j f j x Por tanto se trata de hallar los m coeficientes c j displaystyle c j que hagan que la funcion aproximante f x displaystyle f x de la mejor aproximacion para los puntos dados x k y k displaystyle x k y k El criterio de mejor aproximacion puede variar pero en general se basa en aquel que minimice una acumulacion del error individual en cada punto sobre el conjunto total En primer lugar el error con signo positivo o negativo de la funcion f x displaystyle f x en un solo punto x k y k displaystyle x k y k se define como e k y k f x k displaystyle e k y k f x k pero se intenta medir y minimizar el error en todo el conjunto de la aproximacion x k y k k 1 n displaystyle x k y k k 1 n En matematicas existen diversas formas de definir el error sobre todo cuando este se refiere a un conjunto de puntos y no solo a uno a una funcion etc Dicho error el error total sobre el conjunto de puntos considerado suele definirse con alguna de las siguientes formulas Error Maximo E f max e k displaystyle E infty f max e k Error Medio E m f k 1 n e k n displaystyle E rm m f frac sum k 1 n e k n Error cuadratico medio E c m f k 1 n e k 2 n displaystyle E rm cm f sqrt frac sum k 1 n e k 2 n La aproximacion por minimos cuadrados se basa en la minimizacion del error cuadratico medio o equivalentemente en la minimizacion del radicando de dicho error el llamado error cuadratico definido como E c f k 1 n e k 2 n displaystyle E rm c f frac sum k 1 n e k 2 n Para alcanzar este objetivo se utiliza el hecho que la funcion f debe poder describirse como una combinacion lineal de una base de funciones Los coeficientes de la combinacion lineal seran los parametros que queremos determinar Por ejemplo supongamos que f es una funcion cuadratica lo que quiere decir que es una combinacion lineal f x a x 2 b x c displaystyle f x ax 2 bx c de las funciones f 1 x x 2 displaystyle f 1 x x 2 f 2 x x displaystyle f 2 x x y f 3 x 1 displaystyle f 3 x 1 m 3 en este caso y que se pretende determinar los valores de los coeficientes a b c displaystyle a b c de modo que minimicen la suma S de los cuadrados de los residuos S i 1 n y i f x i 2 i 1 n y i a x i 2 b x i c 2 displaystyle S sum i 1 n y i f x i 2 sum i 1 n y i ax i 2 bx i c 2 Esto explica el nombre de minimos cuadrados A las funciones que multiplican a los coeficientes buscados que en este caso son x 2 displaystyle x 2 x displaystyle x y 1 displaystyle 1 se les conoce con el nombre de funciones base de la aproximacion y pueden ser funciones cualesquiera Para ese caso general se deduce a continuacion la formula de la mejor aproximacion discreta i e para un conjunto finito de puntos lineal y segun el criterio del error cuadratico medio que es la llamada aproximacion lineal por minimos cuadrados Es posible generar otro tipo de aproximaciones si se toman los errores maximo o medio por ejemplo pero la dificultad que entrana operar con ellos debido al valor absoluto de su expresion hace que sean dificiles de tratar y casi no se usen Solucion del problema de los minimos cuadrados EditarLa aproximacion minimo cuadratica consiste en minimizar el error cuadratico mencionado mas arriba y tiene solucion general cuando se trata de un problema de aproximacion lineal lineal en sus coeficientes c j displaystyle c j cualesquiera que sean las funciones base f j x displaystyle f j x antes mencionadas Por lineal se entiende que la aproximacion buscada se expresa como una combinacion lineal de dichas funciones base Para hallar esta expresion se puede seguir un camino analitico expuesto abajo mediante el calculo multivariable consistente en optimizar los coeficientes c j displaystyle c j o bien alternativamente seguir un camino geometrico con el uso del algebra lineal como se explica mas abajo en la llamada deduccion geometrica Para los Modelos estaticos uniecuacionales el metodo de minimos cuadrados no ha sido superado a pesar de diversos intentos para ello desde principios del Siglo XIX Se puede demostrar que en su genero es el que proporciona la mejor aproximacion Deduccion analitica de la aproximacion discreta minimo cuadratica lineal Editar Sea x k y k k 1 n displaystyle x k y k k 1 n un conjunto de n pares con abscisas distintas y sea f j x j 1 m displaystyle f j x j 1 m un conjunto de m funciones linealmente independientes en un espacio vectorial de funciones que se llamaran funciones base Se desea encontrar una funcion f x displaystyle f x de dicho espacio o sea combinacion lineal de las funciones base tomando por ello la forma f x c 1 f 1 x c 2 f 2 x c m f m x j 1 m c j f j x displaystyle f x c 1 f 1 x c 2 f 2 x c m f m x sum j 1 m c j f j x Ello equivale por tanto a hallar los m coeficientes c j x j 1 m displaystyle c j x j 1 m En concreto se desea que tal funcion f x displaystyle f x sea la mejor aproximacion a los n pares x k y k 1 n displaystyle x k y k 1 n empleando como criterio de mejor el criterio del minimo error cuadratico medio de la funcion f x displaystyle f x con respecto a los puntos x k y k 1 n displaystyle x k y k 1 n El error cuadratico medio sera para tal caso E c m k 1 n e k 2 n 1 n k 1 n y k f x k 2 1 n k 1 n y k j 1 m c j f j x k 2 displaystyle E rm cm sqrt frac sum k 1 n e k 2 n sqrt frac 1 n sum k 1 n y k f x k 2 sqrt frac 1 n sum k 1 n y k sum j 1 m c j f j x k 2 Minimizar el error cuadratico medio es equivalente a minimizar el error cuadratico definido como el radicando del error cuadratico medio esto es E c k 1 n y k j 1 m c j f j x k 2 displaystyle E rm c sum k 1 n y k sum j 1 m c j f j x k 2 Asi los c j displaystyle c j que minimizan E c m displaystyle E rm cm tambien minimizan E c displaystyle E rm c y podran ser calculados derivando e igualando a cero este ultimo E c c i k 1 n 2 y k j 1 m c j f j x k f i x k 0 displaystyle frac partial E rm c partial c i sum k 1 n 2 y k sum j 1 m c j f j x k f i x k 0 Siendo i 1 2 m Se obtiene un sistema de m ecuaciones con m incognitas que recibe el nombre de Ecuaciones Normales de Gauss Operando con ellas k 1 n j 1 m c j f j x k f i x k k 1 n y k f i x k displaystyle sum k 1 n sum j 1 m c j f j x k f i x k sum k 1 n y k f i x k para i 1 2 m j 1 m k 1 n f i x k f j x k c j k 1 n y k f i x k displaystyle sum j 1 m sum k 1 n f i x k f j x k c j sum k 1 n y k f i x k para i 1 2 m Si se desarrolla la suma se visualiza la ecuacion i esima del sistema de m ecuaciones normales k 1 n f i x k f 1 x k c 1 k 1 n f i x k f 2 x k c 2 k 1 n f i x k f m x k c m k 1 n y k f i x k displaystyle sum k 1 n f i x k f 1 x k c 1 sum k 1 n f i x k f 2 x k c 2 sum k 1 n f i x k f m x k c m sum k 1 n y k f i x k para cada i 1 2 m Lo cual en forma matricial se expresa como f 1 f 1 d f 1 f 2 d f 1 f m d f 2 f 1 d f 2 f 2 d f 2 f m d f m f 1 d f m f 2 d f m f m d c 1 c 2 c m f 1 y d f 2 y d f m y d displaystyle begin bmatrix f 1 f 1 d amp f 1 f 2 d amp dots amp f 1 f m d f 2 f 1 d amp f 2 f 2 d amp dots amp f 2 f m d vdots amp vdots amp ddots amp vdots f m f 1 d amp f m f 2 d amp dots amp f m f m d end bmatrix begin bmatrix c 1 c 2 c m end bmatrix begin bmatrix f 1 y d f 2 y d f m y d end bmatrix Siendo a b d displaystyle a b d el producto escalar discreto definido para dos funciones dadas h x y g x como h x g x d k 1 n h x k g x k displaystyle h x g x d sum k 1 n h x k g x k y para una funcion h x y vector cualquiera u como h x u d k 1 n h x k u k displaystyle h x u d sum k 1 n h x k u k La resolucion de dicho sistema permite obtener para cualquier base de funciones derivables localmente la funcion f x que sea mejor aproximacion minimo cuadratica al conjunto de puntos antes mencionado La solucion es optima esto es proporciona la mejor aproximacion siguiendo el criterio de minimo error cuadratico puesto que se obtiene al optimizar el problema Corolario Editar Si se tratara de hallar el conjunto de coeficientes c j displaystyle c j tal que f x displaystyle f x pase exactamente por todos los pares x k y k k 1 n displaystyle x k y k k 1 n esto es tales que f x displaystyle f x interpole a x k y k k 1 n displaystyle x k y k k 1 n entonces tendria que cumplirse que j 1 m c j f j x k y k displaystyle sum j 1 m c j f j x k y k Que en forma matricial se expresa como f 1 x 1 f 2 x 1 f m x 1 f 1 x 2 f 2 x 2 f m x 2 f 1 x n f 2 x n f m x n c 1 c 2 c m y 1 y 2 y n A c b displaystyle begin bmatrix f 1 x 1 amp f 2 x 1 amp dots amp f m x 1 f 1 x 2 amp f 2 x 2 amp dots amp f m x 2 vdots amp vdots amp ddots amp vdots f 1 x n amp f 2 x n amp dots amp f m x n end bmatrix begin bmatrix c 1 c 2 vdots c m end bmatrix begin bmatrix y 1 y 2 vdots y n end bmatrix mathbf A mathbf c mathbf b Esto establece un sistema de n ecuaciones y m incognitas y como en general n gt m quedaria sobredeterminado no tendria siempre una solucion general Por tanto la aproximacion tratara en realidad de hallar el vector c que mejor aproxime A c b displaystyle mathbf A mathbf c mathbf b Se puede demostrar que la matriz de coeficientes de las ecuaciones normales de Gauss coincide con A 1 A displaystyle mathbf A 1 mathbf A siendo A displaystyle mathbf A la matriz de coeficientes exactas y como el termino independiente de las ecuaciones normales de Gauss coincide con el vector A 1 b displaystyle mathbf A 1 mathbf b se tiene que los valores c j displaystyle c j que mejor aproximan f x pueden calcularse como la solucion al sistema A c b displaystyle mathbf A mathbf c mathbf b A 1 A c A 1 b displaystyle mathbf A 1 mathbf A mathbf c mathbf A 1 mathbf b que es precisamente el sistema de las ecuaciones normales de Gauss Caso particular de una recta Editar Es de especial interes la aproximacion de una serie de puntos con una recta Para ello elegimos la base funcional f 1 x x displaystyle f 1 x x y f 2 x 1 displaystyle f 2 x 1 De este modo la combinacion lineal es identica a la ecuacion de la recta c 1 f 1 x c 2 f 2 x c 1 x c 2 displaystyle c 1 f 1 x c 2 f 2 x c 1 x c 2 Llamamos a c 1 b c 2 displaystyle a c 1 b c 2 El sistema de ecuaciones planteado en la seccion anterior es en este caso k 1 n a x k b x k k 1 n y k x k displaystyle sum k 1 n ax k b x k sum k 1 n y k x k k 1 n a x k b 1 k 1 n y k displaystyle sum k 1 n ax k b 1 sum k 1 n y k a k 1 n x k 2 b k 1 n x k k 1 n y k x k a k 1 n x k n b k 1 n y k displaystyle begin cases a sum k 1 n x k 2 b sum k 1 n x k sum k 1 n y k x k a sum k 1 n x k n b sum k 1 n y k end cases Lo resolvemos con la regla de cramer D n k 1 n x k 2 k 1 n x k 2 displaystyle Delta n sum k 1 n x k 2 sum k 1 n x k 2 D a n k 1 n x k y k k 1 n x k k 1 n y k displaystyle Delta a n sum k 1 n x k y k sum k 1 n x k sum k 1 n y k D b k 1 n x k 2 k 1 n y k k 1 n x k y k k 1 n x k displaystyle Delta b sum k 1 n x k 2 sum k 1 n y k sum k 1 n x k y k sum k 1 n x k a n k 1 n x k y k k 1 n x k k 1 n y k n k 1 n x k 2 k 1 n x k 2 displaystyle a frac n sum k 1 n x k y k sum k 1 n x k sum k 1 n y k n sum k 1 n x k 2 sum k 1 n x k 2 b k 1 n y k k 1 n x k 2 k 1 n x k k 1 n x k y k n k 1 n x k 2 k 1 n x k 2 displaystyle b frac sum k 1 n y k sum k 1 n x k 2 sum k 1 n x k sum k 1 n x k y k n sum k 1 n x k 2 sum k 1 n x k 2 Anadido a esta solucion si los valores de los puntos tienen indeterminacion en el eje y puede asociarse una indeterminacion a los valores a b displaystyle a b Para calcular esta indeterminacion tomamos los valores como funciones de cada y k displaystyle y k luego calculamos la serie de taylor de primer orden a y 1 y 2 y n a y 1 D y 1 y 2 D y 2 y n D y n a y 1 y 2 y n k 1 n D y k a y k ϵ a displaystyle a y 1 y 2 dots y n Rightarrow a y 1 Delta y 1 y 2 Delta y 2 dots y n Delta y n a y 1 y 2 dots y n sum k 1 n Delta y k frac partial a partial y k epsilon a b y 1 y 2 y n b y 1 D y 1 y 2 D y 2 y n D y n b y 1 y 2 y n k 1 n D y k b y k ϵ b displaystyle b y 1 y 2 dots y n Rightarrow b y 1 Delta y 1 y 2 Delta y 2 dots y n Delta y n b y 1 y 2 dots y n sum k 1 n Delta y k frac partial b partial y k epsilon b Donde ϵ a displaystyle epsilon a y ϵ b displaystyle epsilon b agrupan todos los terminos de orden superior Al ser cada y k displaystyle y k una variable independiente las indeterminaciones de primer orden por teorema de Pitagoras son s a k 1 n D y k 2 a y k 2 s b k 1 n D y k 2 b y k 2 displaystyle sigma a sqrt sum k 1 n Delta y k 2 frac partial a partial y k 2 sigma b sqrt sum k 1 n Delta y k 2 frac partial b partial y k 2 Luego sabiendo que los D y k displaystyle Delta y k son errores y por ende deben ser pequenos podemos despreciar los terminos de orden superior Si realizamos los calculos para los a y b calculados obtenemos s a n n k 1 n x k 2 k 1 n x k 2 displaystyle sigma a sqrt frac n n sum k 1 n x k 2 sum k 1 n x k 2 s b k 1 n x k 2 n k 1 n x k 2 k 1 n x k 2 displaystyle sigma b sqrt frac sum k 1 n x k 2 n sum k 1 n x k 2 sum k 1 n x k 2 Asi obtenemos la recta que mejor se aproxima a nuestros n puntos f x a s a x b s b displaystyle f x a sigma a x b sigma b Deduccion geometrica de la aproximacion discreta minimo cuadratica lineal Editar La mejor aproximacion debera tender a interpolar la funcion de la que proviene el conjunto de pares x k y k displaystyle x k y k esto es debera tender a pasar exactamente por todos los puntos Eso supone que se deberia cumplir que f x k y k con k 1 2 n displaystyle f x k y k quad text con k 1 2 dots n Sustituyendo f x por su expresion como combinacion lineal de una base de m funciones j 1 m c j f j x k y k con k 1 n displaystyle sum j 1 m c j f j x k y k quad text con k 1 dots n Esto es se tendria que verificar exactamente un sistema de n ecuaciones y m incognitas pero como en general n gt m dicho sistema estaria sobredeterminado y por tanto sin solucion general De ahi surge la necesidad de aproximarlo Dicho sistema podria expresarse en forma matricial como f 1 x 1 f 2 x 1 f m x 1 f 1 x 2 f 2 x 2 f m x 2 f 1 x n f 2 x n f m x n c 1 c 2 c m y 1 y 2 y n displaystyle begin bmatrix f 1 x 1 amp f 2 x 1 amp amp f m x 1 f 1 x 2 amp f 2 x 2 amp amp f m x 2 amp amp amp f 1 x n amp f 2 x n amp amp f m x n end bmatrix times begin bmatrix c 1 c 2 c m end bmatrix begin bmatrix y 1 y 2 y n end bmatrix Esto es A c b displaystyle Ac b La aproximacion trata de hallar el vector c aproximante que mejor aproxime el sistema A c b displaystyle Ac b Con dicho vector c aproximante es posible definir el vector residuo como r b A c displaystyle r b Ac De manera que el minimo error cuadratico supone minimizar el residuo definiendo su tamano segun la norma euclidea o usual del residuo que equivale al error cuadratico r 2 r r 2 r T r k 1 n r k 2 displaystyle r 2 sqrt r r 2 sqrt r mathrm T r sqrt sum k 1 n r k 2 siendo r r 2 displaystyle r r 2 el producto interior o escalar del vector residuo sobre si mismo Si atendemos al sistema A c b displaystyle Ac b entonces se ve claramente que al multiplicar A y c lo que se realiza es una combinacion lineal de las columnas de A A c A 1 A 2 A m c 1 c 2 c m c 1 A 1 c 2 A 2 c m A m displaystyle Ac begin bmatrix A 1 amp A 2 amp amp A m end bmatrix times begin bmatrix c 1 c 2 c m end bmatrix c 1 A 1 c 2 A 2 c m A m El problema de aproximacion sera hallar aquella combinacion lineal de columnas de la matriz A lo mas cercana posible al vector b Se comprueba que el conjunto de las columnas de A generan un espacio vectorial o span lineal span A 1 A 2 A m displaystyle operatorname span A 1 A 2 A m al que el vector b no tiene porque pertenecer si lo hiciera el sistema A c b tendria solucion Entonces de los infinitos vectores del span A 1 A 2 A m displaystyle operatorname span A 1 A 2 A m que son combinacion lineal de los vectores de la base se tratara de hallar el mas cercano al vector b De entre todos ellos el que cumple esto con respecto a la norma euclidea es la proyeccion ortogonal de b sobre span A 1 A 2 A m displaystyle operatorname span A 1 A 2 A m y que por tanto hace que el tamano del vector r que sera el vector que une los extremos de los vectores b y proyeccion ortogonal de b sobre el span sea minimo esto es que minimiza su norma euclidea Es inmediato ver que si el residuo une b con su proyeccion ortogonal entonces es a su vez ortogonal al span A 1 A 2 A m displaystyle operatorname span A 1 A 2 A m y a cada uno de los vectores de la base esto es ortogonal a cada columna de A La condicion de minimizacion del residuo sera r span A 1 A 2 A m displaystyle r perp operatorname span A 1 A 2 A m Que es cierto si y solo si r A j j A j r j A j r 2 0 A j t r j 1 2 m displaystyle r perp A j forall j iff A j perp r forall j iff A j r 2 0 A j t r forall j 1 2 m A su vez cada una de las m condiciones de perpendicularidad se pueden agrupar en una sola A T r 0 displaystyle A mathrm T r 0 Sustituyendo el residuo por su expresion A T b A c 0 A T A c A T b displaystyle A mathrm T b Ac 0 iff A mathrm T Ac A mathrm T b Por tanto la mejor aproximacion minimo cuadrada lineal para un conjunto de puntos discretos sean cuales sean las funciones base se obtiene al resolver el sistema cuadrado A T A c A T b displaystyle A mathrm T Ac A mathrm T b A esta ecuacion se le llama ecuacion normal de Gauss y es valida para cualquier conjunto de funciones base Si estas son la unidad y la funcion x entonces la aproximacion se llama regresion lineal Minimos Cuadrados y Analisis de Regresion EditarEn el analisis de regresion se sustituye la relacion f x i y i displaystyle f x i approx y i por f x i y i e i displaystyle f x i y i varepsilon i siendo el termino de perturbacion e displaystyle varepsilon una variable aleatoria con media cero y varianza constante y finita es decir E e 0 displaystyle operatorname E varepsilon 0 y Var e s 2 lt displaystyle operatorname Var varepsilon sigma 2 lt infty Observese que estamos asumiendo que los valores x displaystyle x son exactos y que todos los errores estan en los valores y displaystyle y De nuevo distinguimos entre la regresion lineal en cuyo caso la funcion f displaystyle f es lineal para los parametros a ser determinados por ejemplo f x a x 2 b x c displaystyle f x ax 2 bx c y la regresion no lineal Como antes la regresion lineal es mucho mas sencilla que la no lineal Es tentador pensar que la razon del nombre regresion lineal es que la grafica de la funcion f x a x b displaystyle f x ax b es una linea Ajustar una curva f x a x 2 b x c displaystyle f x ax 2 bx c estimando a displaystyle a b displaystyle b y c displaystyle c por minimos cuadrados es un ejemplo de regresion lineal porque el vector de estimadores minimos cuadraticos de a displaystyle a b displaystyle b y c displaystyle c es una transformacion lineal del vector cuyos componentes son f xi ei Los parametros a b y c en el ejemplo anterior se estiman con frecuencia mediante minimos cuadrados se toman aquellos valores que minimicen la suma S displaystyle S El teorema de Gauss Markov establece que los estimadores por minimos cuadraticos son optimos en el sentido de que son los estimadores lineales insesgados de menor varianza y por tanto de menor error cuadratico medio si tomamos f x ax b estando a y b por determinar y con los terminos de perturbacion e independientes y distribuidos identicamente vease el articulo si desea una explicacion mas detallada y con condiciones menos restrictivas sobre los terminos de perturbacion La estimacion de minimos cuadrados para modelos lineales es notoria por su falta de robustez frente a valores atipicos outliers Si la distribucion de los atipicos es asimetrica los estimadores pueden estar sesgados En presencia de cualquier valor atipico los estimadores minimos cuadraticos son ineficientes y pueden serlo en extremo Si aparecen valores atipicos en los datos son mas apropiados los metodos de regresion robusta Vease tambien EditarRegresion isotonica Filtro de minimos cuadrados promedio Estimacion de minimos cuadrados de coeficientes para regresion lineal Regresion lineal Minimos cuadrados moviles Minimos cuadrados no lineales Analisis de regresion Regresion robusta Valor eficaz Teorema de Gauss Markov Minimos cuadrados totales Minimos cuadrados ordinarios Minimos cuadrados ponderados Analisis de la varianza Ecuaciones normales del problema de cuadrados minimos Algoritmo de Levenberg MarquardtReferencias EditarAbdi H 2003 1 2003 Least squares M Lewis Beck A Bryman T Futing Eds Encyclopedia for research methods for the social sciences Thousand Oaks CA Sage pp 792 795 Enlaces externos EditarEn espanol Regresion Lineal Simple Regresion Lineal y Cuadratica Regresion Polinomial Minimos Cuadrados En ingles http www physics csbsju edu stats least squares html Zunzun com Ajuste de curvas y superficies en linea http www orbitals com self least least htm Minimos cuadrados en PlanetMath levmar implementacion en C C por cuadrados minimos no lineales GNU General Public License SysLinea implementacion en Pascal por cuadrados minimos no lineales GNU General Public License lmfit otra implementacion del algoritmo de Levenberg y Marquardt en C C dominio publico Datos Q74304 Multimedia Least squaresObtenido de https es wikipedia org w index php title Minimos cuadrados amp oldid 136013105, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos