Saltar a un capítulo clave
Regresión lineal de la suma residual de cuadrados
Sigamos con el ejemplo de intentar utilizar el peso de un perro adulto para predecir su altura. Has realizado un muestreo aleatorio y has hecho todo lo posible para asegurarte de que tu muestra es representativa de la población total de perros adultos. La información que has recopilado está en la tabla siguiente, donde el peso está en libras y la altura en pulgadas.
Tabla 1 - Pesos (en libras) y alturas (en pulgadas) de los perros
Peso | Altura | Peso | Altura | Peso | Altura |
\(10\) | \(10\) | \(75\) | \(23\) | \(12\) | \(12\) |
\(63\) | \(25\) | \(80\) | \(25\) | \(45\) | \(22\) |
\(60\) | \(23\) | \(20\) | \(15\) | \(50\) | \(18\) |
\(100\) | \(26\) | \(46\) | \(24\) | \(36\) | \(17\) |
\(6\) | \(12\) | \(62\) | \(23\) | \(95\) | \(27\) |
\(48\) | \(20\) | \(45\) | \(18\) | \(34\) | \(24\) |
\(40\) | \(19\) | \(32\) | \(17\) | \(57\) | \(21\) |
\(50\) | \(21\) | \(19\) | \(10\) | \(37\) | \(23\) |
Lo primero que hay que hacer es un diagrama de dispersión.
A continuación, comprueba si hay algún punto inusual en los datos.
Puntos de datos inusuales
Echemos un vistazo a los tipos de puntos inusuales que podrías ver y que afectarían a tu análisis de regresión lineal.
Valores atípicos
Recuerda que un outlier es un punto de datos que se encuentra a una distancia anormal de otros puntos de la muestra. En otras palabras, la variable de respuesta (en este caso, la altura del perro) no sigue la tendencia general de los demás datos. ¿Quién decide qué puntos son atípicos? La persona que observa los datos, ¡por supuesto! En el diagrama de dispersión de los datos anteriores puedes ver que no parece haber ningún valor atípico real en los datos.
Puntos de alto apalancamiento
¿Qué hace que un punto de datos de tu muestra sea un punto de alto apalancamiento?
Un punto de apalancamiento alto es aquel que tiene una distancia inusualmente grande entre él y la media.
Un punto de apalancamiento alto puede estar por encima o por debajo de la media. Los puntos de este tipo pueden tener un gran efecto en la regresión lineal.
Puntos influyentes
La influencia es una forma de medir cuánto impacto tiene un valor atípico o un punto de apalancamiento alto en tu modelo de regresión.
Se considera que un punto es influyente si influye indebidamente en alguna parte de tu análisis de regresión, como la línea de mejor ajuste.
Aunque los valores atípicos y los puntos de apalancamiento alto podrían ser puntos influyentes, no siempre lo son. Para saber si un valor atípico o un punto de apalancamiento alto es realmente influyente, tendrías que eliminarlo del conjunto de datos, volver a calcular la regresión lineal y ver cuánto ha cambiado. La mejor forma de comprobarlo es ver si ha cambiado el valor \(R^2\).
Para un recordatorio sobre el valor \(R^2), consulta los artículos Regresión lineal y Residuales.
Interpretación geométrica de la suma de cuadrados residuales
Una vez que hayas hecho un diagrama de dispersión de los datos, puedes comprobar si parece lineal. En este caso, puede que lo sea, pero la cuestión es cómo trazar la recta. Como puedes ver en la imagen siguiente, cualquiera de las tres líneas trazadas parece que podría ajustarse bastante bien a los datos.
Entonces, ¿qué hace que una recta sea la "mejor" recta? Quieres una recta que se acerque lo más posible al mayor número de puntos de datos de la muestra. Para ello, tienes que fijarte en ladesviación , también llamada residuo. El residuo de un punto de datos es simplemente lo lejos que está el punto de datos de la posible línea de mejor ajuste.
Un residuo negativo significa que el punto está por debajo de la recta, y un residuo positivo significa que el punto está por encima de la recta. Si un punto se encuentra exactamente sobre la recta, el residuo sería cero. Como el residuo puede ser positivo o negativo, es habitual mirar el cuadrado del residuo para que las cosas no se anulen accidentalmente.
Definición de la suma residual de cuadrados
Veamos la definición real de la suma residual de cuadrados. Observarás que puede definirse para cualquier recta \(y=a+bx\), no sólo para la recta de mejor ajuste.
Para \(n\) puntos de datos,
\[(x_1, y_1), (x_2, y_2), \puntos (x_n, y_n),\]
una forma de medir el ajuste de una recta \(y=bx+a\) a datos bivariantes es la suma de residuos al cuadrado mediante la fórmula
\[\suma_limits_{i=1}^n (y_i - (a+bx_i))^2.\]
El objetivo es que la suma de los residuos al cuadrado sea lo más pequeña posible.
Para una explicación de por qué la suma de cuadrados residuales es la mejor manera de hacer las cosas, consulta el artículo Minimizar la suma de cuadrados residuales.
Puedes ver el residuo en el punto \((x_i,y_i)\) escrito como \(\epsilon_i\).
Fórmula para la suma de cuadrados residual
Ahora puedes definir la recta de mejor ajuste, también conocida como recta de regresión por mínimos cuadrados.
La recta de regresión por mínimos cuadrados es la recta que minimiza la suma de desviaciones al cuadrado respecto a los datos de la muestra.
Aún así, ¡necesitas una forma de encontrar la recta de regresión por mínimos cuadrados! Afortunadamente, otras personas han hecho todos los cálculos para hallar la pendiente y la intersección de la recta. La notación de las fórmulas es
\(n\) número de puntos de muestra;
\(\bar{x}\) la media de los valores \(x_i\); y
\la media de los valores \(y_i\).
La pendiente de la recta de regresión por mínimos cuadrados es
\b = \frac {{suma de límites_i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ {{suma de límites_i=1}^n(x_i - \bar{x})^2}. = \frac{S_{xy}}{S_{xx}} ,\]
la intersección \(y) es
\a = \bar{y} - b\bar{x},\}].
y la ecuación de la recta de regresión por mínimos cuadrados es
\[ \hat{y} = a+bx,\\]
donde \(\hat{y}) es el valor predicho que resulta de sustituir un \(x\) dado en la ecuación.
\(S_{xx}\) y \(S_{xy}\) se llaman estadísticos de resumen, y sus fórmulas pueden aparecer dependiendo de las herramientas de aprendizaje que estés utilizando.
Veamos un ejemplo.
Volviendo a la tabla con los pesos y las alturas de los perros, la variable dependiente es la altura (serían los valores \(y_i\)), y la variable independiente es el peso (serían los valores \(x_i\)). Hay \(24\) puntos de datos en la tabla, así que \(n=24\). Puedes calcular
- \(barra x = 46,75) y
- \(\bar{y} = 19,79\}),
redondeado a dos decimales. Generalmente, utilizarás una hoja de cálculo o una calculadora para hallar los valores de \(b\) y \(a\), ¡especialmente cuando hay muchos puntos de datos! Aquí
- \(a =11,69\) y
- \(b = 0.17\),
donde ambos se han redondeado a dos decimales. Así que la ecuación de la recta de regresión por mínimos cuadrados es
\[ \hat{y} = 11,69 + 0,17x.\}]
Ahora que tienes una fórmula para la recta, puedes hallar la desviación residual de la suma de cuadrados para esta recta. Utiliza la fórmula
\[\suma_limits_{i=1}^24 (y_i - (a+bx_i))^2 \aprox 160,58.\]
De hecho, el valor \(R^2\), también conocido como coeficiente de determinación, es aproximadamente \(R^2 = 0,73\), o \(73\%\).
Ahora busquemos puntos influyentes.
Volviendo a la tabla de datos,si observas la desviación de cada punto de la muestra, uno de ellos parece contribuir bastante más que los demás a la desviación de la suma de cuadrados. Ese punto de datos es \( (37, 23)\) con una desviación de casi \(24\). Eso es considerablemente más que cualquiera de los otros puntos de muestra, siendo el siguiente más alto menos de \(12\). Esto implica que el punto de datos \( (37, 23)\) es un punto de gran influencia, pero tienes que demostrar si es o no un punto influyente.
Podría darse el caso de que \( (37, 23)\) sea un punto influyente. Si eliminas ese punto de la muestra y luego calculas el nuevo valor \(R^2), obtienes aproximadamente \(0,77\), o \(77\%\), con una recta de regresión por mínimos cuadrados de
\[\hat{y} = 11,31 + 0,18x,\\] y una desviación residual de la suma de cuadrados de \(135,36\).
Recuerda que el coeficiente de determinación, \(R^2\), es una medida de la variabilidad en \(y\) que puede explicarse mediante una relación lineal entre \(x\) y \(y\). Cuanto más cerca de \(1\) esté \(R^2\), más cerca de la linealidad estarán tus datos muestrales. Así que al eliminar un punto del conjunto de datos, has cambiado el valor de \(R^2\) de \(73\%\) a \(77\%\), ¡lo que supone un gran cambio! Eso significa que el punto de datos \( (37, 23)\) es de hecho un punto influyente.
Recuerda que la variabilidad puede disminuir aumentando el tamaño de la muestra. Para más información, consulta Estimaciones puntuales insesgadas.
Una vez que tienes la recta de regresión por mínimos cuadrados, ¿qué puedes hacer con ella?
Ejemplos de sumas de cuadrados residuales
Hay un par de cosas importantes que debes tener en cuenta cuando utilices la recta de regresión por mínimos cuadrados para hacer una predicción.
La recta de regresión por mínimos cuadrados es un predictor de la población, no de un individuo.
Utilizar la recta de regresión por mínimos cuadrados para hacer una predicción de un valor fuera del rango de los datos recogidos podría no funcionar muy bien.
Veamos un ejemplo del tipo de problemas que pueden producirse cuando se ignoran estas consideraciones.
Volviendo a la información sobre el peso y la altura del perro, y utilizando la recta de regresión por mínimos cuadrados
\[\hat{y} = 11,31 + 0,18x,\\]
¿qué puedes predecir sobre la altura de un bulldog que pesa \(65\) libras?
Responde:
Introduciendo simplemente el peso del bulldog, obtienes
\[\hat{y} = 11,31 + 0,18(65) = 23,01,\\]
por lo que la recta de regresión por mínimos cuadrados predice que el bulldog mediría \(23,01\) pulgadas. Sin embargo, un bulldog de este peso medirá en realidad unos \(15\) centímetros, ¡lo cual es una gran diferencia! Éste es un ejemplo de por qué puedes utilizar la recta de regresión por mínimos cuadrados para hacer una predicción sobre los perros en general (es decir, la población de perros) y no sobre perros concretos.
¿Qué pasa con un perro que pesa más de \(100\) libras?
Un perro macho bull mastiff puede pesar fácilmente \(130\) libras. Esto está fuera del rango de los datos recogidos en la tabla. Cuando utilizas la recta de regresión por mínimos cuadrados para hacer una predicción, descubres que un perro bull mastiff debe pesar
\[\hat{y} = 11,31 + 0,18(130) = 34,71\, \text{in},\].
de altura. Sin embargo, en general, este perro no medirá más de \(27\) pulgadas, ¡lo que es bastante menos de lo que predice la línea de regresión por mínimos cuadrados! Esto se debe a que el peso del perro está bastante fuera de los datos recogidos, por lo que la línea de regresión por mínimos cuadrados no es un buen predictor.
Suma residual de cuadrados - Puntos clave
- El residuo de un punto de datos es lo lejos que está el punto de datos de la posible línea de mejor ajuste. La desviación puede ser positiva o negativa.
Para \(n\) puntos de datos,
\[(x_1, y_1), (x_2, y_2), \ puntos (x_n, y_n),\]
una forma de medir el ajuste de una recta \(y=mx+b\) a datos bivariantes es la suma residual de desviaciones al cuadrado mediante la fórmula
\[\suma_limits_{i=1}^n (y_i - (a+bx_i))^2.\]
- La recta de regresión por mínimos cuadrados es la recta que minimiza la suma de cuadrados residual.
- La pendiente de la recta de regresión por mínimos cuadrados es
\[ \begin{align} b &=\frac{S_{xy}}{S_{xx}} \\ & = \frac {{suma límites_i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ {{suma límites_i=1}^n(x_i - \bar{x})^2, \final}].
la intersección \(y) es
\a = \bar{y} - b\bar{x},\}]
y la ecuación de la recta de regresión por mínimos cuadrados es
\[ \hat{y} = a+bx,\\]
donde \(\hat{y}\) es el valor predicho que resulta de sustituir un \(x\) dado en la ecuación.
Aprende más rápido con las 11 tarjetas sobre La Suma Residual de los Cuadrados
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre La Suma Residual de los Cuadrados
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más