La Suma Residual de los Cuadrados: Concepto, Ejemplos

Saltar a un capítulo clave

Regresión lineal de la suma residual de cuadrados

Sigamos con el ejemplo de intentar utilizar el peso de un perro adulto para predecir su altura. Has realizado un muestreo aleatorio y has hecho todo lo posible para asegurarte de que tu muestra es representativa de la población total de perros adultos. La información que has recopilado está en la tabla siguiente, donde el peso está en libras y la altura en pulgadas.

Tabla 1 - Pesos (en libras) y alturas (en pulgadas) de los perros

Peso	Altura	Peso	Altura	Peso	Altura
$10$	$10$	$75$	$23$	$12$	$12$
$63$	$25$	$80$	$25$	$45$	$22$
$60$	$23$	$20$	$15$	$50$	$18$
$100$	$26$	$46$	$24$	$36$	$17$
$6$	$12$	$62$	$23$	$95$	$27$
$48$	$20$	$45$	$18$	$34$	$24$
$40$	$19$	$32$	$17$	$57$	$21$
$50$	$21$	$19$	$10$	$37$	$23$

Lo primero que hay que hacer es un diagrama de dispersión.

$Diagrama de dispersión de regresión por mínimos cuadrados de los datos de la tabla StudySmarter$ Fig. 1 - Diagrama de dispersión de los datos de la tabla de pesos y alturas de los perros.

A continuación, comprueba si hay algún punto inusual en los datos.

Puntos de datos inusuales

Echemos un vistazo a los tipos de puntos inusuales que podrías ver y que afectarían a tu análisis de regresión lineal.

Valores atípicos

Recuerda que un outlier es un punto de datos que se encuentra a una distancia anormal de otros puntos de la muestra. En otras palabras, la variable de respuesta (en este caso, la altura del perro) no sigue la tendencia general de los demás datos. ¿Quién decide qué puntos son atípicos? La persona que observa los datos, ¡por supuesto! En el diagrama de dispersión de los datos anteriores puedes ver que no parece haber ningún valor atípico real en los datos.

Puntos de alto apalancamiento

¿Qué hace que un punto de datos de tu muestra sea un punto de alto apalancamiento?

Un punto de apalancamiento alto es aquel que tiene una distancia inusualmente grande entre él y la media.

Un punto de apalancamiento alto puede estar por encima o por debajo de la media. Los puntos de este tipo pueden tener un gran efecto en la regresión lineal.

Puntos influyentes

La influencia es una forma de medir cuánto impacto tiene un valor atípico o un punto de apalancamiento alto en tu modelo de regresión.

Se considera que un punto es influyente si influye indebidamente en alguna parte de tu análisis de regresión, como la línea de mejor ajuste.

Aunque los valores atípicos y los puntos de apalancamiento alto podrían ser puntos influyentes, no siempre lo son. Para saber si un valor atípico o un punto de apalancamiento alto es realmente influyente, tendrías que eliminarlo del conjunto de datos, volver a calcular la regresión lineal y ver cuánto ha cambiado. La mejor forma de comprobarlo es ver si ha cambiado el valor $R^2$.

Para un recordatorio sobre el valor \(R^2), consulta los artículos Regresión lineal y Residuales.

Interpretación geométrica de la suma de cuadrados residuales

Una vez que hayas hecho un diagrama de dispersión de los datos, puedes comprobar si parece lineal. En este caso, puede que lo sea, pero la cuestión es cómo trazar la recta. Como puedes ver en la imagen siguiente, cualquiera de las tres líneas trazadas parece que podría ajustarse bastante bien a los datos.

$Regresión por mínimos cuadrados Diagrama de dispersión que muestra tres posibles líneas a través de los datos StudySmarter$ Fig. 2 - Diagrama de dispersión que muestra tres posibles líneas que atraviesan los datos.

Entonces, ¿qué hace que una recta sea la "mejor" recta? Quieres una recta que se acerque lo más posible al mayor número de puntos de datos de la muestra. Para ello, tienes que fijarte en ladesviación , también llamada residuo. El residuo de un punto de datos es simplemente lo lejos que está el punto de datos de la posible línea de mejor ajuste.

$Diagrama de dispersión de regresión por mínimos cuadrados que muestra la desviación de dos puntos respecto a la recta, uno por encima de la recta y otro por debajo StudySmarter$ Fig. 3 - Diagrama de dispersión que muestra la desviación de dos de los puntos de datos.

Un residuo negativo significa que el punto está por debajo de la recta, y un residuo positivo significa que el punto está por encima de la recta. Si un punto se encuentra exactamente sobre la recta, el residuo sería cero. Como el residuo puede ser positivo o negativo, es habitual mirar el cuadrado del residuo para que las cosas no se anulen accidentalmente.

Definición de la suma residual de cuadrados

Veamos la definición real de la suma residual de cuadrados. Observarás que puede definirse para cualquier recta $y=a+bx$, no sólo para la recta de mejor ajuste.

Para $n$ puntos de datos,

\[(x_1, y_1), (x_2, y_2), \puntos (x_n, y_n),\]

una forma de medir el ajuste de una recta $y=bx+a$ a datos bivariantes es la suma de residuos al cuadrado mediante la fórmula

\[\suma_limits_{i=1}^n (y_i - (a+bx_i))^2.\]

El objetivo es que la suma de los residuos al cuadrado sea lo más pequeña posible.

Para una explicación de por qué la suma de cuadrados residuales es la mejor manera de hacer las cosas, consulta el artículo Minimizar la suma de cuadrados residuales.

Puedes ver el residuo en el punto $(x_i,y_i)$ escrito como $\epsilon_i$.

Fórmula para la suma de cuadrados residual

Ahora puedes definir la recta de mejor ajuste, también conocida como recta de regresión por mínimos cuadrados.

La recta de regresión por mínimos cuadrados es la recta que minimiza la suma de desviaciones al cuadrado respecto a los datos de la muestra.

Aún así, ¡necesitas una forma de encontrar la recta de regresión por mínimos cuadrados! Afortunadamente, otras personas han hecho todos los cálculos para hallar la pendiente y la intersección de la recta. La notación de las fórmulas es

$n$ número de puntos de muestra;
$\bar{x}$ la media de los valores $x_i$; y
\la media de los valores $y_i$.

La pendiente de la recta de regresión por mínimos cuadrados es

\b = \frac {{suma de límites_i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ {{suma de límites_i=1}^n(x_i - \bar{x})^2}. = \frac{S_{xy}}{S_{xx}} ,\]

la intersección \(y) es

\a = \bar{y} - b\bar{x},\}].

y la ecuación de la recta de regresión por mínimos cuadrados es

\[ \hat{y} = a+bx,\\]

donde $\hat{y}) es el valor predicho que resulta de sustituir un \(x$ dado en la ecuación.

$S_{xx}$ y $S_{xy}$ se llaman estadísticos de resumen, y sus fórmulas pueden aparecer dependiendo de las herramientas de aprendizaje que estés utilizando.

Veamos un ejemplo.

Volviendo a la tabla con los pesos y las alturas de los perros, la variable dependiente es la altura (serían los valores $y_i$), y la variable independiente es el peso (serían los valores $x_i$). Hay $24$ puntos de datos en la tabla, así que $n=24$. Puedes calcular

\(barra x = 46,75) y
\(\bar{y} = 19,79\}),

redondeado a dos decimales. Generalmente, utilizarás una hoja de cálculo o una calculadora para hallar los valores de $b$ y $a$, ¡especialmente cuando hay muchos puntos de datos! Aquí

$a =11,69$ y
$b = 0.17$,

donde ambos se han redondeado a dos decimales. Así que la ecuación de la recta de regresión por mínimos cuadrados es

\[ \hat{y} = 11,69 + 0,17x.\}]

$Regresión por mínimos cuadrados Diagrama de dispersión de datos que muestra la línea de mejor ajuste, también conocida como línea de regresión por mínimos cuadrados StudySmarter$ Fig. 4 - Diagrama de dispersión con la recta de mejor ajuste, también conocida como recta de regresión por mínimos cuadrados.

Ahora que tienes una fórmula para la recta, puedes hallar la desviación residual de la suma de cuadrados para esta recta. Utiliza la fórmula

\[\suma_limits_{i=1}^24 (y_i - (a+bx_i))^2 \aprox 160,58.\]

De hecho, el valor $R^2$, también conocido como coeficiente de determinación, es aproximadamente $R^2 = 0,73$, o $73\%$.

Ahora busquemos puntos influyentes.

Volviendo a la tabla de datos,si observas la desviación de cada punto de la muestra, uno de ellos parece contribuir bastante más que los demás a la desviación de la suma de cuadrados. Ese punto de datos es $ (37, 23)$ con una desviación de casi $24$. Eso es considerablemente más que cualquiera de los otros puntos de muestra, siendo el siguiente más alto menos de $12$. Esto implica que el punto de datos $ (37, 23)$ es un punto de gran influencia, pero tienes que demostrar si es o no un punto influyente.

Podría darse el caso de que $ (37, 23)$ sea un punto influyente. Si eliminas ese punto de la muestra y luego calculas el nuevo valor $R^2), obtienes aproximadamente \(0,77$, o $77\%$, con una recta de regresión por mínimos cuadrados de

\[\hat{y} = 11,31 + 0,18x,\\] y una desviación residual de la suma de cuadrados de $135,36$.

Recuerda que el coeficiente de determinación, $R^2$, es una medida de la variabilidad en $y$ que puede explicarse mediante una relación lineal entre $x$ y $y$. Cuanto más cerca de $1$ esté $R^2$, más cerca de la linealidad estarán tus datos muestrales. Así que al eliminar un punto del conjunto de datos, has cambiado el valor de $R^2$ de $73\%$ a $77\%$, ¡lo que supone un gran cambio! Eso significa que el punto de datos $ (37, 23)$ es de hecho un punto influyente.

Recuerda que la variabilidad puede disminuir aumentando el tamaño de la muestra. Para más información, consulta Estimaciones puntuales insesgadas.

Una vez que tienes la recta de regresión por mínimos cuadrados, ¿qué puedes hacer con ella?

Ejemplos de sumas de cuadrados residuales

Hay un par de cosas importantes que debes tener en cuenta cuando utilices la recta de regresión por mínimos cuadrados para hacer una predicción.

La recta de regresión por mínimos cuadrados es un predictor de la población, no de un individuo.
Utilizar la recta de regresión por mínimos cuadrados para hacer una predicción de un valor fuera del rango de los datos recogidos podría no funcionar muy bien.

Veamos un ejemplo del tipo de problemas que pueden producirse cuando se ignoran estas consideraciones.

Fig. 5 - Los bulldogs son un ejemplo de por qué no se puede hacer necesariamente una predicción sobre un individuo a partir de una línea de regresión por mínimos cuadrados.

Volviendo a la información sobre el peso y la altura del perro, y utilizando la recta de regresión por mínimos cuadrados

\[\hat{y} = 11,31 + 0,18x,\\]

¿qué puedes predecir sobre la altura de un bulldog que pesa $65$ libras?

Responde:

Introduciendo simplemente el peso del bulldog, obtienes

\[\hat{y} = 11,31 + 0,18(65) = 23,01,\\]

por lo que la recta de regresión por mínimos cuadrados predice que el bulldog mediría $23,01$ pulgadas. Sin embargo, un bulldog de este peso medirá en realidad unos $15$ centímetros, ¡lo cual es una gran diferencia! Éste es un ejemplo de por qué puedes utilizar la recta de regresión por mínimos cuadrados para hacer una predicción sobre los perros en general (es decir, la población de perros) y no sobre perros concretos.

¿Qué pasa con un perro que pesa más de $100$ libras?

Regresión por mínimos cuadrados los perros bull mastiff son uno a una piscina de tamaño infantil StudySmarter Fig. 6 - ¡Los perros bull mastiff son definitivamente uno para una piscina infantil!

Un perro macho bull mastiff puede pesar fácilmente $130$ libras. Esto está fuera del rango de los datos recogidos en la tabla. Cuando utilizas la recta de regresión por mínimos cuadrados para hacer una predicción, descubres que un perro bull mastiff debe pesar

\[\hat{y} = 11,31 + 0,18(130) = 34,71\, \text{in},\].

de altura. Sin embargo, en general, este perro no medirá más de $27$ pulgadas, ¡lo que es bastante menos de lo que predice la línea de regresión por mínimos cuadrados! Esto se debe a que el peso del perro está bastante fuera de los datos recogidos, por lo que la línea de regresión por mínimos cuadrados no es un buen predictor.

Suma residual de cuadrados - Puntos clave

El residuo de un punto de datos es lo lejos que está el punto de datos de la posible línea de mejor ajuste. La desviación puede ser positiva o negativa.
Para $n$ puntos de datos,
\[(x_1, y_1), (x_2, y_2), \ puntos (x_n, y_n),\]
una forma de medir el ajuste de una recta $y=mx+b$ a datos bivariantes es la suma residual de desviaciones al cuadrado mediante la fórmula
\[\suma_limits_{i=1}^n (y_i - (a+bx_i))^2.\]
La recta de regresión por mínimos cuadrados es la recta que minimiza la suma de cuadrados residual.
La pendiente de la recta de regresión por mínimos cuadrados es
\[ \begin{align} b &=\frac{S_{xy}}{S_{xx}} \\ & = \frac {{suma límites_i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ {{suma límites_i=1}^n(x_i - \bar{x})^2, \final}].
la intersección $y) es
\a = \bar{y} - b\bar{x},\}]
y la ecuación de la recta de regresión por mínimos cuadrados es
\[ \hat{y} = a+bx,\\]
donde \(\hat{y}$ es el valor predicho que resulta de sustituir un $x$ dado en la ecuación.

Tarjetas en La Suma Residual de los Cuadrados 11

Empieza a aprender

Verdadero o Falso: Cuanto más cerca de $1$ esté $R^2$, más cerca de la linealidad estarán tus datos muestrales.

Cierto.

Verdadero o Falso: El coeficiente de determinación, $R^2$, es una medida de la variabilidad en $y$ que puede explicarse por una relación lineal entre $x$ y $y$.

Cierto.

Verdadero o falso: la recta de regresión por mínimos cuadrados es la única forma de hacer una predicción sobre una población.

Falso.

¿En cuál de estos casos no debes utilizar la recta de regresión por mínimos cuadrados para hacer una predicción?

Cuando quieras saber sobre un individuo.

¿Qué afirmación es cierta sobre el residuo de un punto de muestra?

Puede ser positivo o negativo.

¿Qué fórmula da la pendiente de una recta de regresión por mínimos cuadrados?

\(b = \dfrac{S_{xy}}{S_{xx}}}}\}).

Regístrate con email

¿Ya tienes una cuenta? Iniciar sesión

Preguntas frecuentes sobre La Suma Residual de los Cuadrados

¿Qué es la Suma Residual de los Cuadrados?

La Suma Residual de los Cuadrados mide la discrepancia entre los valores observados y los valores previstos en un modelo estadístico.

¿Cómo se calcula la Suma Residual de los Cuadrados?

La Suma Residual de los Cuadrados se calcula sumando los cuadrados de las diferencias entre los valores observados y los valores previstos.

¿Para qué se usa la Suma Residual de los Cuadrados?

La Suma Residual de los Cuadrados se usa para evaluar la precisión de un modelo estadístico en ajuste de datos.

¿Por qué es importante la Suma Residual de los Cuadrados?

La Suma Residual de los Cuadrados es importante porque ayuda a determinar cuánto se desvían los datos observados del modelo previsto.

Guardar explicación

Pon a prueba tus conocimientos con tarjetas de opción múltiple

Puntuación

Accede a más de 700 millones de materiales de aprendizaje

Estudia de manera más eficiente con tarjetas de memoria

Mejora tus calificaciones con IA

¿Ya tienes una cuenta? Inicia sesión

Descubre materiales de aprendizaje con la aplicación gratuita StudySmarter

Regístrate gratis

Acerca de StudySmarter

StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.

Aprende más

Equipo editorial StudySmarter

Equipo de profesores de Matemáticas

Tiempo de lectura de 13 minutos
Revisado por el equipo editorial de StudySmarter

Guardar explicación

Peso	Altura	Peso	Altura	Peso	Altura
\(10\)	\(10\)	\(75\)	\(23\)	\(12\)	\(12\)
\(63\)	\(25\)	\(80\)	\(25\)	\(45\)	\(22\)
\(60\)	\(23\)	\(20\)	\(15\)	\(50\)	\(18\)
\(100\)	\(26\)	\(46\)	\(24\)	\(36\)	\(17\)
\(6\)	\(12\)	\(62\)	\(23\)	\(95\)	\(27\)
\(48\)	\(20\)	\(45\)	\(18\)	\(34\)	\(24\)
\(40\)	\(19\)	\(32\)	\(17\)	\(57\)	\(21\)
\(50\)	\(21\)	\(19\)	\(10\)	\(37\)	\(23\)

La Suma Residual de los Cuadrados

Equipo editorial StudySmarter