Saltar a un capítulo clave
En un análisis de regresión se demuestra si otras variables influyen en una determinada variable (dependiente), aunque se sabe que determinadas variables concretas (explicativas) pueden tener relación o explicarla. Esto se explica mediante un concepto llamado residuos. Veamos los residuales en esta lección.
Los residuos en matemáticas
Por ejemplo, suponiendo que quieras averiguar cómo afectan los cambios climáticos al rendimiento de una explotación. Puedes especificar variables climáticas en el modelo, como las precipitaciones y la temperatura. Sin embargo, otros factores como el tamaño de la tierra cultivada y el uso de fertilizantes, entre otros, también afectan al rendimiento de la explotación. De ahí que la pregunta sea: "¿predice el modelo con exactitud el nivel de rendimiento teniendo en cuenta los cambios climáticos como variable explicativa?". Entonces, ¿cómo se mide el impacto de un factor determinado? Veamos una definición breve e informal de residuo.
Para cualquier observación, el residuo de esa observación es la diferencia entre el valor predicho y el valor observado.
Puedes apoyarte en el tamaño del residuo para informarte sobre lo bueno que es tu modelo de predicción. Eso significa que consideras el valor del residuo para explicar por qué la predicción no es precisamente como lo real.
En matemáticas, el valor residual se suele utilizar en términos de activos y en estadística (básicamente, en análisis de regresión, como se ha comentado en apartados anteriores). El valor de un activo tras un tiempo de uso determinado explica el valor residual del activo.
Por ejemplo, el valor residual del alquiler de una máquina de fábrica durante \(10\) años, es cuánto valdrá la máquina al cabo de \(10\) años. Esto puede denominarse valor de salvamento o valor de desecho del activo. Por tanto, cuánto vale un activo tras su plazo de arrendamiento o vida productiva/útil.
Así pues, formalmente puedes definir los residuales como sigue.
Definición de residuo
El residuo es la distancia vertical entre el punto observado y el punto predicho en un modelo de regresión lineal. El residuo se denomina término de error en un modelo de regresión, aunque no es un error, sino la diferencia de valor. He aquí la definición más formal de un residuo en términos de una recta de regresión.
La diferencia entre el valor real de una variable dependiente y su valor previsto asociado a partir de una línea de regresión (línea de tendencia) se denomina residuo. El residuo se denomina término de error en un modelo de regresión. Mide la precisión con la que se estimó el modelo con las variables explicativas.
Matemáticamente, puedes estimar el residuo deduciendo los valores estimados de la variable dependiente \((\hat{y})\) de los valores reales dados en un conjunto de datos \((y)\).
Para un recordatorio sobre las rectas de regresión y cómo utilizarlas, consulta los artículos Correlación lineal, Regresión lineal y Regresión por mínimos cuadrados
El residuo se representa por \(\varepsilon \). Eso significará
\[\varepsilon =y-\hat{y}.\]
El valor predicho \((\hat{y})\) se obtiene sustituyendo los valores \(x\) en la recta de regresión por mínimos cuadrados.
En el gráfico anterior, el hueco vertical entre un punto de datos y la línea de tendencia se denomina residuo. El punto en el que se fija el punto de datos determina si el residual será positivo o negativo. Todos los puntos por encima de la línea de tendencia muestran un residuo positivo y los puntos por debajo de la línea de tendencia indican un residuo negativo.
Residual en regresión lineal
Para simplificar, veamos los residuos de los datos bivariantes. En la regresión lineal, incluyes el término residual para estimar el margen de error en la predicción de la recta de regresión que pasa por los dos conjuntos de datos. En términos sencillos, los residuales explican o se hacen cargo de todos los demás factores que pueden influir en la variable dependiente de un modelo, aparte de lo que establece el modelo.
Los residuales son una forma de comprobar los coeficientes de regresión u otros valores en la regresión lineal. Si los residuales trazan algunos patrones no deseados, entonces no se puede confiar en algunos valores de los coeficientes lineales.
Debes hacer las siguientes suposiciones sobre los residuales para cualquier modelo de regresión:
Suposiciones de los residuos
Tienen que ser independientes: ningún residuo de un punto influye en el valor residual del punto siguiente.
Se supone una varianza constante para todos los residuales.
El valor medio de todos los residuos de un modelo debe ser igual a \(0\).
Los residuos deben distribuirse normalmente/seguir una distribución normal: si se representan gráficamente, se obtiene una línea recta si se distribuyen normalmente.
Ecuación residual en matemáticas
Dado el modelo de regresión lineal que incluye el residuo para la estimación, puedes escribir
\[y=a+bx+\varepsilon ,\\]
donde \(y\) es la variable de respuesta (variable independiente), \(a\) es la intercepción, \(b\) es la pendiente de la recta, \(x\) es
la variable explicativa (variable dependiente) y \(\varepsilon\) es el residuo.
Por tanto, el valor predicho de \(y\) será:
\[\que{y} = a+bx .\\]
Entonces, utilizando la definición, la ecuación residual del modelo de regresión lineal es
\[\varepsilon =y-\hat{y}\]
donde \(\varepsilon) representa el residuo, \(y\) es el valor real y \(\hat{y}\) es el valor predicho de y.
Para \(n\) observaciones de datos, puedes representar los valores predichos como
\[ \begin{align}\hat{y}_1&=a+bx_1 \\ \hat{y}_2&=a+bx_2 \ &\vdots \ \hat{y}_n&=a+bx_n\\end{align}\]
Y con estas cantidades \(n\) predichas, los residuos pueden escribirse como
\[ \begin{align}\varepsilon _1&=y_1-\hat{y}_1 \ \varepsilon _2&=y_2-\hat{y}_2 \ &\vdots \ \varepsilon _n&=y_n-\hat{y}_n \ \end{align}\]
Esta ecuación para los residuos te será útil para hallar los residuos de cualquier dato dado. Ten en cuenta que el orden de sustracción es importante para hallar los residuos. Siempre es el valor predicho el que se resta del valor real. Es decir
residuo = valor real - valor predicho.
Cómo hallar residuos en matemáticas
Como has visto, los residuos son errores. Por lo tanto, quieres averiguar la exactitud de tu predicción a partir de las cifras reales teniendo en cuenta la línea de tendencia. Para hallar el residuo de un punto de datos
En primer lugar, conoce los valores reales de la variable considerada. Pueden presentarse en forma de tabla.
En segundo lugar, identifica el modelo de regresión que hay que estimar. Encuentra la línea de tendencia.
A continuación, utilizando la ecuación de la línea de tendencia y el valor de la variable explicativa, halla el valor predicho de la variable dependiente.
Por último, resta el valor estimado del real dado.
Esto significa que si tienes más de un punto de datos; por ejemplo, \(10\) observaciones para dos variables, estarás estimando el residuo para todas las \(10\) observaciones. Es decir, \(10\) residuos.
Se considera que el modelo de regresión lineal es un buen predictor cuando todos los residuos suman \(0\).
Puedes entenderlo más claramente viendo un ejemplo.
Una planta de producción produce un número variable de lápices por hora. La producción total viene dada por
\[y=50+0,6x ,\\]
donde \(x\) es el input utilizado para producir lápices y \(y\) es el nivel de producción total.
Halla los residuos de la ecuación para el siguiente número de lápices producidos por hora:
\(x\) | \(500\) | \(550\) | \(455\) | \(520\) | \(535\) |
\(y\) | \(400\) | \(390\) | \(350\) | \(355\) | \(371\) |
Tabla 1. Residuos del ejemplo.
Solución:
Dados los valores de la tabla y la ecuación \(y=50+0,6x\), puedes proceder a hallar los valores estimados sustituyendo los valores de \(x\) en la ecuación para hallar el correspondiente valor estimado de \(y\).
\(X\) | \(Y\) | \(y=50+0,6x\) | \(\varepsilon =y-\hat{y}\) |
\(500\) | \(400\) | \(350\) | \(50\) |
\(550\) | \(390\) | \(380\) | \(10\) |
\(455\) | \(350\) | \(323\) | \(27\) |
\(520\) | \(355\) | \(362\) | \(-7\) |
\(535\) | \(365\) | \(365\) | \(0\) |
Tabla 2. Valores estimados.
Los resultados para \(\varepsilon =y-\hat{y}\) muestran que la línea de tendencia infrapredijo los valores de \(y\) para \(3\) observaciones (valores positivos), y sobrepredijo para una observación (valor negativo). Sin embargo, una observación se predijo con exactitud (residuo = \(0\)). Por tanto, ese punto se situará en la línea de tendencia.
A continuación puedes ver cómo trazar los residuales en el gráfico.
Gráfico de residuos
El gráfico de residuos mide la distancia que separa los puntos de datos de la línea de tendencia en forma de gráfico de dispersión. Se obtiene trazando los valores residuales calculados frente a las variables independientes. El gráfico te ayuda a visualizar hasta qué punto la línea de tendencia se ajusta al conjunto de datos dado.
El gráfico de residuales deseable es el que no muestra ningún patrón y los puntos están dispersos al azar. Puedes ver en el gráfico anterior que no hay ningún patrón específico entre los puntos, y que todos los puntos de datos están dispersos.
Un valor residual pequeño da lugar a una línea de tendencia que se ajusta mejor a los puntos de datos y viceversa. Por tanto, valores mayores de los residuales sugieren que la línea no es la que mejor se ajusta a los puntos de datos. Cuando el residuo es \(0\) para un valor observado, significa que el punto de datos está precisamente en la línea de mejor ajuste.
A veces, un gráfico de residuos puede ser bueno para identificar posibles problemas en el modelo de regresión. Puede mostrar mucho más fácilmente la relación entre dos variables. Los puntos muy por encima o por debajo de las líneas horizontales en los gráficos de residuos muestran el error o un comportamiento inusual en los datos. Y algunos de estos puntos se denominan valores atípicos respecto a las líneas de regresión lineal.
Ten en cuenta que la recta de regresión puede no ser válida para un intervalo más amplio de \(x\), ya que a veces puede dar predicciones pobres.
Considerando el mismo ejemplo anterior, puedes trazar los valores residuales a continuación.
Utilizando los resultados del ejemplo de la producción de lápices para el gráfico de residuos, puedes ver que la distancia vertical de los residuos respecto a la recta de mejor ajuste es cercana. Por tanto, puedes visualizar que, la recta \(y=50+0,6x\) es un buen ajuste para los datos.
A continuación, puedes ver cómo resolver el problema de los residuos para distintos escenarios.
Ejemplos de residuos en matemáticas
Puedes comprender mejor cómo calcular los residuos siguiendo los ejemplos de residuos que te presentamos a continuación.
El dependiente de una tienda gana \(\$800,00\) al mes. Suponiendo que la función de consumo de este dependiente viene dada por \(y=275+0,2x\), donde \(y\) es el consumo y \(x\) es la renta. Suponiendo además que el dependiente gasta \(\$650\) al mes, determina el residuo.
Solución:
En primer lugar, tienes que hallar el valor estimado o predicho de \(y\) utilizando el modelo \(y=275+0,2x\).
Por tanto, \[\que{y}=275+0,2(800) =\$435.\]
Dado \(\varepsilon =y-\hat{y}\), puedes calcular el residuo como:
\[\varepsilon =\$650-\$435 =\$215 .\]
Por tanto, el residuo es igual a \(\$215\). Esto significa que has predicho que el dependiente gasta menos (es decir, \(\$435\)) de lo que gasta realmente (es decir, \(\$650\)).
Considera otro ejemplo para hallar los valores predichos y los residuales de los datos dados
La función de producción de una fábrica sigue la función \(y=275+0,75x\). Donde \(y\) es el nivel de producción y \(x\) es el material utilizado en kilogramos. Suponiendo que la empresa utiliza \(1000\, kg\) de insumo, halla el residuo de la función de producción.
Solución:
La empresa utiliza \(1000kg\) de insumo, por lo que también será el valor real \(y\). Quieres hallar el nivel de producción estimado. Así que
\[ \begin{align}\hat{y}&=275+0,75x \ &=275+0,75(1000) \ &=1025 . \\ \end{align}\]
Luego puedes estimar el residuo o error de predicción:
\[ \begin{align}\varepsilon &=y-\hat{y} \\ &=1000-1025 \\ &=(-)25\, kg .\ \end{align}\]
Por tanto, el nivel de salida previsto es mayor que el nivel real de \(1000kg\) en \(25kg\).
El siguiente ejemplo mostrará el trazado de los residuos en el gráfico.
Sam recopiló datos sobre el tiempo empleado en estudiar y las puntuaciones obtenidas tras el examen de la clase. Halla los residuos del modelo de regresión lineal \(y=58,6+8,7x\). Traza también los residuos en el gráfico.
Tiempo de estudio \((x)\) | \(0.5\) | \(1\) | \(1.5\) | \(2\) | \(2.5\) | \(3\) | \(3.5\) |
Puntuaciones en las pruebas \((y)\) | \(63\) | \(67\) | \(72\) | \(76\) | \(80\) | \(85\) | \(89\) |
Tabla 3. Ejemplo de tiempo de estudio.
Solución:
Puedes crear una tabla con los datos anteriores y calcular los valores predichos mediante \(y=58,6+8,7x\).
Tiempo de estudio \((x)\) | Resultados de los exámenes \((y)\) | Valores predichos (\(\hat{y}=58,6+8,7x\)) | Residuales (\(\varepsilon =y-\hat{y}\)) |
\(0.5\) | \(63\) | \(62.95\) | \(0.05\) |
\(1\) | \(67\) | \(67.3\) | \(-0.3\) |
\(1.5\) | \(72\) | \(71.65\) | \(0.35\) |
\(2\) | \(76\) | \(76\) | \(0\) |
\(2.5\) | \(80\) | \(80.35\) | \(-0.35\) |
\(3\) | \(85\) | \(84.7\) | \(0.3\) |
\(3.5\) | \(89\) | \(89.05\) | \(-0.05\) |
Tabla 4. Ejemplo con datos de tiempo de estudio, resultados de exámenes, valores predichos y residuales.
Utilizando todos los residuales y los valores \(x\), puedes hacer el siguiente gráfico de residuales.
Residuos - Puntos clave
- La diferencia entre el valor real de una variable dependiente y su valor previsto asociado a partir de una línea de regresión (línea de tendencia) se denomina residuo.
- Todos los puntos por encima de la línea de tendencia indican un residuo positivo y los puntos por debajo de la línea de tendencia indican un residuo negativo.
- Los residuales son una forma de comprobar los coeficientes de regresión u otros valores en la regresión lineal.
- Entonces la ecuación residual es, \(\varepsilon =y-\hat{y}\).
- El valor predicho de \(y\) será \(\hat{y} = a+bx\) para la regresión lineal \(y=a+bx+\varepsilon \).
- A veces, un gráfico de residuos puede ser bueno para identificar posibles problemas en el modelo de regresión.
Aprende más rápido con las 7 tarjetas sobre residuos
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre residuos
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más