Saltar a un capítulo clave
¿Puedes utilizar estos datos para predecir la nota de alguien basándote en el número de horas estudiadas?
Utilizando la regresión lineal, es realmente posible hacer una estimación razonable basándose en datos anteriores. Este artículo te mostrará cómo encontrar la recta de Regresión Lineal por Mínimos Cuadrados para hacer predicciones basadas en datos ya recogidos.
Explicación de la regresión lineal por mínimos cuadrados
Al analizar datos bivariantes, tienes dos variables: la variable dependiente o de respuesta , normalmente denominada \(y\), y la variable independiente o explicativa , normalmente denominada \(x\).
Cuando \(y\) es la variable dependiente y \(x\) es la variable independiente, puedes decir "\(y\) depende de \(x\)".
Supongamos que has recogido datos sobre dos variables \(y\) y \(x\) en los que el resultado de \(y\) depende de \(x\). También parece existir una relación lineal entre las variables. ¿Qué harías para predecir un valor de \(y\) para un valor dado de \(x\)?
En GCSE, puede que tuvieras que trazar una recta de mejor ajuste en la que utilizarías tu propio juicio para determinar en qué "dirección" iban los datos. La recta de regresión de mínimos cuadrados hace esto matemáticamente.
Una recta de regresión por mínimos cuadrados se utiliza para predecir los valores de la variable dependiente para una determinada variable independiente cuando se analizan datos bivariantes.
Residuales
Si has visto algún dato bivariable, sabrás que muy raramente los puntos de los datos caen exactamente a lo largo de una línea recta, aunque haya una "relación" lineal confirmada entre las variables.
Puede haber varias razones para estas imprecisiones (es decir, otros factores que afecten a la variable dependiente o lecturas imprecisas al recoger los datos). Hay tantos factores y causas posibles de estas imprecisiones que puedes suponer que son totalmente aleatorias.
En la imagen siguiente, puedes ver una "línea de mejor ajuste" para los puntos de datos \((x_1,y_1)\), \((x_2,y_2)\), \((x_3,y_3)\) y \((x_4,y_4)\). Observa que la recta no toca ninguno de estos puntos.
La diferencia vertical entre estos puntos y la línea de mejor ajuste está etiquetada con \(\epsilon _1\), \(\epsilon _2\), \(\epsilon _3\) y \(\epsilon _4\). Son los residuos asociados a cada punto de datos.
La diferencia entre la variable dependiente observada (\(y_i\)) y la variable dependiente predicha \(x_i\) se denomina residuo (\(\epsilon _i\)).
Aunque estos residuos significan que la predicción no es exacta al 100%, en realidad son cruciales para hallar la recta de regresión por mínimos cuadrados: minimizando los cuadrados de estos residuos. De ahí el nombre de" regresión por mínimos cuadrados".
La recta de regresión por mínimos cuadrados de \(y\) sobre \(x\) es la que minimiza la suma de los cuadrados de los residuos,
$$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$
donde \(\epsilon _i\) es el residuo del punto de datos \((x_i,y_i)\).
Método de regresión lineal por mínimos cuadrados
El método de regresión lineal por mínimos cuadrados se utiliza para hallar la recta de regresión. El objetivo principal de este método es minimizar la suma de los cuadrados de los residuos de los puntos de datos de un conjunto de datos.
Obtención de la recta de regresión lineal por mínimos cuadrados
Aunque pueda parecer complicado, en realidad encontrar la recta de regresión es bastante sencillo.
Como para encontrar cualquier línea recta en matemáticas, necesitas dos cosas: una \(y\)-intercepción y una pendiente. Por suerte, existe una fórmula sencilla para encontrarlas.
Fórmula de regresión lineal por mínimos cuadrados
La recta de regresión de \(y\) sobre \(x\) es
$$y=ax+b$$
donde \(a=\dfrac{S_{xy}}{S_{xx}}) y \(b=\bar{y}-a\bar{x}}), donde
$$S_{xy}=suma x_iy_i - \dfrac{suma x_i \suma y_i}{n}$$ $$S{xx}=suma x_i^2 - \dfrac{(\suma x_i)^2}{n}$$ $$S{yy}=suma y_i^2 - \dfrac{(\suma y_i)^2}{n}$$
Los estadísticos de resumen \(S_{xy}\), \(S_{xx}\) y \(S_{yy}\) te los pueden dar en un examen, o también puedes tener que hallarlos a partir de los datos brutos utilizando una calculadora.
Ejemplo resuelto de Regresión lineal por mínimos cuadrados
Ahora estás preparado para aplicar este método a una posible pregunta de examen.
El número de horas que estudiaron los alumnos y sus resultados en el examen se registran en la tabla siguiente.
Tiempo estudiado en horas | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
Resultado del examen | \(49\) | \(81\) | \(71\) | \(83\) | \(99\) |
a. Calcula \(S_{xy}\) y \(S_{xx}\).
b. Halla la recta de regresión de \(y\) sobre \(x\).
c. Traza los puntos de datos y la recta de regresión en la misma gráfica.
d. Interpreta el significado de \(a=10,2\) y \(b=46\) en el contexto de la pregunta.
e. Predice la nota de un alumno que estudia durante
i) \(2,5\) horas
ii) \(8\) horas.
f. Comenta tus respuestas de la parte e).
Solución
a. Utilizando tu calculadora, puedes hallar fácilmente los siguientes resultados,
\(\suma x=15\) \(\suma x^2=55\) \(\bar{x}=3\) \(\suma xy=1,251\) \(\suma y=383\) \(\suma y^2=30,693\) \(\bar{y}=76,6\).
Basta con introducir estos resultados en las fórmulas detalladas anteriormente para obtener las estadísticas resumidas.
\S_{xx} &={xx}. S_{xx} &=suma x^2 - dfrac{(\suma x)^2}{n} = 55 - = 15^2} {5} \\&= 10. \fin)
\ ( \begin{align} S_{xy} &= suma xy - suma y...n...n...n...n...n...n...n...n...n...n...n...n...n...n...n...n... = 1251 - 15 veces 383...5...n... \\&= 102. \fin)
b. A partir de \(a\), el gradiente de la recta,
\[a=\dfrac{S_{xy}}{S_{xx}}=\frac{102}{10}=10.2.\]
Entonces, la intersección \(y) es
\(b=barra{y}-abarra{x}=76,6-10,2 veces 3=46).
Por tanto, la recta de regresión es \(y=10,2x+46\).
c. Esta es una buena pregunta para comprobar tu trabajo: ¡será bastante obvio si has cometido algún error grave de cálculo!
d. Como \(a=10,2\), por cada hora extra que aumente a lo largo del eje \(x\), el alumno obtendrá \(10,2\) puntos más en el examen.
Como \(b=46\), si un alumno no estudiara nada, seguiría recibiendo (según la recta de regresión) 46 puntos.
e. Introduce los números anteriores para \(x\).
i) Si \(x=2,5\), \(y=10,2\times 2,5+46=71,5\).
ii) Si \(x=8\), \(y=10,2\veces 8+46=127,6\).
f. Hay un problema fundamental para la parte ii): como los exámenes se califican en porcentajes, ¡la nota \(127,6\) no existe! La verdad es que, para cualquier cantidad de tiempo superior a 5 horas, los datos no tienen ninguna información sobre lo que ocurre con las notas de los alumnos.
Aunque podrías deducir que para cualquier cantidad de tiempo superior a 5 horas, el 100% sería una buena predicción, esto está fuera del alcance de los datos y del modelo de regresión lineal.
Debes tener en cuenta que el uso de una recta de regresión sólo debe utilizarse para predecir los valores que se encuentran dentro del intervalo de los datos de los que se deriva dicha recta de regresión, es decir, la interpolación.
Si intentas hacer predicciones fuera de este rango, se llamaría extrapolación y es menos fiable, ya que los datos pueden comportarse de forma diferente.
¡Lo más difícil en este tema es asegurarte de que introduces los números correctos en tu calculadora! Asegúrate de comprobar dos veces tus cálculos en el examen para no perder puntos fáciles.
Regresión lineal por mínimos cuadrados - Aspectos clave
- Una recta de regresión por mínimos cuadrados se utiliza para predecir los valores de la variable dependiente para una determinada variable independiente cuando se analizan datos bivariantes.
- La diferencia entre la variable dependiente observada (\(y_i\)) y la variable dependiente predicha se denomina residuo (\(\epsilon _i\)).
- La recta de regresión por mínimos cuadrados de de \(y\i) sobre \(x\i) es la que minimiza la suma de los cuadrados de los residuos:
$$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$
donde \(\epsilon _i\) es el residuo del punto de datos \((x_i,y_i)\).
La recta de regresión de \(y\) sobre \(x\) es
$$y=ax+b$$
donde \(a=\dfrac{S_{xy}}{S_{xx}}) y \(b=\bar{y}-a\bar{x}}).
- Los estadísticos de resumen son:
\(S_{xy}=suma xy - \dfrac{\suma x \suma y}{n})
\(S_{xx}=suma x^2 - dfrac{(suma x)^2}{n})
\(S_{yy}=suma y^2 - \dfrac{(suma y)^2}{n})
Aprende más rápido con las 8 tarjetas sobre Regresión Lineal de Mínimos Cuadrados
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre Regresión Lineal de Mínimos Cuadrados
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más