Iniciar sesión Empieza a estudiar
La app de estudio todo en uno
4.8 • +11 mil reviews
Más de 3 millones de descargas
Free
|
|

Regresión lineal

Regresión lineal

Supongamos que tienes una serie de datos que miden cuánto tiempo tarda en llegar el autobús. En la tabla de la estación nos dice que el autobús pasa cada 30 minutos. Pero, esto no siempre es exacto, porque puede haber contratiempos, tráfico o que el autobús esta vez vaya un poco más rápido. Por eso, llegará con una cierta variación cada vez (por más leve que sea).

Podemos ver un ejemplo en al siguiente gráfica:

Regresión lineal datos StudySmarterFig. 1. El tiempo que tarda en llegar el autobús es de \(t=0,5\) horas; mientras tanto, las ocasiones numeradas como \((A, B, C, D)\) muestran que el autobús llega alrededor de cada media hora, pero como hemos visto, no es exacto.

Estas variaciones forman una dispersión de datos alrededor de \(0,5\).

La dispersión de datos, en estadística, es la medida en la cual los datos recopilados varían con respecto a un valor central o esperado.

Podría darse el caso en el que la dispersión se da, no en un valor constante, sino en un valor variable, creciente o decreciente. Si, por ejemplo, cada vez que pasa el autobús tardase diez minutos más, el valor aumentaría; además, no sabemos de antemano cuánto tarda o cuánto aumenta. Por tanto, lo único que podríamos hacer es recabar datos y representarlos para averiguar la relación cada vez que pasa el autobús y cómo aumenta el tiempo.

Esto se puede ver en la gráfica siguiente:

Regresión lineal dispersion StudySmarterFig. 2. Datos que muestran el tiempo que tarda en llegar un autobús. El valor esperado es \(y=0,5h\), pero los datos varían, porque hay valores mínimos y máximos. Esta variación es la dispersión.

En estos casos, no sabremos la relación entre las variables; pero, podríamos averiguarla usando un método estadístico denominado regresión lineal.

Ajuste lineal o regresión lineal

En estadística y matemáticas, el ajuste o regresión lineal es un método que usarás para averiguar la relación lineal entre dos variables: \(y\) es la variable dependiente y \(x\) es la variable independiente.

En el ajuste lineal se tienen \(n\) datos; por ejemplo, \(n=\{1{,}24, 2{,}2, 2{,}68, 3{,}91, 4{,}43, 6{,}2\}\), que son la respuesta de un experimento, sistema o modelo. Cada respuesta corresponde a una entrada; por ejemplo, \(x=\{1, 2, 3, 4, 5, 6\}\).

Una gráfica de estos nos daría lo siguiente:

Regresión lineal recta StudySmarterFig. 3. Datos que se ajustan a una recta de tipo \(y=ax+b\).

Como se puede ver, la relación es casi lineal; pero, hay cierta dispersión entre los datos, si lo comparamos con la recta \(y=x\). La regresión lineal, en este caso, nos permite encontrar una función del tipo lineal \(y=mx+b\), que sea cercana a todos los datos que tenemos.

Normalmente, en muchos casos no se conoce la función \(f(x)\), por lo que en usamos \(y=x\) por facilidad. Pero, incluso con estos datos tan cercanos, es posible que la recta que encontremos sea del tipo \(y=ax+b\), con valores que hacen que sea cercana a \(y=x\).

Los métodos de regresión lineal no nos dan una idea fidedigna de la función, pero nos dan una relación muy cercana a la original. Muchas veces, después de la regresión lineal, se requiere trabajo de deducción para llegar a una función analítica.

Una función analítica es aquella que modela exactamente \(y\), en términos de \(x\).

Mínimos cuadrados

Un método clásico para hacer un ajuste lineal es el de de mínimos cuadrados.

El método de mínimos cuadrados es un método de regresión, o ajuste lineal, que busca reducir el valor de la suma del cuadrado, las distancias entre los datos y una recta que debe representar estos datos.

Por ejemplo, si la recta que buscamos predice que el valor de \(y\) debe ser \(4\), pero el valor que obtenemos es \(y_{exp}=4,1\), la distancia \((4-4,1)^2\), sumada a las otras distancias, debe ser un valor mínimo para que esta línea sea óptima.

Lo que busca este método es minimizar la función error cuadrático medio \(\text{ECM}\) que viene dada por:

\[\text{ECM}=\sum_{i=1}^n (y_i-a-bx_i)^2\]

Esta función es mínima donde su derivada sea igual a \(0\). Haciendo estos cálculos se llega a las expresiones para calcular los coeficientes \(a\) y \(b\):

\[a=\dfrac{\displaystyle \sum_{i=1}^n x_iy_i-n\bar{x}\bar{y}} {\displaystyle\sum_{i=1}^n{x^2}-\dfrac{1}{n}\left(\sum_{i=1}^n{x}\right)^2}\]

\[b=\bar{y}-a\bar{x}\]

Donde \(\bar{x}\) es la media aritmética de los datos en \(x\) y \(\bar{y}\) es la media aritmética de los datos de \(y\).

Estas medias se calculan como \(\bar{x}=\dfrac{1}{n}\sum x_i\) y \(\bar{y}=\dfrac{1}{n}\sum y_i\).

Con todo esto, la recta de regresión lineal queda como:

\[\hat{y}=ax+b\]

Coeficiente de correlación o R

Un número importante nos dice qué tan correcta es la recta encontrada en el coeficiente de correlación, también conocido como \(R\). Este coeficiente se calcula usando la siguiente fórmula:

\[R=\dfrac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})} {\displaystyle\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} \sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}\]

Aquí \(x_i\) y \(y_i\) son los datos y \(\bar{x}\) e \(\bar{y}\) son la media de ambos.

El valor del coeficiente de correlación se mide entre \(R=-1\) y \(R=1\).

Coeficiente de determinación y el residuo

Si se eleva el valor de \(R\) al cuadrado, se obtiene una forma alternativa del coeficiente de correlación llamada, el coeficiente de determinación \(R^2\).

Además de esto hay otro valor importante que es la varianza residual; esta es igual a:

\[\dfrac{\sum (y_i - y_i’)^2}{n}\]

Aquí \(y_i\) son los valores predichos por la recta ajustada y \(y_i’\) son los valores del experimento, o los datos recabados; \(n\) es el número total de datos.

Cabe decir que mientras \(R^2\) sea más cercano a 1, la recta representa los datos de manera más cercana. También es importante decir que en un experimento aleatorio o con datos aleatorios que sigan un patrón lineal es prácticamente imposible que se obtenga un valor de \(R^2=1\), ya que hay errores que desviarán los datos.

Regresión lineal ejemplos

Hagamos un par de ejemplos, para que practiques la regresión lineal.

Se tiene el siguiente conjunto de datos:

\[y=\{2{,}2, 3{,}8, 6{,}3, 7{,}8\}\]

\[x=\{2, 4, 6, 8\}\]

Ajusta a una recta del tipo \(y=ax+b\) usando el método de mínimos cuadrados.

Solución:

Primero, debemos calcular cada parte de la fórmula:

\[a=\dfrac{\displaystyle \sum_{i=1}^n x_iy_i-n\bar{x}\bar{y}} {\displaystyle\sum_{i=1}^n{x^2}-\dfrac{1}{n}\left(\sum_{i=1}^n{x}\right)^2}\]

\[b=\bar{y}-a\bar{x}\]

Luego, calculamos las medias:

\[\bar{x}=\dfrac{2+4+6+8}{4}=5\]

\[\bar{y}=\dfrac{2{,}2+3{,}8+6{,}3+7{,}8}{4}=5{,}025\]

Si hacemos los sumatorios y sustituimos, obtenemos:

\[a=\dfrac{ 119{,}8-4·5·5{,}025}{120-100}\]

Y esto nos da:

\[a=0{,}965\]

Ahora, para calcular \(b\), usamos:

\[b=\bar{y}-a\bar{x}\]

Sustituyendo estos valores, tenemos:

\[b=5{,}025-0{,}965·5=0{,}2\]

Esto nos da la función:

\[y=0{,}965x+0{,}200\]

Como podemos ver, esto es una recta que es casi igual a \(y=x\). Esto está representado en la gráfica de la función:

Regresión lineal recta StudySmarterFig. 4. Ajuste lineal de los datos para el ejemplo en el que estos forman la recta de regresión \(\hat{y}=0{,}965x+0{,}200\).

Calcula el residuo del ajuste lineal de los siguientes datos:

\[y=\{4{,}5, 6{,}7, 7{,}4, 8{,}7, 9{,}6\}\]

\[x=\{1, 2, 3, 4, 5\}\]

Donde la recta ajustada es \(y= 1{,}22x+3{,}72\).

Solución:

Para poder hacer este ejercicio, debes calcular los valores de \(y\) para cada valor de \(x\) usando la función \(y= 1{,}22x+3{,}72\).

Para esto, debes de sustituir \(x=\{1, 2, 3, 4, 5\}\), lo que nos da: \[y’=\{4{,}94, 6{,}16, 7{,}38, 8{,}6, 9{,}82\}\]

Ahora, debemos de usar la fórmula del residuo que es:

\[\dfrac{\sum (y_i - y_i’)^2}{n}\]

Aquí sustituiremos cada valor de los datos \(y_i’\) y lo restamos al valor predicho \(y_i\); también, elevaremos esto al cuadrado y lo sumamos al siguiente.

Esto nos da: \[\text{Residuo}=\dfrac{\sum (y_i - y_i’)^2}{n}=0{,}1088\]

Regresión lineal - Puntos clave

  • La dispersión de datos, en estadística, es la medida en la cual datos recopilados varían con respecto a un valor central o esperado.
  • En estadística y matemáticas, el ajuste o regresión lineal es un método el cual usarás para averiguar la relación lineal entre dos variables.
  • En este método se calcula la pendiente y la ordenada al origen de una función \(y=ax+b\):
    • \(a=\dfrac{\displaystyle \sum_{i=1}^n x_iy_i-n\bar{x}\bar{y}} {\displaystyle\sum_{i=1}^n{x^2}-\dfrac{1}{n}\left(\sum_{i=1}^n{x}\right)^2}\)
    • \(b=\bar{y}-a\bar{x}\)
  • Un número importante que nos dice cómo de correcta es la recta encontrada es el coeficiente de correlación, también conocido como \(R\).

Preguntas frecuentes sobre Regresión lineal

En estadística y matemáticas, el ajuste o regresión lineal es un método el que se usa para averiguar la relación entre dos variables.

Se realiza un ajuste de datos, que busca una línea recta que ajuste lo mejor posible a los datos graficados.

El método de mínimos cuadrados es un método de regresión, o ajuste lineal, que  busca reducir el valor de la suma del cuadrado, de las distancias entre los datos y una recta que debe de representar estos datos.

Es el cuadrado del coeficiente de correlación.

Es el valor que nos dice cómo de bien se ajusta la recta encontrada usando regresión lineal. También se conoce como r o R y se mide usando un valor entre 1 y -1.

Cuestionario final de Regresión lineal

Pregunta

La regresión lineal es un método:

Mostrar respuesta

Answer

Estadístico.

Show question

Pregunta

El método de regresión lineal también se conoce como:

Mostrar respuesta

Answer

Ajuste lineal.

Show question

Pregunta

El método de regresión lineal consiste en:


Mostrar respuesta

Answer

Ajustar datos a una función del tipo \(y=ax+b\).

Show question

Pregunta

¿Qué valores puede tomar el coeficiente de correlación lineal?

Mostrar respuesta

Answer

De menos a uno a uno.

Show question

Pregunta

¿Qué valores puede tomar el coeficiente de determinación lineal?

Mostrar respuesta

Answer

De cero a uno.

Show question

Pregunta

Para obtener el coeficiente de de determinación usando el coeficiente de correlación se debe:

Mostrar respuesta

Answer

Elevar el coeficiente de correlación al cuadrado.

Show question

Pregunta

¿Qué nos dice el coeficiente de correlación?

Mostrar respuesta

Answer

Cómo de bien se ajusta la curva a los datos obtenidos.

Show question

Pregunta

¿Qué nos dice el coeficiente de determinación lineal?

Mostrar respuesta

Answer

Es una manera alternativa de medir cómo de bien se ajusta la curva a los datos.

Show question

Pregunta

¿Cuál es la fórmula del residuo?

Mostrar respuesta

Answer

\(\dfrac{\sum (y_i - y_i’)^2}{n}\).

Show question

Pregunta

En la regresión lineal, ¿cuál es el método de ajuste por mínimos cuadrados?

Mostrar respuesta

Answer

Un método para ajustar una función a un conjunto de datos.

Show question

Pregunta

¿Qué significa si el coeficiente de correlación tiene un valor de uno?

Mostrar respuesta

Answer

Que el ajuste describe los datos perfectamente.

Show question

Pregunta

¿Qué es la dispersión?

Mostrar respuesta

Answer

La dispersión de datos, en estadística, es la medida en la cual datos recabados varían con respecto a un valor central o esperado.

Show question

Pregunta

Si un dato difiere mucho del valor esperado, se dice que:

Mostrar respuesta

Answer

Tiene una alta dispersión.

Show question

Pregunta

Si un dato medido se aleja demasiado de la función que se encuentra usando la regresión lineal, se dice que:

Mostrar respuesta

Answer

Tiene una alta dispersión.

Show question

Pregunta

Una recta con un coeficiente de correlación de cero se dice que:

Mostrar respuesta

Answer

No tiene un buen ajuste de datos.

Show question

60%

de los usuarios no aprueban el cuestionario de Regresión lineal... ¿Lo conseguirás tú?

Empezar cuestionario

Scopri i migliori contenuti per le tue materie

No hay necesidad de copiar si tienes todo lo necesario para triunfar. Todo en una sola app.

Plan de estudios

Siempre preparado y a tiempo con planes de estudio individualizados.

Cuestionarios

Pon a prueba tus conocimientos con cuestionarios entretenidos.

Flashcards

Crea y encuentra fichas de repaso en tiempo récord.

Apuntes

Crea apuntes organizados más rápido que nunca.

Sets de estudio

Todos tus materiales de estudio en un solo lugar.

Documentos

Sube todos los documentos que quieras y guárdalos online.

Análisis de estudio

Identifica cuáles son tus puntos fuertes y débiles a la hora de estudiar.

Objetivos semanales

Fíjate objetivos de estudio y gana puntos al alcanzarlos.

Recordatorios

Deja de procrastinar con nuestros recordatorios de estudio.

Premios

Gana puntos, desbloquea insignias y sube de nivel mientras estudias.

Magic Marker

Cree tarjetas didácticas o flashcards de forma automática.

Formato inteligente

Crea apuntes y resúmenes organizados con nuestras plantillas.

Regístrate para poder subrayar y tomar apuntes. Es 100% gratis.