Saltar a un capítulo clave
En este artículo, aprenderás qué es un intervalo de confianza para la pendiente de un modelo de regresión, su significado, las condiciones necesarias para poder construirlos, la fórmula y cómo determinarlos realmente. Para obtener información sobre cómo extraer conclusiones sobre una población a partir del intervalo de confianza, consulta el artículo Justificación de afirmaciones basadas en el intervalo de confianza para la pendiente de un modelo de regresión.
Significado del intervalo de confianza para la pendiente de una recta de regresión
A estas alturas ya sabes que cuando existe una relación lineal entre una variable \(x\) y una variable \(y\) -el coeficiente de correlación lineal \(r\) es distinto de cero-, puedes modelizarla con una regresión lineal. Esta regresión consiste en
\[\hat{y}=\beta_0+\beta_1x\]
donde:
\(\beta_0\) es la intersección y;
\(\beta_1\) es la pendiente de la regresión;
\(x\) es la variable independiente; y
\es el valor predicho de la variable dependiente.
Para recordar mejor este tema, consulta nuestro artículo Regresión por mínimos cuadrados. Recuerda que el coeficiente de correlación \(r\) te indica el grado de correlación entre las dos variables. Si \(r\) es cercano a cero, entonces hay poca o ninguna correlación entre las variables, mientras que valores de \(r\) cercanos a \(-1\) o \(1\) indican que hay una fuerte correlación entre las dos variables.
Por otro lado, la pendiente \(\beta_1\) representa cuánto cambia \( \hat{y}) ante los cambios en los valores \(x\), es decir, por cada unidad de aumento de \(x\), \(\hat{y}) aumenta \(\beta_1\) unidades.
Supón que sospechas que un aumento del precio de los libros significa que se venderán menos libros. Recoges datos y encuentras que la recta de mejor ajuste es
\[\que{y}=3500-10x\]
donde \(x\) es el precio del libro y \(hat{y}\) es el número previsto de libros vendidos. ¿Qué significa un aumento de \(\$1\$) en \(x\) sobre el número de libros que predices que se venderán?
Solución:
De la ecuación dada puedes ver que \(\beta_0 = 3500\) y \(\beta_1 = -10\). Observa que la pendiente del modelo de regresión es negativa. Eso significa que un aumento de \(\$1\) en el precio del libro corresponde a un aumento previsto de \(-10\) libros vendidos, o en otras palabras, puedes predecir que se venderán 10 libros menos por cada dólar de aumento en el precio del libro.
Calculando un intervalo de confianza con un nivel de confianza alto, digamos \(c\%\), para la pendiente \(\beta_1\), obtienes dos valores que definen los límites de un intervalo de valores en el que puedes encontrar la pendiente. Puedes afirmar con \ (c\%\) seguridad que el valor de la pendiente estará entre esos dos valores.
Además, puedes afirmar que el método utilizado para construir el intervalo consigue capturar la pendiente real del modelo de regresión lineal en aproximadamente \(c\%\) de las veces.
Condiciones del intervalo de confianza para la pendiente de una recta de regresión
Las condiciones para construir un intervalo de confianza para la pendiente de una regresión lineal son las mismas que para construir una regresión lineal. Estas condiciones son:
Condición de variable cuantitativa: La correlación sólo se aplica si ambas variables son cuantitativas.
Condición suficientemente lineal: Observa el diagrama de dispersión y asegúrate de que tus datos tienen una relación aproximadamente lineal. La correlación sólo mide la fuerza de una asociación lineal. Esto también puede hacerse observando el coeficiente de correlación de los datos.
Independencia de las variables: Los datos deben recogerse aleatoriamente, y si se realiza un muestreo sin reemplazo, el tamaño de la muestra es menor o igual que \(10\%\) de la población total.
Normal: La variable independiente se distribuye normalmente.
Fórmula del intervalo de confianza para la pendiente de la recta de regresión
Como cualquier intervalo de confianza que hayas estudiado hasta ahora, un intervalo de confianza para la pendiente \(\beta_1\) de la recta de regresión por mínimos cuadrados tiene la siguiente estructura:
estadístico muestral - margen de error \(\le \beta_1\le) estadístico muestral + margen de error,
donde margen de error = valor crítico \(\times\) error estándar.
Ahora, sólo tienes que entender qué es cada uno de esos tres elementos para la pendiente \(\beta_1\):
El estadístico muestral será \(\hat{\beta}_1\), el estimador puntual de la pendiente \(\beta_1\);
Para el margen de error
esta vez el valor crítico será de una distribución \(t\) con \(n-2\) grados de libertad, es decir, \(t\) con \(df=n-2\);
el error típico de la pendiente, escrito \(SE_{beta_1}\), será:\[SE_{\beta_1}=\frac{s}{sqrt{\suma_{i=1}^{n}(x_i-bar{x})^2}}]donde \(s) es la desviación típica de la muestra calculada como:\[s={sqrt{\frac{\suma_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}}\}].
Así, la fórmula para un intervalo de confianza para la pendiente \(\beta_1\) es:
\hat{\beta}_1- t\cdot SE_{\beta_1}le \hat{\beta}_1+ t\cdot SE_{\beta_1}le \hat{\beta}_1+ t\cdot SE_{\beta_1}].
o una versión aún más corta
\hat{\beta}_1\pm t\cdot SE_{\beta_1}].
Este intervalo de confianza sirve para cualquier nivel de confianza, pero los niveles de confianza que verás con más frecuencia son \(90\%\), \(95\%\) y \(99\%\). Estos son los valores que debes considerar al calcular el valor crítico \(t\).
Cálculos del intervalo de confianza para la pendiente de la recta de regresión
Por lo que has leído hasta ahora, la fórmula del intervalo de confianza para la pendiente sugiere una serie de pasos que debes seguir cuando quieras hallarla.
Paso 1: Halla la estadística muestral \(\hat{\beta}_1\).
Obtienes el valor del estimador puntual \(\hat{\beta}_1\) construyendo la recta de regresión para el conjunto de datos con el que trabajas.
Paso 2: Selecciona un nivel de confianza \(c\%\).
El nivel de confianza describe la incertidumbre de un método de muestreo. Lo más frecuente es que te pidan un nivel de confianza de \(90\%\), \(95\%\) o \(99\%\).
La finalidad de conocer el nivel de confianza es poder hallar el valor crítico \(t\), consultando una tabla \(t\), con dos datos
los grados de libertad, dados por:\text{tamaño de la muestra } -2 = n-2\]donde \(n\) es el tamaño de la muestra; y
el nivel de confianza ajustado a la tabla que estés utilizando.
Según la tabla que consultes, el nivel de confianza puede tener que ajustarse a \(1-\tfrac{{alfa}{2}\) o a \(\tfrac{{alfa}{2}\ ).
Por ejemplo, para un nivel de confianza de \(99\%\), sabes que \(c=100(1-\alfa)\%\) y así:
\[\begin{align} 99\%&=100\%(1-\alpha) \\a0,99&=1-\alpha \a=0,01 .\end{align}\a].
Ahora, según la tabla que consultes, harás
\[1-\frac{\alpha}{2}=1-\frac{0.01}{2}=0.995\]
o
\frac{alfa}{2} = \frac{0,01}{2}=0,005].
Paso 3: Halla el margen de error \(t\cdot SE_{\beta_1}\).
Como ya sabes, el margen de error es el producto del valor crítico \(t\) por el valor del error típico. La fórmula del error típico es
\[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]
donde \(s\) es la desviación típica de la muestra.
Paso 4: Halla el intervalo de confianza.
Aquí sólo tienes que sustituir en la fórmula los valores que has obtenido en el paso anterior:
\[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\\}].
Veamos un ejemplo en el que puedes aplicar los pasos a mano.
Dado que el conjunto de datos de la tabla siguiente
x | y |
1 | 3 |
2 | 4 |
2 | 7 |
3 | 8 |
5 | 9 |
Tabla 1. Ejemplo de datos.
halla un intervalo de confianza de \(95\%\) para la pendiente sabiendo que la recta de regresión por mínimos cuadrados de estos datos es:
\[\hat{y}=2.41+1.46x\]
la varianza muestral es \(s^2=2,39\) y \(t=3,182\).
Solución:
Paso 1: Halla el estadístico muestral \(\hat{\beta}_1\)
Te dieron la ecuación de la recta de regresión, así que sabes que \(\hat{\beta}_1=1,46\).
Paso 2: Selecciona un nivel de confianza \(c\%\)
El nivel de confianza viene dado: \(c=95\%\). También se te da el valor crítico \(t=3,182\%).
Si tuvieras que consultar una tabla \(t\), verías primero que \(df=5-2=3\), segundo que \(95\%=100\%(1-\alpha)\) si y sólo si \(0,95=1-\alpha\) si y sólo si \(\alpha=0,05\), y luego que \(1-\alpha/2=1-0,05/2=0,975\).
Paso 3: Halla el margen de error \(t\cdot SE_{\beta_1}\).
Ya sabes que
\[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\\]
Sabes que \(s^2=2,39\), por lo que la desviación típica de la muestra es \(s=1,55\).
Para la suma en el denominador, primero necesitas la media muestral de los valores \(x-\)-.
\[\bar{x}=\frac{1+2+2+3+5}{5}=2.6\]
Ahora la suma:
\[\begin{align} \sum_{i=1}^{n}(x_i-\bar{x})^2=&(1-2.6)^2+(2-2.6)^2+(2-2.6)^2+\\&+(3-2.6)^2+(5-2.6)^2 \\ &=9.2 \end{align}\]
Por último, para el margen de error
\[\begin{align} t\cdot SE_{\beta_1}&=3,182\left( \frac{1,55}{sqrt{9,2}\right)\t&=3,182(0,51)\t&=1,62282. \fin \]
Paso 4: Halla el intervalo de confianza
Ahora sólo tienes que sustituir en la fórmula los valores que has determinado en los pasos anteriores:
\hat{\beta}_1\pm t\cdot SE_{\beta_1}= 1,46\pm 1,62282\]
lo que te da
\[ -0,16282\le \beta_1 \le 3,08282\le \]
Si has cumplido las condiciones para hacer un intervalo de confianza para la pendiente de un modelo de regresión, puedes decir con \(95\%\) confianza que el valor verdadero de la pendiente \(\beta_1\) está entre \(-0,16282\) y \(3,08282\).
Ejemplo de intervalo de confianza para la pendiente de una recta de regresión
Veamos un ejemplo de realización de los cálculos necesarios para hallar el intervalo de confianza de la pendiente de una recta de regresión.
Entre \(2010\) y \(2022\), se recogieron datos sobre el coste medio de los libros de texto universitarios necesarios para un semestre de ese año. Esos datos están en la tabla siguiente. Halla el intervalo de confianza para la pendiente de la recta de regresión con un nivel de confianza del \(99\%).
Año | Coste medio de los libros (en \($\)) | Año | Coste medio contable (en ¤) |
\(2010\) | \(660\) | \(2017\) | \(1125\) |
\(2011\) | \(678\) | \(2018\) | \(1100\) |
\(2012\) | \(596\) | \(2019\) | \(1300\) |
\(2013\) | \(550\) | \(2020\) | \(1320\) |
\(2014\) | \(770\) | \(2021\) | \(1369\) |
\(2015\) | \(790\) | \(2022\) | \(1400\) |
\(2016\) | \(860\) |
Tabla 2. Muestra de datos.
Solución:
En primer lugar, dibuja un diagrama de dispersión de los datos.
Ciertamente, parece razonable considerar un modelo de regresión lineal, y no hay valores atípicos evidentes. Supongamos que el año \(2010\) corresponde a \(x=1\). Puedes hallar el coeficiente de correlación \(r = 0,96\) y la recta de mejor ajuste \(\hat{y} = 79,9x+ 458,1\). Como el coeficiente de correlación se aproxima a \(1\), puedes ver que existe una fuerte relación lineal entre el año y el coste contable medio.
Para recordar cómo hallar el coeficiente de correlación y la recta de mejor ajuste, véase Regresión lineal y regresión por mínimos cuadrados.
De hecho, si graficas la recta de mejor ajuste, verás inmediatamente que existe una fuerte relación lineal.
Ahora sigamos los pasos para hallar el intervalo de confianza de la pendiente de la recta de regresión.
Paso 1: Halla la estadística muestral \(\hat{\beta}_1\).
La recta de mejor ajuste es \( \hat{y} = 79,9x + 458,1\), por lo que \(\beta_1 = 79,9\). Éste es el estimador puntual de los datos.
Paso 2: Selecciona un nivel de confianza \(c\%\).
El nivel de confianza para este problema es \(99\%\). Hay \(13\) muestras, lo que significa que el grado de libertad es \(13-2=11\). Si consultamos una tabla \(t), el valor crítico \(t) es \(3,11), por lo que \(t = 3,11).
Paso 3: Halla el margen de error \(t\cdot SE_{\beta_1}\).
Para ello, primero tienes que calcular \(s^2\). Dada la ecuación de la recta
\[ y_i-\hat{y}_i = y_i - (79,9x_i - 458,1 ) \].
Para que los cálculos de \(s\) sean un poco más fáciles de seguir, puede ser útil hacer una tabla.
\(x_i\) | \(y_i\) | \(y-i-i) | \((y_i-\hat{y}_i )^2 \) |
1 | 660 | 538 | 3844 |
2 | 678 | 617.9 | 3612.01 |
3 | 596 | 697.8 | 10363.24 |
4 | 550 | 777.7 | 51847.29 |
5 | 770 | 857.6 | 24837.76 |
6 | 790 | 937.5 | 21756.25 |
7 | 860 | 1017.4 | 24774.76 |
8 | 1125 | 1097.3 | 767.29 |
9 | 1100 | 1177.2 | 5959.84 |
10 | 1300 | 1257.1 | 1840.41 |
11 | 1320 | 1337 | 289 |
12 | 1369 | 1416.9 | 2294.41 |
13 | 1400 | 1496.8 | 9370.24 |
Tabla 3. Muestra de datos.
Utilizando la fórmula y la información de la tabla anterior:
\[\begin{align} s &=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}} \\ &= \sqrt{\frac{suma_i=1}^{13}(y_i-hat{y}_i)^2}{11} \\ &= cuadrado {frac {161556,5} {11} \\ &&aproximadamente 121,2 \end{align}\}]
Entonces tienes
\[Inicio SE_{\beta_1}&=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}} \\ &= \frac{121,2}{182} \\ &&aproximadamente 0,67 \end{align} \]
Ya has hallado el valor crítico \ (t = 3,11\), así que
\[ \begin{align} \text{margen de error} &= t\cdot SE_{\beta_1} \\ &= (3,11)(0,67 ) &&aprox 2,08 \end{align}\}]
Paso 4: Halla el intervalo de confianza
Sustituye los valores que has encontrado en los pasos anteriores en la fórmula:
\hat{\beta}_1\pm t\cdot SE_{\beta_1}= 79,9\pm 2,08\}].
lo que te da un intervalo de confianza de \( (77,82, 79,98) \).
Si has cumplido las condiciones para hacer un intervalo de confianza para la pendiente de un modelo de regresión, puedes decir con \(99\%\) confianza que el valor verdadero de la pendiente \(\beta_1\) está entre \(77,82 \) y \(79,98 \).
Intervalos de confianza para la pendiente de un modelo de regresión - Conclusiones clave
- Calculando un intervalo de confianza con unnivel de confianza alto, digamos \(c\%\), para la pendiente \(\beta_1\), obtienes dos valores que definen los límites de un intervalo de valores en el que puedes encontrar la pendiente. Puedes decir con \(c\%\) confianza que el valor de la pendiente estará entre esos dos valores.
- Puedes decir que el método utilizado para construir el intervalo consigue capturar la pendiente real del modelo de regresión lineal aproximadamente \(c\%\) de las veces.
- La fórmula del intervalo de confianza para la pendiente de un modelo de regresión es \hat{\beta}_1\pm t\cdot SE_{\beta_1}, ,\] donde
- \(\hat{\beta}_1\) es la estimación de la pendiente \ (\beta_1\)
- \(t\cdot SE_{beta_1}\) es el margen de error
- \(t\) es el valor crítico de la distribución \(t-\)con parámetro \(df=n-2\) (\(n-2\) grados de libertad)
- \(SE_{\beta_1}\) es el error típico de la pendiente
Aprende más rápido con las 8 tarjetas sobre Intervalos de confianza para la pendiente de un modelo de regresión
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre Intervalos de confianza para la pendiente de un modelo de regresión
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más