Saltar a un capítulo clave
Prueba de hipótesis para la diferencia de dos proporciones poblacionales
Empecemos por enumerar lo que sabes del ejemplo del principio de este artículo.
Población | Proporción de la población | Tamaño de la muestra | Proporción de la muestra |
Empleados a tiempo completo de las empresas de tu país. | \(p_1 = \) proporción de todos los empleados a tiempo completo que destinan al menos el doce por ciento de sus ingresos al ahorro. | \(n_1 = 1300\) | \(\hat{p}_1 = 0,40\) |
Empleados a tiempo parcial de las empresas de tu país. | \(p_2 = \) proporción de todos los empleados a tiempo parcial que destinan al menos el doce por ciento de sus ingresos al ahorro. | \(n_2 = 290\) | \(\hat{p}_2 = 0,38\) |
Viendo la tabla, está claro que los tamaños de las muestras son muy diferentes, y sus proporciones muestrales también. Sin embargo, será muy raro que encuentres un ejemplo en el que las proporciones muestrales sean iguales. ¿Por qué pueden ser diferentes las proporciones muestrales, aunque al final puedas llegar a la conclusión de que la proporción de personas que ahorran al menos el doce por ciento de sus ingresos es la misma entre los empleados a tiempo parcial y los empleados a tiempo completo?
Las diferencias que se producen entre dos muestras sólo por azar se denominan variabilidad muestral.
Una de las principales preguntas que intenta responder una prueba de hipótesis para dos proporciones poblacionales es si la diferencia en las proporciones de tu muestra se debe a la variabilidad muestral o a una diferencia real en las poblaciones.
Comparación de dos proporciones poblacionales con muestras dependientes
Uno de los supuestos que necesitarás es que tus muestras sean independientes.
Dos muestras son independientes si la elección de los miembros de una muestra no influye en cómo se eligen los miembros de la segunda muestra.
En el ejemplo de los empleados, elegir a una persona como empleada a tiempo completo no influye en quién eliges como empleado a tiempo parcial, por lo que son independientes. Esto es muy diferente de las muestras dependientes.
Dos muestras son dependientes si la elección de los miembros de una muestra determina automáticamente los miembros de la segunda muestra.
Si hicieras un estudio sobre gemelos, elegir a un gemelo para una muestra colocaría automáticamente al otro gemelo en la segunda muestra. Los gemelos son un ejemplo habitual de muestras dependientes. Esto se denomina datos de pares emparejados, y requiere una forma de comprobación de hipótesis distinta de la que verás aquí.
Formular tu hipótesis
Hay muchas formas de que \(p_1\) sea diferente de \(p_2\). Puede ser que \(p_1 < p_2\), o que \(p_1>p_2\). En lugar de intentar enumerar todas las formas en que son diferentes y hacer una prueba de hipótesis para cada una, puedes fijarte en la diferencia entre las dos proporciones poblacionales. De hecho, una prueba de hipótesis para dos proporciones poblacionales suele denominarse prueba de hipótesis para la diferencia entre dos proporciones poblacionales, ¡por esta misma razón!
En este tipo de prueba de hipótesis, tu hipótesis nula será casi siempre que las dos proporciones poblacionales son iguales. Si lo planteas en términos de su diferencia, obtienes
\[ H_0:\; p_1 - p_2 = 0,\]
Entonces hay tres variedades de hipótesis alternativas que se describen en la tabla siguiente.
Pregunta | Hipótesis alternativa | Tipo de prueba |
¿Es \(p_1\) diferente de \(p_2)? | \(H_a:\; p_1 - p_2 \ne 0\) | Prueba de dos colas. |
¿Es \(p_1\) menor que \(p_2)? | \(H_a:\; p_1 - p_2 < 0\) | Prueba de cola izquierda. |
¿Es \(p_1\) mayor que \(p_2)? | \(H_a:\; p_1 - p_2 > 0\) | Prueba de cola derecha. |
Volvamos al ejemplo del principio de este artículo.
Tu objetivo aquí es averiguar si los empleados a tiempo completo y los empleados a tiempo parcial tienen hábitos de ahorro diferentes, por lo que las hipótesis serían:
\[ \begin{align} &H_0:\; p_1 -p_2 = 0 \\\ y H_a: \; p_1-p_2 \ne 0, \end{align} \]
y sería una prueba de dos colas.
A continuación, veamos el estadístico de la prueba para este tipo de prueba de hipótesis.
Estadística de la prueba de significación para dos proporciones de población
Es importante que tus muestras sean independientes, o el estadístico de la prueba será distinto del que se muestra aquí. Como utilizas muestras independientes, recuerda que
\[ \mu_{hat{p}_1 - \hat{p}_2} = p_1 - p_2.\]
Para recordar por qué esto es cierto, consulta los artículos Transformación de variables aleatorias y Combinación de variables aleatorias.
Para la desviación típica
\[ \sigma_{hat{p}_1 - \hat{p}_2} = \sqrt{ \frac{p_1(1-p_1)} {n_1} + \frac{p_2(1-p_2)}{n_2} }.\]
Para el ejemplo del ahorro, tienes que \(n_1 = 1300\), \(n_2 = 290\), \(\hat{p}_1 = 0,40\), y \(\hat{p}_2 = 0,38\). Calculando la media de la distribución muestral \(\hat{p}_1 - \hat{p}_2 \) te da:
\[\año]. \mu_{hat{p}_1 - \hat{p}_2} &= p_1 - p_2 &= 0,40 - 0,38 &= 0,02 \end{align}\}].
La desviación típica de \(\hat{p}_1 - \hat{p}_2 \) es:
\[ \iniciar{alinear} \sigma_{hat{p}_1 - \hat{p}_2} &= \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} } \\ y= el cuadrado de 0,40 (1-0,40) = 1.300 + 0,38 (1-0,38) = 290 } \\ &= cociente cuadrático {frac {0,24} {1300} + frac {0,2356} {290} } } \\ &aproximadamente 0,03157 \end{align} \]
Hasta ahora sólo has supuesto que las muestras son independientes. Para la siguiente parte, tendrás que suponer que el tamaño de las muestras es suficientemente grande. Si lo son, puedes utilizar el Teorema del Límite Central para obtener que tu distribución muestral \(\hat{p}_1 - \hat{p}_2 \) es aproximadamente normal.
¿Cómo sabes si tus muestras son suficientemente grandes? Si se cumplen las cuatro condiciones siguientes, tus muestras son suficientemente grandes para que la distribución muestral \(\hat{p}_1 - \hat{p}_2 \) sea aproximadamente normal :
\[n_1\hat{p_1} \ge 10\].
\[n_2hat{p_2} \ge 10\].
\[n_1(1-p_1) \ge 10\]. y
\[n_2(1-p_2) \ge 10\].
No es demasiado difícil comprobar que los tamaños de las muestras del ejemplo del ahorro son lo suficientemente grandes como para que la distribución muestral sea aproximadamente normal.
La última condición para utilizar este tipo de prueba de hipótesis es que tu muestra sea inferior a \(10\%\) de la población total. En este caso, el tamaño de la muestra es ciertamente inferior a \(10\%\) de toda la población de tu país, por lo que también se cumple esta condición.
Prueba Z para la diferencia de proporciones de población
Cuando se hace una prueba de hipótesis para la diferencia en las proporciones de la población, se utiliza una prueba \(z\)-. Para ello, tendrás que calcular el estadístico de la prueba, que utiliza la diferencia de las dos proporciones. Para facilitar un poco los cálculos, es útil encontrar
\[ \begin{align}\hat{p}_c &= \frac{text{número de aciertos en las dos muestras} }{texto{total de los dos tamaños de muestra}} |= \frac{n_1\hat{p_1} + n_2hat{p_2} }{n_1 + n_2} \end{align}\}]
Combinar recuentos para obtener una proporción global se llama agrupar, y \(p_c\) se llama proporción agrupada (o combinada).
Volviendo de nuevo al ejemplo del ahorro, \(n_1 = 1300\), \(n_2 = 290\), \(\hat{p}_1 = 0,40\), y
\(\hat{p}_2 = 0,38\), lo que significa que
\[ \begin{align}\hat{p}_c &= \frac{n_1\hat{p_1} + n_2hat{p_2} }{n_1 + n_2}. | &= \frac{1300(0,40)+ 290(0,38) }{1300+ 290} | &= \frac{630,2}{1590} \\ y aproximadamente 0,3964 end].
Siempre que tu hipótesis nula sea \(H_0:\; p_1 -p_2 = 0 \), el estadístico de la prueba puede calcularse mediante la fórmula:
\[ z = \frac{hat{p_1} - \hat{p_2} {{sqrt{ {dfrac{hat{p}_c (1-hat{p}_c) }{n_1}}. +dfrac {hat{p}_c (1-hat{p}_c) }{n_2}}. } }\]
Cálculo de la estadística de prueba para el ejemplo del ahorro:
\[ \begin{align} z &= \frac{hat{p_1} - \hat{p_2} (1-hat{p}_c) }{n_1}. +dfrac {hat{p}_c (1-hat{p}_c) }{n_2}}. } } \\ &= \frac{0,40 - 0,38 }{cuadrado} {{dfrac{0,3964 (1-0,3964 ) }{1300} +{dfrac{0,3964 (1-0,3964 ) }{290}}. } } \\ y aproximadamente 0,63, fin. \]
Redondeado a \(2\) decimales.
Terminemos la prueba de hipótesis para el ejemplo del ahorro. No se ha dado ningún nivel de significación, así que tendrás que considerar las consecuencias de los errores de Tipo I y Tipo II. Consulta Errores en la prueba de hipótesis para obtener más información y ejemplos. En este ejemplo, un error de Tipo I sería decidir que las proporciones de ahorro no son las mismas para los dos grupos, cuando en realidad sí lo son.
Un error de Tipo II sería no pensar que hay una diferencia en la proporción de población entre los dos grupos cuando en realidad no son iguales. Ninguno de los dos errores es muy grave (a diferencia de lo que ocurre en un ensayo médico, donde el tipo de error tiene mucha más importancia), por lo que elegir un nivel de significación de \(\alfa = 0,05\) estaría bien.
Recuerda que se trata de una prueba de dos colas. Así que el valor \(P\)-es el doble del área bajo la curva \(z\)-y a la derecha del valor \(z\)-. Dicho de otro modo:
\[ inicio{alineación} P\text{-valor} &= 2(\text{área bajo la curva a la derecha de }0,63) &= 2\cdot P(z>0,63) &= 2(0,2643) &\aproximadamente 0,529 \end{align} \]
El valor \ (P\)-es mayor que el nivel de significación de \ (\alfa = 0,05\), por lo que no rechazarás la hipótesis nula.
Recuerda que nunca debes decir cosas como "la hipótesis nula es cierta". Para recordar por qué, consulta el artículo Pruebas de hipótesis.
Comunicar tu conclusión puede ser la parte más difícil de hacer una prueba de hipótesis. ¿Qué significa no rechazar la hipótesis nula?
Solución:
El objetivo original era averiguar si existe alguna diferencia en los hábitos de ahorro entre los empleados a tiempo completo y a tiempo parcial de las empresas de tu país. La hipótesis nula es que no hay diferencia en los hábitos de ahorro entre los dos grupos. Al no rechazar la hipótesis nula, lo que estás diciendo es que no hay pruebas convincentes de que exista una diferencia en los hábitos de ahorro entre los empleados a tiempo completo y a tiempo parcial.
¿Por qué había entonces una diferencia en las proporciones de la población? Podría deberse a la variabilidad del muestreo. Lo único que puedes decir de las proporciones muestrales es que no estás convencido de que haya una diferencia entre las dos proporciones muestrales.
Ejemplo de prueba de hipótesis de dos proporciones poblacionales
Veamos otro ejemplo de prueba de hipótesis para la diferencia de dos proporciones poblacionales.
Muchos propietarios de bulldogs afirman que su mascota ronca y, de hecho, su bulldog ronca con más frecuencia a medida que envejece.
Has decidido hacer una prueba para ver si esto es realmente cierto o tal vez sólo una cuestión de percepción. Así que divides a los bulldogs en dos grupos, los menores de tres años y los mayores de tres años, y eliges una muestra aleatoria de (700) propietarios de bulldogs para preguntarles sobre los ronquidos de su perro. A partir de las respuestas a la encuesta (no todo el mundo responde a las encuestas), crea la siguiente tabla:
Población | Proporción de la población | Tamaño de la muestra | Proporción de la muestra |
Bulldogs menores de \(3\) años. | \(p_1 = \) Proporción de bulldogs menores de \(3\) años que roncan más de cinco veces por semana. | \(n_1 = 300\) | \(\hat{p}_1 = 0,26\) |
Bulldogs de más de 3 años. | \(p_2 = \) proporción de bulldogs mayores de \(3\) años que roncan más de cinco veces a la semana. | \(n_2 = 291\) | \(\hat{p}_2 = 0,392\) |
Antes de seguir adelante, comprobemos que se cumplen las condiciones para hacer una prueba de hipótesis para dos proporciones de población. En primer lugar, las muestras son independientes, ya que un bulldog no puede tener menos de \(3\) años y más de \(3\) años al mismo tiempo. Además, sin duda hay muchas más de \(591\) personas en todo el mundo que tienen bulldogs, por lo que el número de propietarios de bulldogs de la muestra es inferior a \(10\%\) de la población total de personas que tienen bulldogs. Además
\(n_1\hat{p_1} = 300(0,26)=78 \ge 10\),
\(n_2\hat{p_2} = 291(0,392) = 114 \ge 10\).
\(n_1(1-p_1) = 300(1-0,26) = 222 \ge 10\)
\(n_2(1-p_2) = 291(1-0,392) = 176,9 \ge 10\).
por lo que se cumplen todas las condiciones para aplicar la prueba.
El siguiente paso es decidir las hipótesis nula y alternativa. La hipótesis nula sería
\[ H_0: \; p_2-p_1 = 0\]
o, en otras palabras, que no hay diferencia de ronquidos entre los dos grupos. La hipótesis alternativa sería que existe una diferencia en las tasas de ronquidos de los dos grupos, por tanto
\[H_a:\; p_2-p_1 \ne 0\]
Cálculo de la tasa de éxito agrupada (a veces llamada tasa de éxito combinada):
\[ \begin{align}\hat{p}_c &= \frac{n_1\hat{p_1} + n_2hat{p_2} }{n_1 + n_2} |= \frac{300(0,26)+291(0,392)}{300+291} \\ &&aproximadamente 0,325 . \end{align}\]
Entonces la estadística de la prueba es
\z &= frac{hat{p_2} - \hat{p_1} {{sqrt{ {dfrac{hat{p}_c (1-hat{p}_c) }{n_1} +dfrac {hat{p}_c (1-hat{p}_c) }{n_2}}. } } \\ ¾ &= \frac{ 0,392 - 0,26 }{cuadrado} {{dfrac{0,325 (1-0,325) }{300} +{dfrac{0,325 (1-0,325) }{291}}. } } \\ &aprox 3,425 \end{align}\}]
Fíjate en que aquí estás utilizando \hat{p_2} - \hat{p_1} como hipótesis nula simplemente por la comodidad de que \hat{p_2} - \hat{p_1} sea positivo. En realidad, no importa qué versión elijas para la hipótesis nula, siempre que seas coherente en todo tu trabajo y te asegures de que tu cálculo de \(z\) coincide.
Recuerda que se trata de una prueba de dos colas. Así que el valor \(P\)-es el doble del área bajo la curva \(z\)-y a la derecha del valor \(z\)-. Dicho de otro modo:
\[ inicio{alineación} P\text{-valor} &= 2(\text{área bajo la curva a la derecha de }3,425) &= 2\cdot P(z>3,425) &\aprox 2(0,0003) &= 0,0006, \end{align} \]
donde el valor de \(P(z>3,425)\) puede hallarse utilizando una tabla normal estándar o una calculadora.
Así que a un nivel de significación \(\alfa = 0,05\), puedes rechazar la hipótesis nula, y concluir que existe una diferencia en los ronquidos de los bulldogs en función de la edad.
¿Habría sido diferente tu conclusión si la hipótesis alternativa hubiera sido
\[H_a:\; p_2-p_1 > 0?\]
Solución:
El principal cambio habría estado en el cálculo del valor \ (P\)-. Como se trataría de una prueba de una cola, en este caso, el cálculo sería:
\[ \begin{align} \text{-valor} &= \text{área bajo la curva a la derecha de }3,425 \\\tu &= P(z>3,425) \\tu &\aprox 0,0003 \end{align} \]
Al nivel de significación \(\alfa = 0,05\), seguirías rechazando la hipótesis nula y concluirías que los bulldogs mayores de \(3\) años roncan más que los bulldogs menores de \(3\) años.
Prueba de hipótesis de dos proporciones de población - Puntos clave
- Dos muestras son independientes si la elección de los miembros de una muestra no influye en la elección de los miembros de la segunda muestra.
- Dos muestras son dependientes si la elección de miembros para una muestra determina automáticamente los miembros de la segunda muestra.
- En una prueba de hipótesis para dos proporciones poblacionales, la hipótesis nula será casi siempre que las dos proporciones poblacionales son iguales.
- Las condiciones para aplicar una prueba de hipótesis para la diferencia de dos proporciones poblacionales son:
- Las muestras son independientes.
- La muestra es inferior a \(10\%\) de la población total.
- \(n_1que{p_1} \ge 10\), \(n_2que{p_2} \ge 10\), \(n_1(1-p_1) \ge 10\), y \(n_2(1-p_2) \ge 10\) donde \(n_1\) es el tamaño de la primera muestra, \(n_2\) es el tamaño de la segunda muestra, \(p_1\) es la proporción de aciertos en la primera muestra, y \ (p_2\) es la proporción de aciertos en la segunda muestra.
- La fórmula de la proporción agrupada es \[ \begin{align}\hat{p}_c &= \frac{text{{número de aciertos en las dos muestras} } }{texto{total de los dos tamaños de muestra}} |= \frac{n_1\hat{p_1} + n_2hat{p_2} }{n_1 + n_2}. \end{align}\]
- La fórmula de la estadística de la prueba es \[ z = \frac{hat{p_1} - \hat{p_2} {{sqrt{ {dfrac{hat{p}_c (1-hat{p}_c) }{n_1}. +dfrac {hat{p}_c (1-hat{p}_c) }{n_2}. } }\]
Aprende más rápido con las 8 tarjetas sobre Pruebas de hipótesis para dos proporciones poblacionales
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre Pruebas de hipótesis para dos proporciones poblacionales
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más