Saltar a un capítulo clave
Este detective acababa de considerar dos variables categóricas, la clase de embarque y la escritura, pero ¿fue capaz de resolver el crimen? Aquí aprenderás sobre la correlación, el gráfico, las pruebas y mucho más en relación con dos variables categóricas. ¡Tú también puedes ser detective!
Gráficos de dos variables categóricas
Antes, en la historia del crimen, se mencionó que el detective había abordado el caso considerando dos variables categóricas. ¿Qué es una variable categórica?
Una variable categórica , también conocida como variable cualitativa, es una variable cuyas propiedades se describen, en lugar de medirse.
Si las propiedades de una variable pueden medirse o contarse, se conocen como variables cuantitativas. En este artículo no te centrarás en estas variables.
¡Las definiciones siempre se entienden mejor con ejemplos!
Tienes sed mientras estás en el tren, así que vas a por una lata de refresco. Para ser más concretos, compras un refresco de \(12\) oz con sabor a lima, que viene en una lata verde y tiene \(40\) calorías.
En este ejemplo, las variables categóricas son las que puedes describir, como el sabor y el color de la lata. Tanto la cantidad de líquido de la lata como el recuento de calorías son medibles, por lo que son variables cuantitativas.
¿Y qué quiere decir el detective cuando habla de dos variables categóricas?
Cuando habla de dos variables categóricas, se refiere a las combinaciones que puede obtener al observar dos variables categóricas distintas.
Volvamos a la investigación. El detective consideró dos categorías: clase de internado y escritura. Así pues, hay seis combinaciones posibles que se producen utilizando estas dos categorías:
- Primera clase diestro
- Clase económica diestro
- Zurdo de primera clase
- Clase económica zurdo
- Ambidiestro de primera clase
- Clase económica ambidiestro
Una tabla de dos vías, o tabla de contingencia, es una tabla que organiza las observaciones según dos variables categóricas. Cada celda de una tabla de contingencia representa una combinación de dos factores, y en ella se escribe la frecuencia de los sujetos que entran dentro de esas categorías.
El detective utilizó una tabla de contingencia para clasificar a los pasajeros del tren según la clase de embarque y la escritura.
Clase de embarque | |||
Primera clase | Clase económica | ||
Escritura | Derecha | \[30\] | \[35\] |
Izquierda | \[13\] | \[11\] | |
Ambidiestro | \[4\] | \[7\] |
Por ejemplo, mirando la tabla, puedes saber que \(30\) de los pasajeros de primera clase son diestros. Puedes encontrar el resto de las frecuencias de las demás combinaciones de factores mirando la celda correspondiente.
Las frecuencias de una tabla de contingencia muestran cuántos sujetos entran dentro de cada combinación de las dos variables categóricas.
Normalmente, las tablas de contingencia también incluyen una fila extra en la parte inferior y una columna extra a la derecha para contar los totales.
Clase de embarque | ||||
Primera clase | Clase económica | Total | ||
Escritura | Derecha | \[30\] | \[35\] | \[65\] |
Izquierda | \[13\] | \[11\] | \[24\] | |
Ambidiestro | \[4\] | \[7\] | \[11\] | |
Total | \[47\] | \[53\] | \[100\] |
Por ejemplo, hay \(65\) pasajeros diestros, y hay \(53\) pasajeros de clase económica. Si miras en la esquina inferior derecha, verás que hay un total de \(100\) pasajeros.
Frecuencia relativa
A veces, más que los números reales, sólo necesitas saber qué fracción de los sujetos pertenece a cada categoría. Esta fracción, o proporción, se conoce como frecuencia relativa .
La frecuencia relativa es la relación entre la frecuencia de una observación dividida por el total de observaciones.
Tal vez, desees saber qué fracción del total de sospechosos está formada por pasajeros zurdos de primera clase, entonces, la frecuencia relativa de pasajeros zurdos de primera clase respecto al total de pasajeros es:
\[\frac{13}{100} \]
o escrito como porcentaje
\[ \frac{13}{100} \cdot 100 \% = 13\%\]
También puedes encontrar la frecuencia relativa marginal y la frecuencia relativa condicional, que son dos tipos de frecuencias relativas.
Frecuencia marginal y frecuencia relativa marginal
Las tablas de contingencia suelen escribir totales en la columna del extremo derecho y en la fila inferior. Estos totales se conocen como frecuencias marginales .
La frecuencia marginal es el número de sujetos que entran en cada categoría individual. La distribución marginal está formada por todas las frecuencias marginales de la tabla.
En el caso del tren, la distribución marginal te indicará la frecuencia de pasajeros de primera clase, de clase económica, diestros, zurdos y ambidiestros.
La distribución marginal recibe su nombre del hecho de que los totales se muestran en los márgenes de la tabla.
Las frecuencias marginales de una tabla de contingencia muestran cuántos sujetos entran dentro de cada variable categórica individual.
Si sabes cómo hallar frecuencias marginales y frecuencias relativas, ¡entonces también conoces las frecuencias relativas marginales! Siempre que utilices una frecuencia marginal para hallar una proporción, estarás hallando una frecuencia relativa marginal.
Imagina que tuvieras que determinar la frecuencia marginal de los pasajeros de clase económica en relación con el total de sospechosos de la tabla. Sabiendo que la frecuencia marginal de los pasajeros de clase económica es \(53\) y la frecuencia total es \(100\), la frecuencia relativa marginal de los pasajeros de clase económica es
\[\frac{53}{100}\]
o escrita en porcentaje
\[ \frac{53}{100}\cdot 100 \% = 53\%\]
También puedes aplicar este razonamiento para hallar más frecuencias. Prueba a encontrar la frecuencia marginal de personas zurdas, o la frecuencia relativa marginal de pasajeros de primera clase.
Frecuencia condicional y frecuencia relativa condicional
Utilizando la misma tabla, si decides centrarte en una fila concreta, estarás trabajando con una escritura concreta. Del mismo modo, si decides centrarte en una columna concreta, entonces estarás tratando con una clase de embarque específica.
En este caso, estás poniendo una condición a los valores que estás leyendo de la tabla.
La frecuencia condicional es el número de sujetos que entran en una categoría, teniendo en cuenta que ya se ha especificado la otra categoría.
La frecuencia condicional tiene más sentido cuando se habla de frecuencia relativa condicional.
Una frecuencia relativa condicional es el cociente de una frecuencia condicional dividido por la frecuencia marginal de la categoría especificada.
Normalmente, se utiliza la palabra "dada" para enfatizar que se trata de una frecuencia condicional.
Como siempre, esta idea se entiende mejor con un ejemplo.
Utilizando la información de la tabla, determina la frecuencia relativa condicional de que un sospechoso sea zurdo dado que está en la clase económica.
Solución:
Aquí tienes de nuevo la tabla, para que no tengas que desplazarte hacia arriba.
Clase de embarque | ||||
Primera clase | Clase económica | Total | ||
Escritura | Derecha | \[30\] | \[35\] | \[65\] |
Izquierda | \[13\] | \[11\] | \[24\] | |
Ambidiestro | \[4\] | \[7\] | \[11\] | |
Total | \[47\] | \[53\] | \[100\] |
Tabla 1. Categorías de personas y destreza manual.
Se te pide que encuentres una determinada frecuencia relativa condicional dado que el pasajero es de clase económica. Esto significa que te centrarás en la columna que contiene las frecuencias de los pasajeros de clase económica.
Como se te pide que halles la frecuencia relativa condicional de que un sujeto sea zurdo, ahora te fijas en la fila con los pasajeros zurdos. Hay \(11\) pasajeros zurdos de clase económica.
Por último, divide esta frecuencia por la frecuencia marginal de pasajeros de clase económica. El número de la parte inferior de la columna de la clase económica te dice que hay \(53\) pasajeros de clase económica, por lo que la frecuencia relativa condicional de que un sospechoso sea zurdo, dado que está en la clase económica, es:
\[ \frac{11}{53}\]
que puedes escribir como porcentaje con ayuda de una calculadora, es decir
\[ \frac{11}{53} \cdot 100 \% = 20,75 \%\]
El uso de la frecuencia relativa en el análisis de una tabla de contingencia te permite reexpresar la tabla en porcentajes de la condición deseada, que puede requerir sólo una categoría o una combinación de ambas. Cuando se consigue esto, se puede dibujar un gráfico en forma de gráfico circular o de barras.
Graficar dos variables categóricas
Como ya se ha dicho, la tabla de dos vías es esencial para visualizar dos variables categóricas. El siguiente ejemplo es una ilustración rápida de la representación gráfica de dos variables categóricas.
Teniendo en cuenta la tabla que se ha utilizado repetidamente en este texto, haz un gráfico circular considerando todos los datos dados.
Solución:
En este caso, las dos categorías deben representarse en un gráfico circular. Esto significa que hay que volver a expresar la tabla de contingencia en porcentaje para trazar fácilmente el gráfico. A continuación se muestra la tabla a partir de los datos dados:
Clase de embarque | ||||
Primera clase | Clase económica | Total | ||
Escritura | Derecha | \[30\] | \[35\] | \[65\] |
Izquierda | \[13\] | \[11\] | \[24\] | |
Ambidiestro | \[4\] | \[7\] | \[11\] | |
Total | \[47\] | \[53\] | \[100\] |
Tabla 2. Categorías de personas y destreza manual.
Cada casilla debe representarse en porcentaje como fracción del total, que es \(100\). Por ejemplo, la frecuencia relativa de pasajeros zurdos de primera clase se calcularía como
\[\frac{13}{100}\cdot 100\%=13\%\]
Repitiendo este proceso con todas las frecuencias, se obtiene la siguiente tabla.
Clase de embarque | ||||
Primera clase | Clase económica | Total | ||
Escritura | Derecha | \[30 \%\] | \[35 \% \] | \[65 \%\] |
Izquierda | \[13 \%\] | \[11 \%\] | \[24 \%\] | |
Ambidiestro | \[4 \%\] | \[7 \%\] | \[11 \%\] | |
Total | \[47 \%\] | \[53 \%\] | \[100 \%\] |
Tabla 3. Categorías de personas y destreza manual.
El gráfico circular anterior ilustra la representación gráfica de los datos recopilados por el detective y es un ejemplo de gráfico de dos variables categóricas.
También es habitual dibujar gráficos utilizando frecuencias relativas condicionales.
El detective decide centrar su atención en los pasajeros de primera clase. Dibuja un gráfico circular de las frecuencias relativas condicionales de los pasajeros dado que son pasajeros de primera clase.
Solución:
Como se te pide que dibujes un gráfico circular para los pasajeros que cumplen la condición de ir en primera clase, debes centrarte en dicha columna de la tabla.
Pasajeros de primera clase | |
Derecha | \[30\] |
Zurdos | \[13\] |
Ambidiestros | \[4\] |
Total | \[47\] |
Tabla 4. Categorías de personas y destreza manual.
Como de costumbre, para dibujar un gráfico circular hay que hallar las frecuencias relativas, que en este caso serán frecuencias relativas condicionales. Para los pasajeros diestros de primera clase, esto es
\[ \frac{30}{47} \cdot 100 \% = 63,8\%\]
y hallar el resto de frecuencias relativas condicionales de forma similar, obteniendo la siguiente tabla.
Pasajeros de primera clase | |
Derecha | \[63.8 \%\] |
Zurdos | \[ 27.7 \% \] |
Ambidiestros | \[ 8.5 \% \] |
Total | \[ 100\%\] |
Tabla 5. Categorías de personas y destreza manual.
He aquí el gráfico circular resultante.
Ten en cuenta que también puedes utilizar otros tipos de gráficos para estudiar dos variables categóricas, como los gráficos de barras o los gráficos de barras apiladas.
Dos variables categóricas y correlación
Existen algunas pruebas para calcular la correlación entre dos variables categóricas, como la correlación tetracórica, la correlación policórica y la V de Cramer. Sin embargo, estos métodos no se abordan en AP, por lo que quedarán fuera del ámbito de este artículo.
Siempre que trates la correlación a nivel AP, estarás hablando de la correlación entre variables cuantitativas. Para más información al respecto, echa un vistazo a nuestro artículo sobre Dos variables cuantitativas.
La prueba de las dos variables categóricas
Para comprobar la asociación entre variables en una tabla de contingencia, se utiliza la prueba chi-cuadrado (o \(X^ 2\)). Se plantean dos preguntas, que forman la hipótesis nula y la hipótesis alternativa. La hipótesis nula se denota como \(H_0\), y representa "no existe asociación entre ambas variables", lo que implica que ambas variables son realmente independientes. Mientras tanto, la hipótesis alternativa denotada por \(H_a\) representa "existe asociación entre ambas variables", e implica que ambas variables son dependientes.
Para más información sobre la prueba chi-cuadrado y cómo realizarla, consulta nuestro artículo Pruebas chi-cuadrado.
Regresión con dos variables categóricas
Además de estudiar la relación entre los datos que has recogido, la estadística también puede utilizarse para predecir resultados. Dado un conjunto de datos suficientemente significativo, puedes empezar a hacer predicciones basándote en los datos que has recogido previamente. Esta es la idea principal del análisis de regresión .
El análisis de regresión es un conjunto de técnicas utilizadas en estadística para encontrar un modelo matemático que pueda describir la relación entre dos (o más) variables.
El análisis de regresión suele hacerse sobre variables cuantitativas, porque trabajas con los valores numéricos de dichas variables. Sin embargo, en algunos escenarios, es posible asignar un valor numérico a una variable categórica, por lo que las técnicas utilizadas en la regresión pasan a estar disponibles. El siguiente ejemplo puede resultarte familiar.
A efectos administrativos, los restaurantes suelen recurrir a encuestas para evaluar la satisfacción de los clientes. Esta satisfacción puede considerarse una variable categórica, que normalmente se describirá con palabras como
- Terrible
- Malo
- Regular
- Buena
- Excelente
Sin embargo, no puedes hacer operaciones con estas palabras. Una forma de afrontar esta situación es asignar valores numéricos a cada una de las categorías posibles, por lo que puede que ahora te suene familiar la siguiente frase:
"En una escala de \(1\) a \(5\), donde \(1\) es terrible y \(5\) es excelente, ¿cómo calificarías el servicio?".
De este modo, puedes asignar un valor numérico a cada una de las posibles palabras que hubieras utilizado.
- Terrible
- Malo
- Regular
- Buena
- Excelente
Si crees que el servicio fue casi excelente, este método también te permitirá dar valores intermedios, como \(4,8\).
Una vez que hayas asignado valores numéricos a las variables categóricas, ya puedes empezar a hacer regresión con ellas. Sólo tienes que asegurarte de que los valores numéricos asignados son suficientemente razonables. Para más información sobre el análisis de regresión, echa un vistazo a nuestro artículo Regresión lineal.
Ejemplos de dos variables categóricas
Deberías probar tantos ejemplos como sea posible para desarrollar competencia en tareas que impliquen dos variables categóricas.
El detective decide ahora centrarse en investigar a los diestros. Dibuja un gráfico circular de las frecuencias relativas condicionales de los pasajeros dado que son diestros.
Solución:
Como se te pide que dibujes un gráfico circular para los pasajeros que cumplen la condición de ser diestros, debes centrarte en la fila correspondiente de la tabla.
Primera clase | Clase económica | Total | |
Diestros | \[30\] | \[35\] | \[65\] |
Tabla 6. Categorías de personas y destreza manual para diestros.
Las frecuencias relativas siempre son necesarias para dibujar gráficos circulares, así que hállalas utilizando el método habitual. El resultado será la siguiente tabla.
Primera clase | Clase económica | Total | |
Personas diestras | \[46.2 \% \] | \[ 53.8 \%\] | \[ 100 \%\] |
Tabla 7. Categorías de personas y destreza manual para diestros.
Utilizando esta tabla, puedes dibujar el gráfico circular de estas frecuencias relativas condicionales.
¿Recuerdas la escena del crimen? Mientras el detective llevaba a cabo su investigación, confirmó que el crimen había sido perpetrado por una persona ambidiestra de primera clase, que además tenía gripe. Al poner una condición adicional, ¡el detective redujo la búsqueda! Sin embargo, el único ambidiestro con gripe que había en el tren era... YO. ¿He cometido un asesinato ? Espera al siguiente ejemplo para confirmarlo.
Se realizó una encuesta para determinar la relación entre la sociabilidad de una población y el tamaño de su familia. Para ello, se preguntó a un individuo si se consideraba sociable o no y si procedía de una familia de cuatro miembros o menos, o de una familia de más de cuatro miembros. Los resultados se muestran a continuación.
Categorías | Sociable | No sociable |
Tamaño de la familia de cuatro o menos | \[40\] | \[50\] |
Tamaño de la familia superior a cuatro | \[90\] | \[20\] |
Tabla 8. Categorías de personas y su sociabilidad.
a. Halla la frecuencia relativa de individuos que proceden de una familia de más de cuatro miembros, en relación con el total de individuos de la muestra.
b. Determina la frecuencia relativa condicional de que un individuo proceda de una familia de cuatro o menos, dado que no es sociable.
c. Haz una gráfica de la información dada.
Solución:
Como no se te proporciona esa información, debes empezar por hallar las frecuencias marginales y añadirlas a la tabla de contingencia. En este caso, sólo tienes que sumar los valores de las filas y las columnas.
Categorías | Sociable | No sociable | Total |
Tamaño de la familia de cuatro o menos | \[40\] | \[50\] | \[90\] |
Tamaño de la familia superior a cuatro | \[90\] | \[20\] | \[110\] |
Total | \[130\] | \[70\] | \[200\] |
Tabla 9. Categorías de personas y su sociabilidad..
Ahora, puedes responder a las preguntas.
a. Es la frecuencia marginal de individuos que proceden de familias de más de cuatro miembros, dividida por el total de individuos de la muestra. Esto es
\[\frac{110}{200}=\frac{11}{20}\]
o escrito como porcentaje
\[ \frac{11}{20} \cdot 100 \% = 55 \%\]
b. Se te pide que hallesla frecuencia relativa condicional de que un individuo pertenezca a una familia de cuatro miembros o menos, dado que no es sociable. La condición que se pone aquí es que el individuo no sea sociable, por lo que te centrarás en la columna correspondiente.
A continuación, ve a la fila correspondiente para hallar que \(50\) individuos de esta categoría también proceden de una familia de cuatro miembros o menos. Para hallar la frecuencia relativa condicional, divide este número por el total de individuos no sociables, así
\[\frac{50}{70}=\frac{5}{7}\]
o escrito como porcentaje
\[ \frac{5}{7} \cdot 100 \% = 71,4\%\]
c. Se puede dibujar un gráfico de barras para dar una interpretación visual de los datos dados. Sin embargo, sería conveniente disponer de una tabla aparte con los datos en porcentajes, como se muestra a continuación:
Categorías | Sociable | No sociable | Total |
Tamaño de la familia de cuatro o menos | \[ 20\%\] | \[25 \%\] | \[45 \%\] |
Tamaño de la familia superior a cuatro | \[ 45 \% \] | \[ 10 \% \] | \[ 55 \% \] |
Total | \[ 65 \% \] | \[ 35 \% \] | \[ 100 \% \] |
Tabla 10. Categorías de personas y su sociabilidad..
El siguiente gráfico de barras es una representación de los datos proporcionados:
Después de que el detective revelara que yo era el culpable, desperté de mi sueño cansado. No obstante, todo lo que has aprendido aquí se basa en principios estadísticos y te resultará muy útil cuando intentes más tareas. ¿Ves cómo la estadística puede ser útil incluso para resolver crímenes?
Dos variables categóricas - Puntos clave
- Dos variables categóricas son representaciones de datos ordenadas considerando dos factores o grupos, que también se denominan categorías.
- Al estudiar dos variables categóricas, suelen disponerse en tablas de contingencia, que también se conocen como tablas bidireccionales.
- Cada valor de una tabla de contingencia representa la frecuencia de los individuos que entran en cada combinación de las dos variables categóricas.
- Las tablas de contingencia también suelen incluir totales en sus márgenes. Estos totales se conocen como frecuencias marginales .
- Las frecuencias marginales de una tabla de contingencia muestran cuántos sujetos caen dentro de cada variable categórica individual.
- La frecuencia relativa es la fracción de un suceso respecto a la frecuencia total en un experimento estadístico.
- Una frecuencia relativa condicional puede obtenerse dividiendo una de las frecuencias de la tabla por la frecuencia marginal de la categoría que se utiliza como condición.
- Los datos del estudio de dos variables categóricas pueden ordenarse mediante los típicos gráficos que se utilizan para los datos categóricos, como los gráficos de barras y los de tarta.
Aprende más rápido con las 13 tarjetas sobre Dos Variables Categóricas
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre Dos Variables Categóricas
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más