Sin embargo, esto ocurre cuando se tiene una sola variable y, en ciertos casos, te encontrarás con sistemas con más de una variable aleatoria. Esto es parte de una rama de las estadística llamada estadística multivariable. En este artículo nos enfocaremos en el caso de la bivariable:
En la estadística bivariable se miden las interacciones entre dos variables en un sistema y cómo los cambios de cada una afectan a la otra.
El coeficiente de correlación, que puede ser obtenido en estos, no permite saber la correlación entre ambas variables.
Estadística descriptiva bidimensional
Al igual que la estadística descriptiva para una simple variable aleatoria, en las distribuciones de datos donde hay más de una variable asociada a un resultado, existen ciertos puntos que debes reconocer:
La variable estadística multidimensional o bidimensional —en este caso, \(x=(X, Y)\)—.
Diagrama de dispersión, que en este caso es una gráfica que representa los puntos de las variables \((X,Y)\).
La covarianza muestral, que mide la dispersión conjunta de las variables \((X,Y)\).
El centro de gravedad, que son las medias de ambas variables \(X\) y \(Y\) en los rangos en los que existen.
Variable estadística bidimensional
En distribuciones que presentan más de una variable asociada a un resultado, se dice que se tiene una variable estadística multidimensional. En el caso que sean dos se tiene una variable estadística bidimensional.
Se dice que se tiene una variable estadística bidimensional si se tiene un experimento aleatorio, muestra o mediciones, donde cada objeto \(x\) puede ser asociado a dos variables cuyos resultados son distintos \((Y,X)\).
Un ejemplo de una variable aleatoria bidimensional sería el estudio entre el peso de las personas en un colegio y el salario que se obtiene en sus casas.
En este caso, es muy probable que una variable tenga un impacto en la otra, ya que la clase de dieta y alimentos disponibles sufrirán cambios —dependiendo de sus ingresos o, al menos, eso indicaría una posible teoría—.
Tabla de contingencia
Para poder representar los resultados de una variable bidimensional o multidimensional se usan tablas de contingencia.
En la primera columna de esta tabla se establecen las categorías o resultados que puede obtener la variable \(Y\). La primera fila, entonces, muestra las categorías o resultados que puede obtener las variables \(X\).
Cada celda representa la población que une los valores o categorías conjuntas de \((X=a_i,Y=b_i)\).
La columna y fila finales contienen las frecuencias relativas absolutas o el número de valores totales para cierto valor de \(X\) o \(Y\).
Esto lo podemos ver en la siguiente tabla:
| \(1\) | \(2\) | ... | \(n\) |
\(X\) | \(a_1\) | \(a_2\) | ... | \(a_n\) |
\(Y\) | \(b_1\) | \(b_2\) | ... | \(b_n\) |
Tabla 1: Las categorias \(X\) y \(Y\) tienen frequencias relativas para cada valor de \(1, 2,..., n\).
Si quieres saber más acerca de qué son y cómo se calculan estas frecuencias relativas, no olvides leer nuestro artículo sobre tablas de contingencia.
Diagrama de dispersión
Una vez tenemos la tabla de contingencia, podemos representar todos estos datos en una gráfica denominada diagrama de dispersión o nube de puntos. En esta, uno de los ejes representa una de las variables \(X\) y el otro eje representa la otra variable \(Y\). La intencionalidad de esta gráfica es ver cómo se relacionan las variables. Así podemos entender si las variables tienen una dependencia directa (vemos que \(Y\) crece de manera proporcional con \(X\), o inversamente proporcional) o son independientes (no observamos ninguna relación entre las variables).
Por ejemplo, una nube homogénea de puntos te puede decir que el centro gravedad está en el centro de la nube ( como se ve en la gráfica a continuación).
Fig. 1: Centro de gravedad \(PM\) de de una nube de puntos. En este caso, las entradas \((x,y)\) de \(PM\) son la media aritmética de las coordenadas \((x,y)\) de cada punto.
En cambio, si existe una relación fuerte entre ambas variables, se generaría un patrón consistente de los resultados. Uno de estos patrones, fácilmente, podría ser una relación lineal. En la siguiente gráfica puedes observar la relación lineal de las variables \(X\) y \(Y\).
Fig. 2: Recta que se ajusta, de mejor manera, a los datos (puntos).
Covarianza y relaciones entre variables
El valor de la covarianza es muy importante: dependiendo de su resultado, podemos saber cómo se comportan las variables:
Si la covarianza es positiva, la relación es directa; entonces, los puntos se apilan cerca a una recta con pendiente positiva.
Si la covarianza es negativa, la relación es inversa; entonces, los puntos se apilan cerca a una recta con pendiente negativa.
Si la covarianza es cero, se dice que no hay relación entre ambas variables.
Debes saber que cuanto más alto sea el valor de la covarianza, la relación se asemejará cada vez más a una recta.
Recta de regresión
Cuando se tiene una relación lineal, se puede obtener la recta de regresión. Esta es la función igual a una recta de tipo \(y=mx+b\), que nos dice la relación entre ambas variables.
La fórmula para esto es:
\[y-\mu_y=\dfrac{ \sigma_{xy}}{\sigma^2_x} (x-\mu_x)\]
Aquí \( \sigma_{xy}\) es la covarianza, que se define como:
\[\sigma_{xy}=\dfrac{\sum x_i y_i}{n} - \sigma_x \sigma_y\]
Distribuciones bidimensionales - Puntos clave
La estadística multivariable estudia la relación entre dos o más variables.
En la estadística bivariable, dos variables se relacionan entre sí para observar cómo ambas influyen en la otra.
Las tablas de contingencia son muy útiles para representar las frecuencias relativas absolutas en estadística multivariable.
Ciertos parámetros que nos indican cosas importantes de las distribuciones con más de una variable son: la covarianza como medida de dispersión y el centro de gravedad como media.
Dadas la covarianza y el centro de gravedad, se puede obtener una recta, que representa la relación entre los datos; pero, esto solo en caso de que los datos tengan una relación directa o inversa.
Si la covarianza arroja un valor positivo, la relación es directamente proporcional; si la varianza arroja un valor negativo, es directamente proporcional con pendiente negativa; y si da un valor cercano a cero, no hay relación entre las variables.
¿Cómo te aseguras de que tu contenido sea preciso y confiable?
En StudySmarter, has creado una plataforma de aprendizaje que atiende a millones de estudiantes. Conoce a las personas que trabajan arduamente para ofrecer contenido basado en hechos y garantizar que esté verificado.
Proceso de creación de contenido:
Lily Hulatt es una especialista en contenido digital con más de tres años de experiencia en estrategia de contenido y diseño curricular. Obtuvo su doctorado en Literatura Inglesa en la Universidad de Durham en 2022, enseñó en el Departamento de Estudios Ingleses de la Universidad de Durham y ha contribuido a varias publicaciones. Lily se especializa en Literatura Inglesa, Lengua Inglesa, Historia y Filosofía.
Conoce a Lily
Control de calidad del contenido:
Gabriel Freitas es un ingeniero en inteligencia artificial con una sólida experiencia en desarrollo de software, algoritmos de aprendizaje automático e IA generativa, incluidas aplicaciones de grandes modelos de lenguaje (LLM). Graduado en Ingeniería Eléctrica de la Universidad de São Paulo, actualmente cursa una maestría en Ingeniería Informática en la Universidad de Campinas, especializándose en temas de aprendizaje automático. Gabriel tiene una sólida formación en ingeniería de software y ha trabajado en proyectos que involucran visión por computadora, IA integrada y aplicaciones LLM.
Conoce a Gabriel Gabriel