|
|
Estadística descriptiva

Imagina que tienes muchos datos, como por ejemplo las alturas de los alumnos del colegio. ¿Qué pasa si alguien te pregunta algo como cuál es la altura de los alumnos?. 

Mockup Schule

Explora nuestra app y descubre más de 50 millones de materiales de aprendizaje totalmente gratis.

Estadística descriptiva

Illustration

Lerne mit deinen Freunden und bleibe auf dem richtigen Kurs mit deinen persönlichen Lernstatistiken

Jetzt kostenlos anmelden

Nie wieder prokastinieren mit unseren Lernerinnerungen.

Jetzt kostenlos anmelden
Illustration

Imagina que tienes muchos datos, como por ejemplo las alturas de los alumnos del colegio. ¿Qué pasa si alguien te pregunta algo como cuál es la altura de los alumnos?.

Tú sabes que no hay dos alumnos que midan lo mismo. Sin embargo, podrías dar una medida que, aunque no sea lo que miden todos, sea una aproximación.

¿Cómo sería esta estatura? ¿Sería la que se repite más? ¿Qué tal si hay 10 alumnos que miden \(1,50 m\)? ¿Esta es una medida que está a la mitad de la medida mayor y la menor? ¡Es difícil saber cuál sería la que tú piensas que es mejor, porque cada medida representa algo distinto!

También podrías hablar acerca de qué tan lejos están las medidas entre sí, qué porcentaje de alumnos mide más de \(1,60m\), etc.

En principio, parecía un problema sencillo ¿no? Su complejidad radica en que así es como la estadística nos ayuda a saber qué valores escoger, cómo calcularlos y qué representan.

Estas medidas se llaman medidas de tendencia central y dispersión, y forman parte de la estadística descriptiva.

¿Cuáles son las medidas de tendencia central?

Una medida de tendencia central es un valor en una serie de datos; por ejemplo, en una lista de alturas que intenta resumir estos datos usando un valor único.

Se tiene la siguiente lista de alturas:

\[x={1,45\,m; 1,56\,m; 1,76\,m; 1,55\,m; 1,67\,m; 1,49\,m; 1,58\,m}\]

Se puede calcular un valor que sea la suma de todas las alturas divididas entre el número de datos:

\[valor={{1,45\,m + 1,56\,m + 1,76\,m + 1,55\,m + 1,67\,m + 1,49\,m + 1,58\,m}\over{7}}\]

\[valor=1,58\,m\]

Aquí el valor calculado es una medida de tendencia central conocida como la media aritmética de la cual hablaremos más adelante.

Cada medida de tendencia central nos da una información distinta. En este artículo aprenderás acerca de tres de ellas:

  • Media aritmética: es el promedio de los datos.

  • Moda: es el dato que más se repite.

  • Mediana: es el dato a la mitad de todo el conjunto de datos.

Pero, hablemos un poco de cada.

Media aritmética

La media aritmética, o simplemente media, es la medida de tendencia central con la que deberías estar más familiarizado. El proceso que ya vimos en el ejemplo de las alturas consiste en sumar todos los valores del conjunto de datos y luego dividirlos por el número de datos. En cierto sentido, la media aritmética es un promedio de los datos.

Veamos un ejemplo:

La medida de la precipitación en una ciudad durante una semana se mide en \(mm\). Los datos son los siguientes:

Día

Precipitación

Lunes

2 mm

Martes

0 mm

Miércoles

0 mm

Jueves

0 mm

Viernes

6 mm

Sábado

0 mm

Domingo

10 mm

Tabla 1: Tabla de precipitaciones, en función de los días de la semana, para calcular la media aritmética.

La media de estos datos sería:

\[valor={{2\,mm + 0\,mm + 0\,mm + 0\,mm + 6\,mm + 0\,mm + 10\,mm }\over{7}}\]

\[valor=2,57\,mm\]

La media aritmética tiene un pequeño problema, y es que si en uno de los días hubiese una lluvia torrencial, el promedio se elevará muchísimo. Si un día llueve 30 mm, el promedio se duplicará, aunque en realidad solo lloviese mucho durante un día.

Mediana

Cuando tenemos un conjunto de datos que se pueden ordenar de alguna manera, podemos encontrar la mediana. Esto es normal en datos numéricos, ya que podemos ordenarlos de mayor a menor o de menor a mayor.

El proceso para hallar la mediana es el siguiente:

  • Paso 1: Ordenar los datos; por ejemplo, de menor a mayor.

  • Paso 2: Restar el valor mayor del valor menor.

  • Paso 3: Dividir el resultado de la resta entre dos.

  • Paso 4: Sumarlo al dato menor.

Hagamos un ejemplo rápido sobre esto:

Se tiene la siguiente lista de datos:

\[x={1; 5; 7; 6; 15; 34; 56; 104; 32; 23; 56; 78; 203; 506; 4; 34; 56; 78; 94}\]

Calcula la mediana de esta lista.

Primero, ordenamos la lista como:

\[x={1; 4; 5; 6; 7; 15; 23; 32; 34; 34; 56; 56; 78; 94; 104; 203; 506}\]

Ahora, restamos el mayor del menor,

\[n=506-1=505\]

y lo dividimos entre dos

\[m=252,5\]

En este caso la mediana es \(me=252,5\).

Al igual que la media, la mediana tiene una característica que puede ser negativa y es que solo representa el dato que está a la mitad de nuestros datos, este dato podría no ser parte de los datos originales.

Moda

La moda de un conjunto de datos es el valor más común en tus datos. Si hay dos o más valores que son los más comunes, ambos son la moda.

Vemos un ejemplo sencillo:

Encuentra la moda del siguiente conjunto de datos: \(1, 2, 3, 4, 4, 5, 6, 6, 6, 6, 7\)

La moda aquí sería el \(6\), ya que aparece cuatro veces, lo que lo convierte en el valor más común.

Encuentra la moda de los siguientes números: \(1, 2, 2, 3, 3, 3, 5, 7, 7, 7, 9, 11, 134\).

Tanto el \(3\) como el \(7\) aparecen tres veces, por lo que ambos son el valor más común. Esto significa que la moda es el \(3\) y el \(7\).

Cuando los datos poseen dos modas, se conocen como bimodales.

Problemas de las medidas de tendencia

Cada medida de tendencia central tiene sus propias ventajas e inconvenientes.

En el caso de la media, las ventajas son:

  • Que utiliza todos los datos y, por tanto, es representativa de todos ellos.

Sin embargo, el uso de la media tiene desventajas:

  • Está desproporcionadamente influenciada por los valores extremos, que pueden desvirtuar la media.

  • La media tampoco puede utilizarse si nuestros datos no son numéricos, y es la que más cálculos requiere de todas las medidas de tendencia central.

Para la moda, las ventajas son:

  • Podemos encontrar la moda de un conjunto de datos, ya sean numéricos o de otro tipo.

  • Hay un cálculo limitado, ya que sólo tenemos que contar los datos; lo que significa que, si nuestros datos vienen pre-tallados, esto ayuda a la moda.

Sin embargo, el inconveniente es:

  • La moda no existe necesariamente.

  • Podemos tener múltiples modas, lo que no nos ayuda a describir mucho sobre el conjunto de datos.

  • La moda no tiene en cuenta todo el conjunto de datos.

Nuestra última medida de tendencia central es la mediana.

Las ventajas son:

  • No se ve afectada por ningún valor atípico o extremo

  • Tenemos que hacer muy pocos cálculos.

Por otro lado, su parte negativa es que:

  • Requiere que ordenemos el conjunto de datos; lo que, en el caso de grandes conjuntos de datos, es largo e implica mucho tiempo.

  • No tiene en cuenta todo el conjunto de datos, lo que significa que podría dar resultados débiles.

Medidas de desviación y dispersión

Además de tener medidas que te indican propiedades de tus datos, existen también medidas que te indican cuánto se desvían tus datos entre sí o con respecto a las medidas de tendencia central. Estas se llaman medidas de dispersión o desviación.

Las tres medidas principales son:

  • La desviación media.

  • La desviación típica o desviación estándar.

  • La varianza.

La desviación media

La desviación media es la medida que nos indica cuán alejados están todos los valores con respeto a la media aritmética. Esta desviación es promediada en función de todos los datos. La fórmula es la siguiente:

\[ {\sum_i=1^n {{|x_i-x_m|}}\over{n}} \]

Aquí:

  • \(x_m\) es la media aritmética,
  • \(x_i\) son los datos individuales que se restan a la media aritmética,
  • \(i\) es el dato inicial,
  • \(n\) es número de datos total.

La desviación típica o desviación estándar

Es otra medida de dispersión muy importante. Esta nos permite saber qué porcentaje de los datos viven alrededor de la media aritmética.

Por ejemplo, entre la media aritmética y la desviación estándar viven alrededor del \(68.2%\) de los datos.

Cabe decir que la desviación estándar o típica se aplica cuando los datos siguen una distribución de datos normal o gaussiana.

La fórmula de la desviación típica o estándar es: \[ σ= \sqrt{{\sum_i=1^n {(x_i-x_m)^2}}\over{n}} \]

Puedes ver la representación de la desviación estándar abajo:

Medidas de tendencia central y dispersión desviación típica probabilidad StudySmarterFig. 1: El significado geométrico de la desviación estándar es el área entre el dato más repetido y cierto valor de probabilidad.

La varianza

La varianza es una forma alternativa de medida de dispersión a la desviación estándar (o típica) y consiste en simplemente elevar la desviación estándar al cuadrado.

\[Varianza=σ^2\]

La forma más sencilla de entender estas medidas es haciendo un ejemplo:

Se tienen datos del peso de los alumnos de una escuela, debido a un reciente estudio de salud. Se sabe que los datos totales siguen una distribución normal y que el promedio de estos datos es \(w=56\,kg\). Se toma una pequeña muestra de datos, que consisten en 20 datos.

Calcula la desviación estándar y media de esta muestra, con respecto a su promedio y, también, su varianza.

Los datos son:

\[x={45\,kg, 49\,kg, 46\,kg, 67\,kg, 70\,kg, 56\,kg, 40\,kg, 48\,kg, 50\,kg, 53\,kg, 47\,kg, 44\,kg, 49\,kg, 60\,kg, 65\,kg, 50\,kg, 47\,kg, 45\,kg, 52\,kg, 50\,kg}\]

Calculando el promedio:

\[m={{45+49+46+67+70+56+40+48+50+53+47+44+49+60+65+50+47+45+52+50}\over{20}}\]

\[m=51,65\,kg\]

Calcularemos los primeros términos de la división:

\[|45-51,65|=|-6,65|=6,65\]

\[|45-51,65|=|-2,65|=2,65\]

\[|45-51,65|=|-5,65|=5,65\]

Si seguimos así y sumamos los siguientes 17 y dividimos entre 20,

\[desviación media= 6,14\]

Ahora, si hacemos lo mismo con la desviación estándar, los primeros tres términos son:

\[(45-51.65)^2=44,42\]

\[(45-51.65)^2=7,00\]

\[(45-51.65)^2=31,92\]

Si seguimos con los siguientes \(17\), dividiendo entre \(20\) y tomando la raíz cuadrada del resultado:

\[σ=8,060\]

Si elevamos este término al cuadrado, obtenemos:

\[Varianza=64,96\]

Cuartiles y percentiles

¿Recuerdas que te mencionamos que dentro de la partición creada por la desviación estándar y el dato promedio existen el \(68,2%\) de datos?

  • A estas particiones en una distribución de datos se las conoce como percentiles. En este caso el área entre los valores del promedio y la desviación estándar son \(68,2%\).
  • Los cuartiles, por otra parte son una especie de percentil, y marcan donde viven el \(25%\) de los datos. Debido a que el cuartil puede sonar a un cuarto de los datos, también pueden ser conocidos como percentiles.

Si quieres leer más acerca de la desviación estándar y saber cómo se relaciona esta con los datos y el porcentaje de datos entre el promedio y esta, no olvides leer el artículo de Distribuciones continuas de probabilidad.

Mencionamos la distribución normal en varias partes de este artículo, puedes leer más sobre esta en su propio artículo. Sin embargo, podemos decirte algunas cosas básicas sobre esta distribución.

  • Los datos en una distribución normal se concentran en un valor central, que es el que tiene más probabilidades de aparecer; en una distribución de datos, este dato es la moda.
  • En algunas distribuciones de moda, la mediana y la media son el mismo dato, pero no siempre esto sucede.
  • La probabilidad de que un dato aparezca conforme se aleja de los valores centrales disminuye hasta que es cero.
  • Entre la desviación estándar o típica existen el 68,2% de los datos.
  • La distribución normal es también conocida como distribución gaussiana.
  • Puedes ver una imagen de una distribución normal a continuación

Medidas de tendencia central y dispersión desviación estándar StudySmarterFig. 2. Una distribución normal o gaussiana estándar definida por una función de probabilidad \(P(x)\). Donde m es la media y también la moda-mediana; además, un \(68,2%\) de los datos se encuentran a la izquierda y derecha de la desviación estándar.

En este caso esta es una distribución continua, ya que toma cualquier valor entre \(0\) y \(13,5\). Si no fuese así seria una distribución discreta.

Estadística descriptiva - Puntos clave

  • Para hallar la media, sumamos todos los valores del conjunto de datos y los dividimos por el número de puntos de datos.
  • La moda es el valor más común de un conjunto de datos.
  • La mediana es el valor central del conjunto de datos.
  • Las medidas que nos indican qué tan dispersos son los datos son las medidas de dispersión.
  • Tres medidas de dispersión importantes son: la desviación media, la desviación estándar y la varianza.

Preguntas frecuentes sobre Estadística descriptiva

Si toma cualquier valor dentro del rango donde esa variable exista; por ejemplo, si el rango es x=[0, 10],  puede tomar x=1, pero también x=1.1, x=1.01 y así.

Una distribución continua no se calcula, si no que viene dada por cómo se distribuyen los datos.

Algunos parámetros que definen a una distribución de probabilidad son:

  • La media
  • La moda
  • La mediana
  • La desviación media
  • La desviación típica
  • La varianza

Se debe dividir la distribución de probabilidad en áreas que cubren, cada una, un cuarto de los datos, o un 25%.


1. Se encuentra la mediana.

2. Se divide la distribución en dos partes: una arriba de la mediana y otra debajo de la mediana; cada una tiene un 50% de los datos.

3. Se encuentra el valor x para el cual la probabilidad entre la mediana y x es igual al 25%.

4. Se marca ese valor a ambos lados de la mediana, donde será: mediana-x para el valor menor y x+mediana para el mayor.

El resultado son 4 áreas, con 25% de los datos cada una.

Si quieres saber más sobre estos cálculos acude a nuestro artículo Distribución de probabilidad.

La desviación media es la medida que nos indica cuán alejados están todos los valores con respeto a la media aritmética. Esta desviación es promediada en función de todos los datos.

Pon a prueba tus conocimientos con tarjetas de opción múltiple

¿Con qué otro nombre se conoce al promedio en estadística?

¿Qué es la moda en estadística?

A los datos que poseen dos modas se le conoce como:

Siguiente

Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.

La primera app de aprendizaje que realmente tiene todo lo que necesitas para superar tus exámenes en un solo lugar.

  • Tarjetas y cuestionarios
  • Asistente de Estudio con IA
  • Planificador de estudio
  • Exámenes simulados
  • Toma de notas inteligente
Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter. Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.

Regístrate para poder subrayar y tomar apuntes. Es 100% gratis.

Entdecke Lernmaterial in der StudySmarter-App

Google Popup

Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.

Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.

La primera app de aprendizaje que realmente tiene todo lo que necesitas para superar tus exámenes en un solo lugar.

  • Tarjetas y cuestionarios
  • Asistente de Estudio con IA
  • Planificador de estudio
  • Exámenes simulados
  • Toma de notas inteligente
Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.