Estadística descriptiva: del arte de explorar y otras cuestiones Parte 4

Tres casos de Big Data

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y las estadísticas descriptivas que podemos utilizar para explorar los datos del tipo cualitativo. Este es el último post de esta serie Eso no quiere decir que no tendremos más post sobre exploración y limpieza de datos porque de este tema hay para cientos de post, de hecho, hay libros enteros que sólo se dedican a este tema, el motivo de esa decisión es que queremos que el contenido de nuestro blog sea variado, cuando retomemos este tema pondremos los hipervínculos respectivos y en éste les contaremos sobre las herramientas que disponemos para explorar las variables del tipo cuantitativo: medidas de tendencia central, medidas de dispersión y los gráficos más utilizados.

Medidas de tendencia central

Una medida de tendencia central describe un conjunto de datos al identificar la posición central con un único valor numérico. Las tres medidas más utilizadas son: la media (también conocida como el promedio o la media aritmética), la mediana (también conocida como el segundo cuartil) y la moda. En la siguiente figura vemos un ejemplo de cómo calcular estas tres medidas para una serie de números.

La media resulta ser la suma de los valores divido por el número de observaciones y es tal vez la medida de tendencia central más utilizada. La media tiende a no ser útil cuando los datos presentan valores extremos porque se produce un sesgo en la media ya que con esta medida todos los valores tienen la misma ponderación o importancia.

La mediana es aquel valor por el que la mitad (50%) de los datos está por debajo y la otra mitad (50%) está por encima. Para poder calcular la mediana debemos organizar los datos de menor a mayor. Si observa la figura en este caso la mediana es 6, al lado izquierdo hay 5 números y al lado derecho hay otros 5 números. Si el número de valores no es impar como el caso del ejemplo, debemos sumar y dividir por dos los números que estarían al lado de la mediana. Por ejemplo, suponga que la serie es: 3,4,5,5,5,5, 6,6,7,8,8,9. Esta serie tiene 12 números, la mediana estaría entre 5 y 6 por lo tanto la mediana sería 5.5 ((5+6) / 2)

La moda es el valor que más se repite en una serie, en la figura es el número 5 (se repite 3 veces). Puede haber una sola moda, como en la figura, o puede haber 2 o más modas, o incluso puede ser que la serie no tenga moda porque no hay algún número que se repita más de 1 vez.

Medidas de dispersión

Las medidas de dispersión nos muestran qué tan esparcidos están los datos. Puede haber medidas absolutas o relativas. Dentro de las absolutas las más utilizadas son el rango y la desviación estándar; mientras que, el coeficiente de variación es el más utilizado dentro de las relativas.

El rango como la muestra la Figura 2 es la diferencia entre el valor más grande y el menor valor. Es decir es una medida de la dispersión total que hay en los datos, y por lo tanto no tiene en cuenta cómo los datos se distribuyen entre el menor y el mayor valor. Es por eso por lo que utilizamos otras medidas de dispersión como la desviación estándar.

La desviación estándar muestral es en “promedio” qué tan dispersos están los valores alrededor de la media. Para calcularla debemos obtener la diferencia entre cada valor y la media (por eso a cada valor de nuestro ejemplo le restamos el 6).  Cada diferencia es elevada al cuadrado y sumamos los resultados. Finalmente dividimos por n-1 (obteniendo la varianza muestral) y a ese resultado le sacamos la raíz cuadrada. Vean que el hecho de que elevemos al cuadrado la diferencia nos lleva a obtener que siempre la varianza y la desviación estándar sean positivas. Entre mayor sea la desviación estándar más dispersos estarán los datos.

Por último, el coeficiente de variación es la desviación estándar divida por la media y se expresa en términos porcentuales. Este indicador se utiliza mucho cuando estamos comparando dos o más conjuntos de datos que se encuentran medidos en diferentes escalas.

Visualizaciones

En la figura 3 y 4 vemos unos datos cuantitativos y sus respectivas estadísticas descriptivas. A primera vista parece que no hay mucha diferencia. Sin embargo, cuando los gráficos (figura 5) observamos que cada conjunto de datos tiene un comportamiento diferente. Lo anterior refuerza la importancia de acompañar nuestras tablas y estadísticos numéricos con visualizaciones. ¿Cuáles son las más utilizadas? Los histogramas, las líneas, las cajas de bigotes, y los diagramas de dispersión. Los histogramas los utilizamos para variables individuales; mientras que, los diagramas de dispersión nos sirven para ver si hay algún tipo de relación entre dos variables.

Fuente: Frank Anscombe (1973).