Estadística descriptiva

Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte I

Explorar los datos es tal vez uno de los pasos más importantes en la analítica de datos y generalmente utilizamos la estadística descriptiva para hacerlo.. También es uno de los pasos que más toma tiempo, se estima que en un proyecto de analítica esta fase puede tomar 60% tiempo (es decir que, si usted establece que ese proyecto le va a tomar 10 meses, 6 meses se van a ir limpiando y explorando la base de datos) (Forbes, 2016). Además, es una fase que muchos evitan o tratan de minimizar. O bueno, al menos eso es lo que yo percibo, que los analistas, los gerentes, los directores de proyectos, y cargos similares, quieren llegar rápidamente a formular los modelos, correrlos y obtener resultados. Sin embargo, ¿usted se casaría con alguien sin conocerlo primero?

Probablemente no, y si sobre los resultados de los modelos usted va a tomar decisiones estratégicas y cruciales para el éxito de su organización (por ejemplo, si lanza o no un producto, si compra más o menos insumos de acuerdo con los pronósticos que haya realizado, o si contrata o no a un individuo), entonces sí debería dedicarse a conocer los datos por un tiempo antes de “casarse” con ellos a través de un modelo.  Lo anterior es aún más crucial si va a utilizar métodos y modelos complejos; la exploración, mediante el uso de estadística descriptiva, le da alguna certeza de que los modelos seleccionados están capturando la esencia de sus datos.

A mí personalmente, me encanta esta fase, porque cuando exploramos los datos encontramos patrones, tendencias, outliers, anomalías y esto resulta ser un paso fundamental durante la limpieza de los datos, y nos da ideas de qué modelos podemos podríamos aplicar.

Debido a su importancia, vamos a dedicarle varios posts a este tema. Hoy, en particular, hablaremos de los tipos de datos. Todavía no hablaremos de la exploración en sí porque primero identificamos el tipo de datos que tenemos y posteriormente buscamos la herramienta adecuada para explorarlos. Piense que, si el dato es un candado, entonces no cualquier llave puede abrirlo y revelarnos la información que hay detrás; primero, tenemos que descubrir qué tipo de candado es.

Tipos de Datos

La división básica divide los datos en numéricos vs categóricos. Los primeros se guardan de manera “natural” como números y pueden ser “medidos”; mientras que los categóricos son clases o categorías y no se pueden “medir”.

Los datos numéricos se dividen a su vez en datos continuos o discretos. Si ve un decimal, entonces es un dato numérico continuo; mientras que, si ve un numero entero, entonces es discreto. A lo anterior, agregaría que las cosas pueden tornarse un poco más complejas porque siempre debemos tener en cuenta el contexto de los datos. Por ejemplo, suponga que usted fabrica y vende ropa para niños menores de 12 años, y del área de ventas le informan que de acuerdo con el pronóstico (empleando un modelo ARIMA), se espera que el próximo mes se vendan 200.5 camisas para niños de 6 años. La variable número de camisas es de naturaleza discreta, aunque el pronóstico tenga decimales, usted no puede dejar media camisa por hacer.

Niveles de medición de las variables

Las variables cualitativas se pueden “medir” de manera nominal u ordinal. Nominal se refiere a que los datos los podemos clasificar en categorías que no siguen un orden lógico. Por ejemplo, el color del cabello es una variable nominal, cuyas categorías pueden ser: rubio, castaño, negro, blanco, rojo y otro. ¿Qué quiere decir que no sigan un orden lógico? Que uno no puede ordenar las categorías en una escala y decir que el cabello rubio es mejor que el cabello castaño, y que éste es mejor que el cabello negro, el cual a su vez es mejor que el cabello rojo, y que por último se encuentra el cabello blanco.

Además, las categorías tienen que cumplir dos condiciones: deben ser mutuamente excluyentes y colectivamente exhaustivas. Lo anterior quiere decir que los individuos solo deben aparecer en una categoría, por ejemplo, no es posible que una mujer tenga el cabello simultáneamente negro y rubio. O es negro o es rubio, pero no los dos al mismo tiempo (eso es mutuamente excluyente). Y bueno yo sé que hay mujeres que tiene el pelo negro y se tinturan las puntas de color rubio o se hacen rayitos, entonces ¿qué debe hacer? Todo depende del objetivo de su investigación, es decir, de qué busca responder con los datos que está recolectado. Después de tener claro eso, usted puede decidir si precisa más su pregunta (¿de qué color es su cabello natural?), amplia las categorías de respuesta a su pregunta original, o incluso puede dejar la pregunta y las categorías de respuesta sin cambios.

Ahora, colectivamente exhaustivo se refiere a que por lo menos uno de los eventos, o de las categorías, debe ocurrir. Por ese motivo muchas veces usted ve la opción otro, seguida de la pregunta cuál. A veces, aunque realicemos pilotos de las encuestas, no podemos estar seguros de que estamos incluyendo absolutamente todos los posibles casos y la categoría “otro” es la que nos salva. Por ejemplo, suponga que usted pregunta a un hombre que es 100% calvo: ¿de qué color es su cabello?, y las posibles respuestas son: rubio, castaño, negro, blanco, rojo. La respuesta otro con la posibilidad de escribir ¿cuál? es su salvación.

Las variables ordinales también tienen esa característica de ser mutuamente excluyentes y colectivamente exhaustivas, pero se diferencian de las nominales porque sí hay un orden lógico. Por ejemplo, una variable que sea satisfacción con el servicio al cliente y cuyas categorías de respuesta sean: muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho. En ese caso, las categorías están ordenadas de acuerdo con el nivel de satisfacción, del más satisfecho al menos satisfecho. Pero OJO ese orden no corresponde a una magnitud, es decir, uno no puede afirmar que el individuo que respondió que está muy satisfecho está el doble de satisfecho que el que respondió que está satisfecho, o 4 veces más satisfecho que el que respondió muy insatisfecho. Solo podemos saber que el que está muy satisfecho está por encima del que respondió muy insatisfecho en la escala de nivel de satisfacción, pero no sabemos cuántas veces más.

Comentarios finales

En el próximo post hablaremos de los niveles de medición de las variables cuantitativas: de intervalo y de razón. Y les dejare un caso de estudio para que afiancemos estos conceptos antes de presentarles algunas herramientas de exploración.

Referencias

  1. Forbes (2016). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Disponible en https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#57e6bbe76f63
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte II

En el post pasado hablamos de los tipos de variables (cualitativas vs cuantitativas) y de los niveles de medición de las variables cualitativas: nominal y ordinal. En este post les hablaré sobre los niveles de medición de las variables cuantitativas y les dejaré un breve ejercicio para que afiancemos estos conceptos antes de presentarles las herramientas de exploración.

De intervalo

Las variables de intervalo son aquellas en donde se clasifica a los datos en una escala (arbitraria) y donde cada valor de la escala corresponde a una categoría. Esas categorías se caracterizan, al igual que las categorías de las variables ordinales, por ser mutuamente excluyentes y colectivamente exhaustivas; sin embargo, a diferencia de las variables ordinales siguen un orden lógico que corresponde a la magnitud de la escala asociada a la característica. Además, el cero no implica la carencia de la característica.

Veamos un ejemplo con la variable “temperatura del cuerpo humano en grados centígrados”. Primero, sería muy extraño encontrar a un individuo que tiene una temperatura de 37 grados centígrados y simultáneamente de 40 grados centígrados. Es decir, el individuo tiene fiebre o no tiene fiebre (mutuamente excluyente).

Segundo, sabemos que 40 grados centígrados es mayor que 37 grados centígrados (similar al orden lógico de las variables ordinales). Tercero, la diferencia de 3 grados entre las temperaturas de dos individuos (40 °C sujeto A menos 37 °C sujeto B) tiene el mismo significado que la diferencia entre 37 °C del sujeto D y 34 °C del sujeto E, es decir que tanto el sujeto A como el sujeto D están 3 grados más calientes que sujeto B y sujeto E, respectivamente. Es otras palabras, la diferencia entre dos magnitudes tiene la misma interpretación en cualquier parte de la escala.

Para que eso quede más claro, veamos como esta propiedad no aplica a las variables cualitativas. Por ejemplo, no podemos decir que la diferencia entre un individuo con un nivel de satisfacción con el servicio de 10 y uno con 5, es la misma diferencia que entre un individuo que respondió 5 y otro que respondió 0. Una de las implicaciones de esto es que con las variables de intervalo (al igual que con las de razón) podemos realizar operaciones matemáticas básicas como sumar o restar y el resultado lo podemos interpretar. Por último, el cero no implica que el objeto carezca de temperatura. De hecho, el cero en la escala de temperatura Fahrenheit es 32 °F. Lo anterior implica que no podemos realizar operaciones matemáticas como multiplicar o dividir. Por ejemplo, no podemos decir que la temperatura en Cali del medio día (suponiendo que sea de 30 °C) es el doble de caliente que la temperatura de Bogotá a las 3 de la tarde (suponiendo que sea de 15 °C).

De razón

Las variables de razón son muy similares a las variables de intervalo excepto porque la escala en que se clasifican los datos no es arbitraria y porque el cero sí implica la carencia de la característica. Veamos un ejemplo, supongamos que la variable de interés es el ingreso laboral promedio mensual. En ese caso, una persona no puede responder que se gana 4 millones de pesos y 2 millones de pesos en promedio cada mes, o 4 o 2, pero no los dos al mismo tiempo. De pronto, el individuo dice se gana 4 millones por prestación de servicios y 2 por su trabajo a término fijo. Es ahí cuando la labor del encuestador es fundamental, y éste debería realizarle al individuo preguntas como si el ingreso que recibe por prestación de servicios es constante (es decir todos los meses), si la magnitud que recibe es siempre la misma o si es variable. Por ejemplo, supongamos que responde que sí es constante tanto el valor y que recibe ese valor todos los meses del año, en ese caso el individuo debería responde que son 6 millones de pesos en promedio al mes. Por el contrario, si esos 4 millones de pesos fueron algo extraordinario del último mes, pero casi nunca sucede, entonces el individuo debería anotar que son 2 millones de pesos en promedio al mes.

Las variables de razón siguen un orden lógico, y podemos realizar operaciones matemáticas con los valores como sumar, restar, multiplicar y dividir. Es decir, sabemos que una persona que perciben 10 millones de pesos al mes, recibes 5 veces más una persona que percibe 2 millones de pesos al mes. Además, el cero implica la carencia de la característica, es decir responder 0, en nuestro ejemplo, significa no recibir ingresos laborales.

Ejercicio práctico

Suponga que trabaja en un restaurante de comida china en el área de compras. Usted tiene información en un archivo de Excel sobre 100 proveedores a los cuales la empresa le ha comprado en los últimos 10 años (algunos de manera permanente, otros son proveedores recientes y a otros ya no les compra). En una hoja de Excel tiene información sobre el nombre del proveedor, la razón social de la empresa, el NIT de la empresa, la fecha en que iniciaron la relación comercial, el número de teléfono móvil, y la dirección de ubicación de la sede principal de la empresa del proveedor, medio de pago aceptado por el proveedor y el estado del proveedor (Activo e Inactivo).

El archivo también incluye una hoja que contiene información diaria sobre el número de transacciones de compra por proveedor y el monto de cada transacción en pesos, el valor pagado y el valor adeudado. Además, cada transacción está asociada a un número de factura e incluye el valor del descuento (si aplica), y el valor correspondiente al IVA.

La empresa también cuenta con la valoración semestral de los proveedores dado el servicio recibido. Esa valoración se hace por medio de una pregunta en una encuesta vía Web obligatoria para todos los compradores. En ella se pregunta que califiquen el servicio prestado por el proveedor empleando una escala de números enteros de 1 a 5 (escala Likert), donde 1 es totalmente insatisfecho y 5 es totalmente satisfecho.

Identifique las variables que se encuentran presentes en la base de datos descrita (asígneles un nombre) y clasifíquelas de acuerdo con el tipo de variable (Cualitativa o Cuantitativa) y señale su nivel medición. La solución en la próxima entrada.

Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte III

En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.

Nombre de la variable Tipo de variable Nivel de medición
Nombre del proveedor Cualitativa Nominal
Razón social de la empresa Cualitativa Nominal
NIT de la empresa Cualitativa Nominal
Fecha en que inició la relación comercial Cuantitativa De intervalo
Número de teléfono móvil Cualitativa Nominal
Dirección de la sede principal Cualitativa Nominal
Medio de pago aceptado por el proveedor Cualitativa Nominal
Estado del proveedor Cualitativa Nominal
Número de transacciones de compra por proveedor Cuantitativa Ratio
Valor total de la compra (pesos colombianos) Cuantitativa Ratio
Valor de la compra pagado (pesos colombianos) Cuantitativa Ratio
Valor de la compra por pagar (pesos colombianos) Cuantitativa Ratio
Número de la factura de compra Cualitativa Ordinal
Porcentaje de descuento Cuantitativa Ratio
Valor del IVA (pesos colombianos) Cuantitativa Ratio
Calificación del servicio prestado por el proveedor Cualitativa Ordinal

Medidas descriptivas para variables cualitativas

Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:

  1. Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
  2. Género: (1 = hombre; 2 = mujer).
  3. Nivel educativo (1 = primaria; 2 = bachillerato; 3 = universidad; 4 = ninguno).
  4. Estado civil: (1 = casado; 2 = soltero; 3 = otro).
  5. Edad: años.
  6. Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
  7. entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
  8. Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
  9. Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.

Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo. Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).

Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible. Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil. Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.

Referencias

  1. Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings
Tributos Preatentivos

Atributos preatentivos la clave para mejores visualizaciones

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y en el post pasado empezamos a hablar sobre las estadísticas descriptivas que podemos utilizar para explorar datos del tipo cualitativo. Además de las estadísticas como la moda y las tablas de frecuencia, algo con lo que siempre debemos contar es con las visualizaciones, tanto de datos cualitativos como de datos cuantitativos, incluso podemos mezclar ambos tipos de visualización en una misma gráfica. Hoy nos vamos a centrar en los atributos preatentivos o preattentive atributes por su nombre en inglés. Les contaremos qué son, les daremos ejemplos y  por qué son importantes que los tengan en cuenta cuando están haciendo visualizaciones de la información.

Definición

Los atributos preatentivos de las visualizaciones son aquellos que se procesan en nuestra memoria sensorial sin nuestro pensamiento consciente. Es decir que son muy útiles porque transmitimos ideas de la forma correcta al aprovechar las propiedades de la percepción visual humana, la cual es la más desarrollada entre todos nuestros sentidos.

Colin Ware, en su libro “Information Visualization: Perception for Design” define cuatro propiedades visuales preatentivas:

  • Color
  • Forma
  • Movimiento
  • Posicionamiento espacial

Veamos cada una de ellas:

Color

El color se puede expresar de muchas maneras diferentes. Desde la escala RGB (Rojo, Verde, Azul) hasta la escala CMYK (Cian, Magenta, Amarillo y Clave) a la escala HSL (Tono, Saturación y Luminosidad) Esta semana de hecho aprendí que CMYK se necesita cuando vas a hacer impresiones, por ejemplo, unas tarjetas de presentación o material promocional; mientras que, el RBK está bien que lo utilices en las aplicaciones web, cuando vas a hacer presentaciones en prezi o power point.  Para hoy nos es útil la escala HSL (ver Imagen 1). El tono es lo que normalmente llamamos color, por ejemplo, rojo, zapote, verde, morado, azul, entre otros. Mientras que saturación y luminosidad son una medida de la intensidad del color. Para mí a veces es difícil diferenciar visualmente entre ambas propiedades de los colores. Básicamente la saturación de un color cambia a medida que ese color tiene más o menos cantidad de gris, mientras que, el brillo lo que representa es qué tan claro u oscuro es un color respecto a su color patrón (Artes visuales, 2016).

El color sirve para llamar la atención sobre algo de los datos, eso lo que hace es que el usuario no tenga realizar una búsqueda visual, en otras palabras utilice para su observador vaya directamente al grano de lo que usted quiere que él observe.

Fuente: Armonía y contraste de colores (2010)  

Forma

La forma tiene muchos sub atributos con los cuales podemos llamar la atención o por el contrario para reducir su atención en ese objetivo (ver Imagen 2). Por ejemplo, podemos aumentar el tamaño de un objeto como una señal de que ese objeto es importante. Mientras que lo podemos hacer pequeño si queremos reducir su importancia.

Movimiento

Movimiento tiene dos subatributos: dirección del movimiento y la frecuencia del movimiento o parpadeo como diríamos algunos. Mucho ojo con este atributo, si lo usas efectivamente será un éxito y lograras llamar la atención, de lo contrario puede convertirse en algo que distraiga al observador del resto de elementos que estés presentado, o incluso se puede volver molesto o mareador.

Posicionamiento espacial

Tres sub atributos tienes que tener en cuenta según la Interaction Design Foundation (2018):

  • Posicionamiento 2D: esta es a menudo la mejor forma de entregar datos que puedan reconocerse y procesarse visualmente fácilmente. Es particularmente efectivo para representaciones de datos cuantitativos. Tiene que ver no solo con la posición también con el agrupamiento que se genera partir de las posiciones que toman los datos.
  • Profundidad estereoscópica: percibimos la profundidad al combinar las imágenes generadas por los ojos izquierdo y derecho en el cerebro. Esta profundidad es procesada de forma preatentiva. Es posible recrear la profundidad estereoscópica utilizando dos cámaras separadas configuradas en diferentes ángulos para un sujeto e imponiendo las imágenes una sobre la otra.
  • Posicionamiento cóncavo y convexo: esto se puede crear mediante el uso de sombreado (ver imagen del eclipse de luna).

Fuente: Pixabay.

Para finalizar

Ya sabemos cuáles son esos atributos, y sabemos que son poderosos porque nuestro cerebro los procesa rápidamente sin hacer mucho esfuerzo. Lo anterior no quiere decir que vamos a hacer un sancocho con esos atributos en nuestra visualizaciones. Tenemos que pensar quién es nuestro público, qué mensaje queremos transmitir, y probar con varias visualizaciones hasta que logremos llegar a la mejor visualización para el contexto y el público al que le estamos presentando. Un ejemplo de esto lo ven en la próxima imágenes, por un lado una gráfica que combina color (tono) y largo para mostrar lo que aparenta ser la satisfacción con el trabajo dependiendo de ciertas cualidades del gerente. En la primera imagen, espero que les pase a ustedes también, fue difícil encontrar algo, me quede observando intentando ver si había algún patrón pero el uso de esos colores dificultó la tarea. En la segunda imagen el color facilita entender el mensaje.

Fuente: Cole Nussbaumer

Referencias

  1. Artes Visuales. (Noviembre 8, 2016). ¿Qué Es El Color? | Teoría Del Color Y Sus Propiedades. Disponible en: https://artesvisuales.mx/2016/11/08/que-es-el-color-teoria-del-color-y-sus-propiedades/
  2. Colin Ware. (2004). Information Visualization: Perception for Design. Morgan Kaufmann, San Francisco, CA, 2nd edition.
  3. Interaction Design Foundation (Abril, 2018). Preattentive Visual Properties and How to Use Them in Information Visualization Disponible en https://www.interaction-design.org/literature/article/preattentive-visual-properties-and-how-to-use-them-in-information-visualization
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte 4

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y las estadísticas descriptivas que podemos utilizar para explorar los datos del tipo cualitativo. Este es el último post de esta serie Eso no quiere decir que no tendremos más post sobre exploración y limpieza de datos porque de este tema hay para cientos de post, de hecho, hay libros enteros que sólo se dedican a este tema, el motivo de esa decisión es que queremos que el contenido de nuestro blog sea variado, cuando retomemos este tema pondremos los hipervínculos respectivos y en éste les contaremos sobre las herramientas que disponemos para explorar las variables del tipo cuantitativo: medidas de tendencia central, medidas de dispersión y los gráficos más utilizados.

Medidas de tendencia central

Una medida de tendencia central describe un conjunto de datos al identificar la posición central con un único valor numérico. Las tres medidas más utilizadas son: la media (también conocida como el promedio o la media aritmética), la mediana (también conocida como el segundo cuartil) y la moda. En la siguiente figura vemos un ejemplo de cómo calcular estas tres medidas para una serie de números.

La media resulta ser la suma de los valores divido por el número de observaciones y es tal vez la medida de tendencia central más utilizada. La media tiende a no ser útil cuando los datos presentan valores extremos porque se produce un sesgo en la media ya que con esta medida todos los valores tienen la misma ponderación o importancia.

La mediana es aquel valor por el que la mitad (50%) de los datos está por debajo y la otra mitad (50%) está por encima. Para poder calcular la mediana debemos organizar los datos de menor a mayor. Si observa la figura en este caso la mediana es 6, al lado izquierdo hay 5 números y al lado derecho hay otros 5 números. Si el número de valores no es impar como el caso del ejemplo, debemos sumar y dividir por dos los números que estarían al lado de la mediana. Por ejemplo, suponga que la serie es: 3,4,5,5,5,5, 6,6,7,8,8,9. Esta serie tiene 12 números, la mediana estaría entre 5 y 6 por lo tanto la mediana sería 5.5 ((5+6) / 2)

La moda es el valor que más se repite en una serie, en la figura es el número 5 (se repite 3 veces). Puede haber una sola moda, como en la figura, o puede haber 2 o más modas, o incluso puede ser que la serie no tenga moda porque no hay algún número que se repita más de 1 vez.

Medidas de dispersión

Las medidas de dispersión nos muestran qué tan esparcidos están los datos. Puede haber medidas absolutas o relativas. Dentro de las absolutas las más utilizadas son el rango y la desviación estándar; mientras que, el coeficiente de variación es el más utilizado dentro de las relativas.

El rango como la muestra la Figura 2 es la diferencia entre el valor más grande y el menor valor. Es decir es una medida de la dispersión total que hay en los datos, y por lo tanto no tiene en cuenta cómo los datos se distribuyen entre el menor y el mayor valor. Es por eso por lo que utilizamos otras medidas de dispersión como la desviación estándar.

La desviación estándar muestral es en “promedio” qué tan dispersos están los valores alrededor de la media. Para calcularla debemos obtener la diferencia entre cada valor y la media (por eso a cada valor de nuestro ejemplo le restamos el 6).  Cada diferencia es elevada al cuadrado y sumamos los resultados. Finalmente dividimos por n-1 (obteniendo la varianza muestral) y a ese resultado le sacamos la raíz cuadrada. Vean que el hecho de que elevemos al cuadrado la diferencia nos lleva a obtener que siempre la varianza y la desviación estándar sean positivas. Entre mayor sea la desviación estándar más dispersos estarán los datos.

Por último, el coeficiente de variación es la desviación estándar divida por la media y se expresa en términos porcentuales. Este indicador se utiliza mucho cuando estamos comparando dos o más conjuntos de datos que se encuentran medidos en diferentes escalas.

Visualizaciones

En la figura 3 y 4 vemos unos datos cuantitativos y sus respectivas estadísticas descriptivas. A primera vista parece que no hay mucha diferencia. Sin embargo, cuando los gráficos (figura 5) observamos que cada conjunto de datos tiene un comportamiento diferente. Lo anterior refuerza la importancia de acompañar nuestras tablas y estadísticos numéricos con visualizaciones. ¿Cuáles son las más utilizadas? Los histogramas, las líneas, las cajas de bigotes, y los diagramas de dispersión. Los histogramas los utilizamos para variables individuales; mientras que, los diagramas de dispersión nos sirven para ver si hay algún tipo de relación entre dos variables.

Fuente: Frank Anscombe (1973).