Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte II

En el post pasado hablamos de los tipos de variables (cualitativas vs cuantitativas) y de los niveles de medición de las variables cualitativas: nominal y ordinal. En este post les hablaré sobre los niveles de medición de las variables cuantitativas y les dejaré un breve ejercicio para que afiancemos estos conceptos antes de presentarles las herramientas de exploración.

De intervalo

Las variables de intervalo son aquellas en donde se clasifica a los datos en una escala (arbitraria) y donde cada valor de la escala corresponde a una categoría. Esas categorías se caracterizan, al igual que las categorías de las variables ordinales, por ser mutuamente excluyentes y colectivamente exhaustivas; sin embargo, a diferencia de las variables ordinales siguen un orden lógico que corresponde a la magnitud de la escala asociada a la característica. Además, el cero no implica la carencia de la característica.

Veamos un ejemplo con la variable “temperatura del cuerpo humano en grados centígrados”. Primero, sería muy extraño encontrar a un individuo que tiene una temperatura de 37 grados centígrados y simultáneamente de 40 grados centígrados. Es decir, el individuo tiene fiebre o no tiene fiebre (mutuamente excluyente).

Segundo, sabemos que 40 grados centígrados es mayor que 37 grados centígrados (similar al orden lógico de las variables ordinales). Tercero, la diferencia de 3 grados entre las temperaturas de dos individuos (40 °C sujeto A menos 37 °C sujeto B) tiene el mismo significado que la diferencia entre 37 °C del sujeto D y 34 °C del sujeto E, es decir que tanto el sujeto A como el sujeto D están 3 grados más calientes que sujeto B y sujeto E, respectivamente. Es otras palabras, la diferencia entre dos magnitudes tiene la misma interpretación en cualquier parte de la escala.

Para que eso quede más claro, veamos como esta propiedad no aplica a las variables cualitativas. Por ejemplo, no podemos decir que la diferencia entre un individuo con un nivel de satisfacción con el servicio de 10 y uno con 5, es la misma diferencia que entre un individuo que respondió 5 y otro que respondió 0. Una de las implicaciones de esto es que con las variables de intervalo (al igual que con las de razón) podemos realizar operaciones matemáticas básicas como sumar o restar y el resultado lo podemos interpretar. Por último, el cero no implica que el objeto carezca de temperatura. De hecho, el cero en la escala de temperatura Fahrenheit es 32 °F. Lo anterior implica que no podemos realizar operaciones matemáticas como multiplicar o dividir. Por ejemplo, no podemos decir que la temperatura en Cali del medio día (suponiendo que sea de 30 °C) es el doble de caliente que la temperatura de Bogotá a las 3 de la tarde (suponiendo que sea de 15 °C).

De razón

Las variables de razón son muy similares a las variables de intervalo excepto porque la escala en que se clasifican los datos no es arbitraria y porque el cero sí implica la carencia de la característica. Veamos un ejemplo, supongamos que la variable de interés es el ingreso laboral promedio mensual. En ese caso, una persona no puede responder que se gana 4 millones de pesos y 2 millones de pesos en promedio cada mes, o 4 o 2, pero no los dos al mismo tiempo. De pronto, el individuo dice se gana 4 millones por prestación de servicios y 2 por su trabajo a término fijo. Es ahí cuando la labor del encuestador es fundamental, y éste debería realizarle al individuo preguntas como si el ingreso que recibe por prestación de servicios es constante (es decir todos los meses), si la magnitud que recibe es siempre la misma o si es variable. Por ejemplo, supongamos que responde que sí es constante tanto el valor y que recibe ese valor todos los meses del año, en ese caso el individuo debería responde que son 6 millones de pesos en promedio al mes. Por el contrario, si esos 4 millones de pesos fueron algo extraordinario del último mes, pero casi nunca sucede, entonces el individuo debería anotar que son 2 millones de pesos en promedio al mes.

Las variables de razón siguen un orden lógico, y podemos realizar operaciones matemáticas con los valores como sumar, restar, multiplicar y dividir. Es decir, sabemos que una persona que perciben 10 millones de pesos al mes, recibes 5 veces más una persona que percibe 2 millones de pesos al mes. Además, el cero implica la carencia de la característica, es decir responder 0, en nuestro ejemplo, significa no recibir ingresos laborales.

Ejercicio práctico

Suponga que trabaja en un restaurante de comida china en el área de compras. Usted tiene información en un archivo de Excel sobre 100 proveedores a los cuales la empresa le ha comprado en los últimos 10 años (algunos de manera permanente, otros son proveedores recientes y a otros ya no les compra). En una hoja de Excel tiene información sobre el nombre del proveedor, la razón social de la empresa, el NIT de la empresa, la fecha en que iniciaron la relación comercial, el número de teléfono móvil, y la dirección de ubicación de la sede principal de la empresa del proveedor, medio de pago aceptado por el proveedor y el estado del proveedor (Activo e Inactivo).

El archivo también incluye una hoja que contiene información diaria sobre el número de transacciones de compra por proveedor y el monto de cada transacción en pesos, el valor pagado y el valor adeudado. Además, cada transacción está asociada a un número de factura e incluye el valor del descuento (si aplica), y el valor correspondiente al IVA.

La empresa también cuenta con la valoración semestral de los proveedores dado el servicio recibido. Esa valoración se hace por medio de una pregunta en una encuesta vía Web obligatoria para todos los compradores. En ella se pregunta que califiquen el servicio prestado por el proveedor empleando una escala de números enteros de 1 a 5 (escala Likert), donde 1 es totalmente insatisfecho y 5 es totalmente satisfecho.

Identifique las variables que se encuentran presentes en la base de datos descrita (asígneles un nombre) y clasifíquelas de acuerdo con el tipo de variable (Cualitativa o Cuantitativa) y señale su nivel medición. La solución en la próxima entrada.