niveles de medición

Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte I

Explorar los datos es tal vez uno de los pasos más importantes en la analítica de datos y generalmente utilizamos la estadística descriptiva para hacerlo.. También es uno de los pasos que más toma tiempo, se estima que en un proyecto de analítica esta fase puede tomar 60% tiempo (es decir que, si usted establece que ese proyecto le va a tomar 10 meses, 6 meses se van a ir limpiando y explorando la base de datos) (Forbes, 2016). Además, es una fase que muchos evitan o tratan de minimizar. O bueno, al menos eso es lo que yo percibo, que los analistas, los gerentes, los directores de proyectos, y cargos similares, quieren llegar rápidamente a formular los modelos, correrlos y obtener resultados. Sin embargo, ¿usted se casaría con alguien sin conocerlo primero?

Probablemente no, y si sobre los resultados de los modelos usted va a tomar decisiones estratégicas y cruciales para el éxito de su organización (por ejemplo, si lanza o no un producto, si compra más o menos insumos de acuerdo con los pronósticos que haya realizado, o si contrata o no a un individuo), entonces sí debería dedicarse a conocer los datos por un tiempo antes de “casarse” con ellos a través de un modelo.  Lo anterior es aún más crucial si va a utilizar métodos y modelos complejos; la exploración, mediante el uso de estadística descriptiva, le da alguna certeza de que los modelos seleccionados están capturando la esencia de sus datos.

A mí personalmente, me encanta esta fase, porque cuando exploramos los datos encontramos patrones, tendencias, outliers, anomalías y esto resulta ser un paso fundamental durante la limpieza de los datos, y nos da ideas de qué modelos podemos podríamos aplicar.

Debido a su importancia, vamos a dedicarle varios posts a este tema. Hoy, en particular, hablaremos de los tipos de datos. Todavía no hablaremos de la exploración en sí porque primero identificamos el tipo de datos que tenemos y posteriormente buscamos la herramienta adecuada para explorarlos. Piense que, si el dato es un candado, entonces no cualquier llave puede abrirlo y revelarnos la información que hay detrás; primero, tenemos que descubrir qué tipo de candado es.

Tipos de Datos

La división básica divide los datos en numéricos vs categóricos. Los primeros se guardan de manera “natural” como números y pueden ser “medidos”; mientras que los categóricos son clases o categorías y no se pueden “medir”.

Los datos numéricos se dividen a su vez en datos continuos o discretos. Si ve un decimal, entonces es un dato numérico continuo; mientras que, si ve un numero entero, entonces es discreto. A lo anterior, agregaría que las cosas pueden tornarse un poco más complejas porque siempre debemos tener en cuenta el contexto de los datos. Por ejemplo, suponga que usted fabrica y vende ropa para niños menores de 12 años, y del área de ventas le informan que de acuerdo con el pronóstico (empleando un modelo ARIMA), se espera que el próximo mes se vendan 200.5 camisas para niños de 6 años. La variable número de camisas es de naturaleza discreta, aunque el pronóstico tenga decimales, usted no puede dejar media camisa por hacer.

Niveles de medición de las variables

Las variables cualitativas se pueden “medir” de manera nominal u ordinal. Nominal se refiere a que los datos los podemos clasificar en categorías que no siguen un orden lógico. Por ejemplo, el color del cabello es una variable nominal, cuyas categorías pueden ser: rubio, castaño, negro, blanco, rojo y otro. ¿Qué quiere decir que no sigan un orden lógico? Que uno no puede ordenar las categorías en una escala y decir que el cabello rubio es mejor que el cabello castaño, y que éste es mejor que el cabello negro, el cual a su vez es mejor que el cabello rojo, y que por último se encuentra el cabello blanco.

Además, las categorías tienen que cumplir dos condiciones: deben ser mutuamente excluyentes y colectivamente exhaustivas. Lo anterior quiere decir que los individuos solo deben aparecer en una categoría, por ejemplo, no es posible que una mujer tenga el cabello simultáneamente negro y rubio. O es negro o es rubio, pero no los dos al mismo tiempo (eso es mutuamente excluyente). Y bueno yo sé que hay mujeres que tiene el pelo negro y se tinturan las puntas de color rubio o se hacen rayitos, entonces ¿qué debe hacer? Todo depende del objetivo de su investigación, es decir, de qué busca responder con los datos que está recolectado. Después de tener claro eso, usted puede decidir si precisa más su pregunta (¿de qué color es su cabello natural?), amplia las categorías de respuesta a su pregunta original, o incluso puede dejar la pregunta y las categorías de respuesta sin cambios.

Ahora, colectivamente exhaustivo se refiere a que por lo menos uno de los eventos, o de las categorías, debe ocurrir. Por ese motivo muchas veces usted ve la opción otro, seguida de la pregunta cuál. A veces, aunque realicemos pilotos de las encuestas, no podemos estar seguros de que estamos incluyendo absolutamente todos los posibles casos y la categoría “otro” es la que nos salva. Por ejemplo, suponga que usted pregunta a un hombre que es 100% calvo: ¿de qué color es su cabello?, y las posibles respuestas son: rubio, castaño, negro, blanco, rojo. La respuesta otro con la posibilidad de escribir ¿cuál? es su salvación.

Las variables ordinales también tienen esa característica de ser mutuamente excluyentes y colectivamente exhaustivas, pero se diferencian de las nominales porque sí hay un orden lógico. Por ejemplo, una variable que sea satisfacción con el servicio al cliente y cuyas categorías de respuesta sean: muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho. En ese caso, las categorías están ordenadas de acuerdo con el nivel de satisfacción, del más satisfecho al menos satisfecho. Pero OJO ese orden no corresponde a una magnitud, es decir, uno no puede afirmar que el individuo que respondió que está muy satisfecho está el doble de satisfecho que el que respondió que está satisfecho, o 4 veces más satisfecho que el que respondió muy insatisfecho. Solo podemos saber que el que está muy satisfecho está por encima del que respondió muy insatisfecho en la escala de nivel de satisfacción, pero no sabemos cuántas veces más.

Comentarios finales

En el próximo post hablaremos de los niveles de medición de las variables cuantitativas: de intervalo y de razón. Y les dejare un caso de estudio para que afiancemos estos conceptos antes de presentarles algunas herramientas de exploración.

Referencias

  1. Forbes (2016). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Disponible en https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#57e6bbe76f63
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte II

En el post pasado hablamos de los tipos de variables (cualitativas vs cuantitativas) y de los niveles de medición de las variables cualitativas: nominal y ordinal. En este post les hablaré sobre los niveles de medición de las variables cuantitativas y les dejaré un breve ejercicio para que afiancemos estos conceptos antes de presentarles las herramientas de exploración.

De intervalo

Las variables de intervalo son aquellas en donde se clasifica a los datos en una escala (arbitraria) y donde cada valor de la escala corresponde a una categoría. Esas categorías se caracterizan, al igual que las categorías de las variables ordinales, por ser mutuamente excluyentes y colectivamente exhaustivas; sin embargo, a diferencia de las variables ordinales siguen un orden lógico que corresponde a la magnitud de la escala asociada a la característica. Además, el cero no implica la carencia de la característica.

Veamos un ejemplo con la variable “temperatura del cuerpo humano en grados centígrados”. Primero, sería muy extraño encontrar a un individuo que tiene una temperatura de 37 grados centígrados y simultáneamente de 40 grados centígrados. Es decir, el individuo tiene fiebre o no tiene fiebre (mutuamente excluyente).

Segundo, sabemos que 40 grados centígrados es mayor que 37 grados centígrados (similar al orden lógico de las variables ordinales). Tercero, la diferencia de 3 grados entre las temperaturas de dos individuos (40 °C sujeto A menos 37 °C sujeto B) tiene el mismo significado que la diferencia entre 37 °C del sujeto D y 34 °C del sujeto E, es decir que tanto el sujeto A como el sujeto D están 3 grados más calientes que sujeto B y sujeto E, respectivamente. Es otras palabras, la diferencia entre dos magnitudes tiene la misma interpretación en cualquier parte de la escala.

Para que eso quede más claro, veamos como esta propiedad no aplica a las variables cualitativas. Por ejemplo, no podemos decir que la diferencia entre un individuo con un nivel de satisfacción con el servicio de 10 y uno con 5, es la misma diferencia que entre un individuo que respondió 5 y otro que respondió 0. Una de las implicaciones de esto es que con las variables de intervalo (al igual que con las de razón) podemos realizar operaciones matemáticas básicas como sumar o restar y el resultado lo podemos interpretar. Por último, el cero no implica que el objeto carezca de temperatura. De hecho, el cero en la escala de temperatura Fahrenheit es 32 °F. Lo anterior implica que no podemos realizar operaciones matemáticas como multiplicar o dividir. Por ejemplo, no podemos decir que la temperatura en Cali del medio día (suponiendo que sea de 30 °C) es el doble de caliente que la temperatura de Bogotá a las 3 de la tarde (suponiendo que sea de 15 °C).

De razón

Las variables de razón son muy similares a las variables de intervalo excepto porque la escala en que se clasifican los datos no es arbitraria y porque el cero sí implica la carencia de la característica. Veamos un ejemplo, supongamos que la variable de interés es el ingreso laboral promedio mensual. En ese caso, una persona no puede responder que se gana 4 millones de pesos y 2 millones de pesos en promedio cada mes, o 4 o 2, pero no los dos al mismo tiempo. De pronto, el individuo dice se gana 4 millones por prestación de servicios y 2 por su trabajo a término fijo. Es ahí cuando la labor del encuestador es fundamental, y éste debería realizarle al individuo preguntas como si el ingreso que recibe por prestación de servicios es constante (es decir todos los meses), si la magnitud que recibe es siempre la misma o si es variable. Por ejemplo, supongamos que responde que sí es constante tanto el valor y que recibe ese valor todos los meses del año, en ese caso el individuo debería responde que son 6 millones de pesos en promedio al mes. Por el contrario, si esos 4 millones de pesos fueron algo extraordinario del último mes, pero casi nunca sucede, entonces el individuo debería anotar que son 2 millones de pesos en promedio al mes.

Las variables de razón siguen un orden lógico, y podemos realizar operaciones matemáticas con los valores como sumar, restar, multiplicar y dividir. Es decir, sabemos que una persona que perciben 10 millones de pesos al mes, recibes 5 veces más una persona que percibe 2 millones de pesos al mes. Además, el cero implica la carencia de la característica, es decir responder 0, en nuestro ejemplo, significa no recibir ingresos laborales.

Ejercicio práctico

Suponga que trabaja en un restaurante de comida china en el área de compras. Usted tiene información en un archivo de Excel sobre 100 proveedores a los cuales la empresa le ha comprado en los últimos 10 años (algunos de manera permanente, otros son proveedores recientes y a otros ya no les compra). En una hoja de Excel tiene información sobre el nombre del proveedor, la razón social de la empresa, el NIT de la empresa, la fecha en que iniciaron la relación comercial, el número de teléfono móvil, y la dirección de ubicación de la sede principal de la empresa del proveedor, medio de pago aceptado por el proveedor y el estado del proveedor (Activo e Inactivo).

El archivo también incluye una hoja que contiene información diaria sobre el número de transacciones de compra por proveedor y el monto de cada transacción en pesos, el valor pagado y el valor adeudado. Además, cada transacción está asociada a un número de factura e incluye el valor del descuento (si aplica), y el valor correspondiente al IVA.

La empresa también cuenta con la valoración semestral de los proveedores dado el servicio recibido. Esa valoración se hace por medio de una pregunta en una encuesta vía Web obligatoria para todos los compradores. En ella se pregunta que califiquen el servicio prestado por el proveedor empleando una escala de números enteros de 1 a 5 (escala Likert), donde 1 es totalmente insatisfecho y 5 es totalmente satisfecho.

Identifique las variables que se encuentran presentes en la base de datos descrita (asígneles un nombre) y clasifíquelas de acuerdo con el tipo de variable (Cualitativa o Cuantitativa) y señale su nivel medición. La solución en la próxima entrada.

Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte III

En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.

Nombre de la variable Tipo de variable Nivel de medición
Nombre del proveedor Cualitativa Nominal
Razón social de la empresa Cualitativa Nominal
NIT de la empresa Cualitativa Nominal
Fecha en que inició la relación comercial Cuantitativa De intervalo
Número de teléfono móvil Cualitativa Nominal
Dirección de la sede principal Cualitativa Nominal
Medio de pago aceptado por el proveedor Cualitativa Nominal
Estado del proveedor Cualitativa Nominal
Número de transacciones de compra por proveedor Cuantitativa Ratio
Valor total de la compra (pesos colombianos) Cuantitativa Ratio
Valor de la compra pagado (pesos colombianos) Cuantitativa Ratio
Valor de la compra por pagar (pesos colombianos) Cuantitativa Ratio
Número de la factura de compra Cualitativa Ordinal
Porcentaje de descuento Cuantitativa Ratio
Valor del IVA (pesos colombianos) Cuantitativa Ratio
Calificación del servicio prestado por el proveedor Cualitativa Ordinal

Medidas descriptivas para variables cualitativas

Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:

  1. Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
  2. Género: (1 = hombre; 2 = mujer).
  3. Nivel educativo (1 = primaria; 2 = bachillerato; 3 = universidad; 4 = ninguno).
  4. Estado civil: (1 = casado; 2 = soltero; 3 = otro).
  5. Edad: años.
  6. Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
  7. entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
  8. Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
  9. Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.

Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo. Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).

Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible. Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil. Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.

Referencias

  1. Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings