nominal

Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte I

Explorar los datos es tal vez uno de los pasos más importantes en la analítica de datos y generalmente utilizamos la estadística descriptiva para hacerlo.. También es uno de los pasos que más toma tiempo, se estima que en un proyecto de analítica esta fase puede tomar 60% tiempo (es decir que, si usted establece que ese proyecto le va a tomar 10 meses, 6 meses se van a ir limpiando y explorando la base de datos) (Forbes, 2016). Además, es una fase que muchos evitan o tratan de minimizar. O bueno, al menos eso es lo que yo percibo, que los analistas, los gerentes, los directores de proyectos, y cargos similares, quieren llegar rápidamente a formular los modelos, correrlos y obtener resultados. Sin embargo, ¿usted se casaría con alguien sin conocerlo primero?

Probablemente no, y si sobre los resultados de los modelos usted va a tomar decisiones estratégicas y cruciales para el éxito de su organización (por ejemplo, si lanza o no un producto, si compra más o menos insumos de acuerdo con los pronósticos que haya realizado, o si contrata o no a un individuo), entonces sí debería dedicarse a conocer los datos por un tiempo antes de “casarse” con ellos a través de un modelo.  Lo anterior es aún más crucial si va a utilizar métodos y modelos complejos; la exploración, mediante el uso de estadística descriptiva, le da alguna certeza de que los modelos seleccionados están capturando la esencia de sus datos.

A mí personalmente, me encanta esta fase, porque cuando exploramos los datos encontramos patrones, tendencias, outliers, anomalías y esto resulta ser un paso fundamental durante la limpieza de los datos, y nos da ideas de qué modelos podemos podríamos aplicar.

Debido a su importancia, vamos a dedicarle varios posts a este tema. Hoy, en particular, hablaremos de los tipos de datos. Todavía no hablaremos de la exploración en sí porque primero identificamos el tipo de datos que tenemos y posteriormente buscamos la herramienta adecuada para explorarlos. Piense que, si el dato es un candado, entonces no cualquier llave puede abrirlo y revelarnos la información que hay detrás; primero, tenemos que descubrir qué tipo de candado es.

Tipos de Datos

La división básica divide los datos en numéricos vs categóricos. Los primeros se guardan de manera “natural” como números y pueden ser “medidos”; mientras que los categóricos son clases o categorías y no se pueden “medir”.

Los datos numéricos se dividen a su vez en datos continuos o discretos. Si ve un decimal, entonces es un dato numérico continuo; mientras que, si ve un numero entero, entonces es discreto. A lo anterior, agregaría que las cosas pueden tornarse un poco más complejas porque siempre debemos tener en cuenta el contexto de los datos. Por ejemplo, suponga que usted fabrica y vende ropa para niños menores de 12 años, y del área de ventas le informan que de acuerdo con el pronóstico (empleando un modelo ARIMA), se espera que el próximo mes se vendan 200.5 camisas para niños de 6 años. La variable número de camisas es de naturaleza discreta, aunque el pronóstico tenga decimales, usted no puede dejar media camisa por hacer.

Niveles de medición de las variables

Las variables cualitativas se pueden “medir” de manera nominal u ordinal. Nominal se refiere a que los datos los podemos clasificar en categorías que no siguen un orden lógico. Por ejemplo, el color del cabello es una variable nominal, cuyas categorías pueden ser: rubio, castaño, negro, blanco, rojo y otro. ¿Qué quiere decir que no sigan un orden lógico? Que uno no puede ordenar las categorías en una escala y decir que el cabello rubio es mejor que el cabello castaño, y que éste es mejor que el cabello negro, el cual a su vez es mejor que el cabello rojo, y que por último se encuentra el cabello blanco.

Además, las categorías tienen que cumplir dos condiciones: deben ser mutuamente excluyentes y colectivamente exhaustivas. Lo anterior quiere decir que los individuos solo deben aparecer en una categoría, por ejemplo, no es posible que una mujer tenga el cabello simultáneamente negro y rubio. O es negro o es rubio, pero no los dos al mismo tiempo (eso es mutuamente excluyente). Y bueno yo sé que hay mujeres que tiene el pelo negro y se tinturan las puntas de color rubio o se hacen rayitos, entonces ¿qué debe hacer? Todo depende del objetivo de su investigación, es decir, de qué busca responder con los datos que está recolectado. Después de tener claro eso, usted puede decidir si precisa más su pregunta (¿de qué color es su cabello natural?), amplia las categorías de respuesta a su pregunta original, o incluso puede dejar la pregunta y las categorías de respuesta sin cambios.

Ahora, colectivamente exhaustivo se refiere a que por lo menos uno de los eventos, o de las categorías, debe ocurrir. Por ese motivo muchas veces usted ve la opción otro, seguida de la pregunta cuál. A veces, aunque realicemos pilotos de las encuestas, no podemos estar seguros de que estamos incluyendo absolutamente todos los posibles casos y la categoría “otro” es la que nos salva. Por ejemplo, suponga que usted pregunta a un hombre que es 100% calvo: ¿de qué color es su cabello?, y las posibles respuestas son: rubio, castaño, negro, blanco, rojo. La respuesta otro con la posibilidad de escribir ¿cuál? es su salvación.

Las variables ordinales también tienen esa característica de ser mutuamente excluyentes y colectivamente exhaustivas, pero se diferencian de las nominales porque sí hay un orden lógico. Por ejemplo, una variable que sea satisfacción con el servicio al cliente y cuyas categorías de respuesta sean: muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho. En ese caso, las categorías están ordenadas de acuerdo con el nivel de satisfacción, del más satisfecho al menos satisfecho. Pero OJO ese orden no corresponde a una magnitud, es decir, uno no puede afirmar que el individuo que respondió que está muy satisfecho está el doble de satisfecho que el que respondió que está satisfecho, o 4 veces más satisfecho que el que respondió muy insatisfecho. Solo podemos saber que el que está muy satisfecho está por encima del que respondió muy insatisfecho en la escala de nivel de satisfacción, pero no sabemos cuántas veces más.

Comentarios finales

En el próximo post hablaremos de los niveles de medición de las variables cuantitativas: de intervalo y de razón. Y les dejare un caso de estudio para que afiancemos estos conceptos antes de presentarles algunas herramientas de exploración.

Referencias

  1. Forbes (2016). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Disponible en https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#57e6bbe76f63
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte III

En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.

Nombre de la variable Tipo de variable Nivel de medición
Nombre del proveedor Cualitativa Nominal
Razón social de la empresa Cualitativa Nominal
NIT de la empresa Cualitativa Nominal
Fecha en que inició la relación comercial Cuantitativa De intervalo
Número de teléfono móvil Cualitativa Nominal
Dirección de la sede principal Cualitativa Nominal
Medio de pago aceptado por el proveedor Cualitativa Nominal
Estado del proveedor Cualitativa Nominal
Número de transacciones de compra por proveedor Cuantitativa Ratio
Valor total de la compra (pesos colombianos) Cuantitativa Ratio
Valor de la compra pagado (pesos colombianos) Cuantitativa Ratio
Valor de la compra por pagar (pesos colombianos) Cuantitativa Ratio
Número de la factura de compra Cualitativa Ordinal
Porcentaje de descuento Cuantitativa Ratio
Valor del IVA (pesos colombianos) Cuantitativa Ratio
Calificación del servicio prestado por el proveedor Cualitativa Ordinal

Medidas descriptivas para variables cualitativas

Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:

  1. Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
  2. Género: (1 = hombre; 2 = mujer).
  3. Nivel educativo (1 = primaria; 2 = bachillerato; 3 = universidad; 4 = ninguno).
  4. Estado civil: (1 = casado; 2 = soltero; 3 = otro).
  5. Edad: años.
  6. Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
  7. entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
  8. Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
  9. Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.

Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo. Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).

Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible. Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil. Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.

Referencias

  1. Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings