Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte III

En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.

Nombre de la variable Tipo de variable Nivel de medición
Nombre del proveedor Cualitativa Nominal
Razón social de la empresa Cualitativa Nominal
NIT de la empresa Cualitativa Nominal
Fecha en que inició la relación comercial Cuantitativa De intervalo
Número de teléfono móvil Cualitativa Nominal
Dirección de la sede principal Cualitativa Nominal
Medio de pago aceptado por el proveedor Cualitativa Nominal
Estado del proveedor Cualitativa Nominal
Número de transacciones de compra por proveedor Cuantitativa Ratio
Valor total de la compra (pesos colombianos) Cuantitativa Ratio
Valor de la compra pagado (pesos colombianos) Cuantitativa Ratio
Valor de la compra por pagar (pesos colombianos) Cuantitativa Ratio
Número de la factura de compra Cualitativa Ordinal
Porcentaje de descuento Cuantitativa Ratio
Valor del IVA (pesos colombianos) Cuantitativa Ratio
Calificación del servicio prestado por el proveedor Cualitativa Ordinal

Medidas descriptivas para variables cualitativas

Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:

  1. Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
  2. Género: (1 = hombre; 2 = mujer).
  3. Nivel educativo (1 = primaria; 2 = bachillerato; 3 = universidad; 4 = ninguno).
  4. Estado civil: (1 = casado; 2 = soltero; 3 = otro).
  5. Edad: años.
  6. Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
  7. entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
  8. Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
  9. Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.

Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo. Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).

Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible. Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil. Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.

Referencias

  1. Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings