Explorar los datos es tal vez uno de los pasos más importantes en la analítica de datos y generalmente utilizamos la estadística descriptiva para hacerlo.. También es uno de los pasos que más toma tiempo, se estima que en un proyecto de analítica esta fase puede tomar 60% tiempo (es decir que, si usted establece que ese proyecto le va a tomar 10 meses, 6 meses se van a ir limpiando y explorando la base de datos) (Forbes, 2016). Además, es una fase que muchos evitan o tratan de minimizar. O bueno, al menos eso es lo que yo percibo, que los analistas, los gerentes, los directores de proyectos, y cargos similares, quieren llegar rápidamente a formular los modelos, correrlos y obtener resultados. Sin embargo, ¿usted se casaría con alguien sin conocerlo primero?
Probablemente no, y si sobre los resultados de los modelos usted va a tomar decisiones estratégicas y cruciales para el éxito de su organización (por ejemplo, si lanza o no un producto, si compra más o menos insumos de acuerdo con los pronósticos que haya realizado, o si contrata o no a un individuo), entonces sí debería dedicarse a conocer los datos por un tiempo antes de “casarse” con ellos a través de un modelo. Lo anterior es aún más crucial si va a utilizar métodos y modelos complejos; la exploración, mediante el uso de estadística descriptiva, le da alguna certeza de que los modelos seleccionados están capturando la esencia de sus datos.
A mí personalmente, me encanta esta fase, porque cuando exploramos los datos encontramos patrones, tendencias, outliers, anomalías y esto resulta ser un paso fundamental durante la limpieza de los datos, y nos da ideas de qué modelos podemos podríamos aplicar.
Debido a su importancia, vamos a dedicarle varios posts a este tema. Hoy, en particular, hablaremos de los tipos de datos. Todavía no hablaremos de la exploración en sí porque primero identificamos el tipo de datos que tenemos y posteriormente buscamos la herramienta adecuada para explorarlos. Piense que, si el dato es un candado, entonces no cualquier llave puede abrirlo y revelarnos la información que hay detrás; primero, tenemos que descubrir qué tipo de candado es.
Tipos de Datos
La división básica divide los datos en numéricos vs categóricos. Los primeros se guardan de manera “natural” como números y pueden ser “medidos”; mientras que los categóricos son clases o categorías y no se pueden “medir”.
Los datos numéricos se dividen a su vez en datos continuos o discretos. Si ve un decimal, entonces es un dato numérico continuo; mientras que, si ve un numero entero, entonces es discreto. A lo anterior, agregaría que las cosas pueden tornarse un poco más complejas porque siempre debemos tener en cuenta el contexto de los datos. Por ejemplo, suponga que usted fabrica y vende ropa para niños menores de 12 años, y del área de ventas le informan que de acuerdo con el pronóstico (empleando un modelo ARIMA), se espera que el próximo mes se vendan 200.5 camisas para niños de 6 años. La variable número de camisas es de naturaleza discreta, aunque el pronóstico tenga decimales, usted no puede dejar media camisa por hacer.
Niveles de medición de las variables
Las variables cualitativas se pueden “medir” de manera nominal u ordinal. Nominal se refiere a que los datos los podemos clasificar en categorías que no siguen un orden lógico. Por ejemplo, el color del cabello es una variable nominal, cuyas categorías pueden ser: rubio, castaño, negro, blanco, rojo y otro. ¿Qué quiere decir que no sigan un orden lógico? Que uno no puede ordenar las categorías en una escala y decir que el cabello rubio es mejor que el cabello castaño, y que éste es mejor que el cabello negro, el cual a su vez es mejor que el cabello rojo, y que por último se encuentra el cabello blanco.
Además, las categorías tienen que cumplir dos condiciones: deben ser mutuamente excluyentes y colectivamente exhaustivas. Lo anterior quiere decir que los individuos solo deben aparecer en una categoría, por ejemplo, no es posible que una mujer tenga el cabello simultáneamente negro y rubio. O es negro o es rubio, pero no los dos al mismo tiempo (eso es mutuamente excluyente). Y bueno yo sé que hay mujeres que tiene el pelo negro y se tinturan las puntas de color rubio o se hacen rayitos, entonces ¿qué debe hacer? Todo depende del objetivo de su investigación, es decir, de qué busca responder con los datos que está recolectado. Después de tener claro eso, usted puede decidir si precisa más su pregunta (¿de qué color es su cabello natural?), amplia las categorías de respuesta a su pregunta original, o incluso puede dejar la pregunta y las categorías de respuesta sin cambios.
Ahora, colectivamente exhaustivo se refiere a que por lo menos uno de los eventos, o de las categorías, debe ocurrir. Por ese motivo muchas veces usted ve la opción otro, seguida de la pregunta cuál. A veces, aunque realicemos pilotos de las encuestas, no podemos estar seguros de que estamos incluyendo absolutamente todos los posibles casos y la categoría “otro” es la que nos salva. Por ejemplo, suponga que usted pregunta a un hombre que es 100% calvo: ¿de qué color es su cabello?, y las posibles respuestas son: rubio, castaño, negro, blanco, rojo. La respuesta otro con la posibilidad de escribir ¿cuál? es su salvación.
Las variables ordinales también tienen esa característica de ser mutuamente excluyentes y colectivamente exhaustivas, pero se diferencian de las nominales porque sí hay un orden lógico. Por ejemplo, una variable que sea satisfacción con el servicio al cliente y cuyas categorías de respuesta sean: muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho. En ese caso, las categorías están ordenadas de acuerdo con el nivel de satisfacción, del más satisfecho al menos satisfecho. Pero OJO ese orden no corresponde a una magnitud, es decir, uno no puede afirmar que el individuo que respondió que está muy satisfecho está el doble de satisfecho que el que respondió que está satisfecho, o 4 veces más satisfecho que el que respondió muy insatisfecho. Solo podemos saber que el que está muy satisfecho está por encima del que respondió muy insatisfecho en la escala de nivel de satisfacción, pero no sabemos cuántas veces más.
Comentarios finales
En el próximo post hablaremos de los niveles de medición de las variables cuantitativas: de intervalo y de razón. Y les dejare un caso de estudio para que afiancemos estos conceptos antes de presentarles algunas herramientas de exploración.
Referencias
- Forbes (2016). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Disponible en https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#57e6bbe76f63