La analítica es una parte esencial de la empresa moderna, y puede resultar un poco abrumador empezar a pensar qué significa exactamente. Lo primero que debes saber es que la analítica es una herramienta que ayuda a las organizaciones a tomar mejores decisiones porque se basa en datos y hechos. Lo segundo que debe saber sobre la analítica es que no se trata de una sola cosa, sino de muchas. Existen tres tipos principales de análisis: descriptivo, predictivo y prescriptivo.
Analítica descriptiva
El análisis descriptivo proporciona un resumen de los datos pasados. Se asocia con la inteligencia de negocios o BI y nos ayuda a responder a preguntas como “¿cuántos clientes tuvimos el mes pasado?” o “¿cuáles son fueron nuestras ventas por canal y por región el último semestre?”. Estas preguntas son imposibles de responder para los humanos sin tener acceso a todos estos datos y sin realizar operaciones como agregaciones, filtros, entre otros. El objetivo de esta analítica es ofrecer a los ejecutivos una imagen clara de la situación de su empresa en cada momento para que puedan tomar decisiones inteligentes sobre cómo debe avanzar y, con suerte, crecer a partir de ahí.
Analítica predictiva
El análisis predictivo predice los resultados futuros basándose en los valores y tendencias actuales. Es decir, utiliza los datos históricos para predecir lo que ocurrirá en el futuro. Por ejemplo, si dispone de datos de ventas de los últimos 36 meses y desea saber cuántos productos se venderán el próximo mes, puede utilizar el análisis predictivo para determinar esa cifra basándose en las tendencias históricas.
Analítica prescriptiva
El análisis prescriptivo determina el mejor curso de acción en función de la información disponible y el resultado deseado. Es decir, utiliza los datos históricos para recomendar las acciones que deben llevarse a cabo para que ocurra (o no ocurra) algo en específico. Por ejemplo, si quiere vender más productos de lo habitual pero no quiere que los beneficios de las ventas de disminuyan con respecto a los días anteriores (o viceversa), puede utilizar el análisis prescriptivo para recomendar qué precio es más probable que produzca los mejores márgenes de beneficios sin sacrificar demasiado volumen de ventas en general. Dado lo anterior, se entiende que este nivel de analítica es el más complejo de los tres por la gran cantidad de variables que debe tener en cuenta.
¿Por qué es importante la analítica para las organizaciones?
La analítica les ayuda a tomar mejores decisiones proporcionando información relevante que puede utilizarse para mejorar productos y servicios, aumentar las ventas, reducir costes, mejorar la eficiencia, etc.
Limpiar datos es uno de las fases más largas e importantes que un científico de datos o analista de datos realiza en su día a día. Algunos afirman que esta fase junto al preprocesamiento de los datos puede ser entre el 60%-80% del tiempo de un proyecto de analítica. Y es tan importante porque sabemos que si introducimos a un modelo estadístico o de machine learning datos basura, obtenemos basura, y lo mismo aplica si aplicamos analítica descriptiva. Por lo tanto, conocer qué debemos buscar al momento de limpiar los datos es clave para hacer una buena tarea, en este post te contamos 7 elementos a tener en cuenta al limpiar tus datos.
Elemento No. 1 Revisar errores de digitación
Este tipo de error sucede normalmente cuando trabajamos con raw data que se ha capturado mediante encuestas o información que se ha transcrito. Veamos unos ejemplos:
Convenciones de denominación
NYC vs New York vs Nueva York
Representaciones diferentes
Si, si, Sí, sí
Espacios vacíos
“Mujer” vs “Mujer ” vs “ Mujer” vs “ Mujer ”
Tabla 1. Ejemplos de problemas de digitación
Este error generalmente lo podemos visualizar cuando tabulamos cada uno de los campos. Frecuentemente se resuelve utilizando expresiones regulares y reemplazando valores por los correctos donde aplique.
Elemento No. 2 Identificar si hay valores perdidos
Este problema en la limpieza de datos es uno de los más frecuentes. No hay una solución estándar. Lo recomendable es identificar los valores perdidos (ejemplo de estos pueden ser 99, “”, NA, depende de la organización como los codifica y es por eso que es importante tener el diccionario de datos disponible).
Posterior a eso, busca entender por qué hay valores perdidos. Hay decenas de motivos para que esto suceda, uno de ellos puede ser que es resultado de un patrón de salto en una encuesta. Por ejemplo, la persona respondió que no tiene hijos y por lo tanto no respondió cuántos hijos tiene. En este ejemplo, lo correcto sería poner cero en este caso para dicha persona en vez de un valor perdido.
Finalmente, decida el tratamiento que va a recibir los valores perdidos de cada campo. En algunos casos, lo mejor será reconocer que existe y no hacer nada al respecto, en otros puede ser no tener en cuenta dichas observaciones o imputar los valores perdidos.
Elemento No. 3 Encontrar si hay observaciones duplicadas
Este problema es importante identificarlo porque de esta forma evitamos la doble contabilización. Las observaciones duplicadas pueden ser a nivel de la fila, es decir una fila es exactamente igual a otra y en este caso lo mejor es eliminarla. Normalmente todas las herramientas de análisis de datos tienen una función específica para detectar este tipo de duplicidad.
En otros casos puede ser que sea un conjunto de campos idénticos. Por ejemplo, en una base de datos de facturas médicas es frecuente encontrar el número de factura e identificación del paciente duplicado varias veces, una vez por cada ítem (medicamento, procedimiento, ayuda diagnóstica) que ha recibido, lo que no es común es que le hayan hecho dos apendicectomías el mismo día porque solo tenemos un apéndice. Por lo tanto en el primer ejemplo, no eliminamos observaciones pero en el segundo debemos revisar con mayor detalle qué es lo que sucedió.
Elemento No. 4 Revisar si el formato coincide el tipo de variables
Este es un problema de limpieza fácil de identificar porque cuando intentemos utilizar estadísticas descriptivas se presentarán errores si no tenemos el formato correcto. Es importante corregir este problema para poder implementar modelos e interpretar correctamente los resultados. Para poder identificar este problema es importante saber la diferencia entre una variable cualitativa y cuantitativa, los niveles de medición de estas, y los formatos que utiliza la herramienta que estás utilizando para almacenar los datos.
Elemento No. 5 Encontrar valores inconsistentes
Al igual que los valores perdidos, no hay una receta exacta para encontrar valores inconsistentes, depende del conocimiento y el razonamiento lógico del analista. La mejor forma para encontrar los valores inconsistentes es haciéndose preguntas sobre las relaciones entre los campos y explorando la base de datos.
Por ejemplo, suponga que usted tiene el campo edad y el campo fecha de nacimiento, una forma de ver si hay valores inconsistentes es calcular la edad a partir de la fecha de nacimiento y comparar con la edad reportada.
Edad
Fecha de nacimiento
Edad calculada
27
1990/01/17
27
21
1995/05/14
21
60
11/11/1956
60
47
7/04/1940
77
37
12/08/1980
37
Tabla 2. Ejemplo de identificación de valores inconsistentes
Frecuentemente se resuelve reemplazando el valor inconsistente con un valor perdido o a partir de información de otros campos. Por ejemplo, e el caso de la tabla, si otra de las columnas indicara si la persona está recibiendo pensión y este individuo respondió que sí, podría intuirse que la edad correcta es 77.
Elemento No. 6 Revisar si hay valores inválidos
Los valores inválidos o fuera del rango los encontramos utilizando estadísticas descriptivas como las medidas de tendencia central, mínimo y el máximo en el caso de variables cuantitativas, y para las variables cualitativas las hallamos tabulando los datos. Los identificamos fácilmente revisando los rangos expuestos en el diccionario de datos, y en caso de no existir debemos utilizar nuestro razonamiento lógico. Por ejemplo, si obtenemos las estadísticas descriptivas de la edad y encontramos una edad negativa, sabemos que hay un valor inválido. Lo más probable es que debamos reemplazarlos con un valor perdido.
Elemento No. 7 Validar si hay valores sin referencia en el diccionario de variables
El diccionario de variables es una guía para entender y explorar los datos. No todas las organizaciones lo tienen y es recomendable empezar a trabajar en este aspecto cuando antes. Lo anterior puesto que muchas veces los campos cualitativos se codifican con números para facilitar su almacenamiento. Luego solo cuando tenemos el diccionario de variable es que podemos identificar si habido un error.
Por ejemplo, si el diccionario de variables indica que el estado civil solo puede tomar valores del 1 al 5, y encontramos un 8 entonces hemos encontrado un valor sin referencia. Lo mejor que podemos hacer es revisar con quienes hayan trabajado previamente con la base de datos, ellos nos pueden indicar si ha habido un cambio de recodificación y este fue un elemento que se quedó con la codificación anterior. Tal vez no encontremos una respuesta y en ese caso esto se convertirá en un valor perdido.
Conclusiones sobre limpiar datos
La limpieza de datos es un proceso que es una ciencia y un arte, especialmente cuando tienes que encontrar valores inconsistentes, definir qué hacer con los valores perdidos o hallar observaciones duplicadas. En muchos casos no hay una respuesta única a qué hacer cuando se presentan estos problemas, con la experiencia y un buen conocimiento del negocio verás que cada vez es más fácil hacer una buena limpieza.
En una entrada pasada del blog les habíamos contado qué era la Analítica de Datos (Data Analytics). Hoy vamos a contarles un poco más sobre cuáles son los tipos de analítica de datos y para qué sirven. Pero antes de eso es necesario hablar un poco de los tipos de datos que existen. Como ven en la imagen hay datos que son estructurados, semiestructurados y no estructurados. Los datos estructurados son aquellos que almacenan en sus hojas de excel o en una base de datos, y se caracterizan porque tienen un orden predeterminado, casi siempre organizamos los datos en filas y columnas. Por el contrario, los datos no estructurados no tienen una forma predefinida, por ejemplo son las fotos que cuelgas en Instagram, los videos que grabas en tu smartphone, los mensajes de voz que envías por Whatsapp, lo que cuelgas en tu muro de Facebook, entre otros. Los datos semiestructurados tienen algo de ambos tipos..
Ahora así, como les decíamos hay varios tipos de analítica. El nivel al que se puede llegar dentro de una organización depende de la madurez de ésta. Vamos a ver los tres más conocidos y en entradas futuras les daremos más detalle de los otros tipos y qué es eso de inteligencia de negocio (business intelligence).
Subcampos de la analítica
Fuente: Rapidminer (s.f.)
Analítica descriptiva
Generalmente, uno comienza haciendo analítica descriptiva. ¿Y qué es eso? Piense cuando su jefe le dice “quiero las estadísticas descriptivas (tablas de frecuencia, histogramas, gráficas de barras, media, la moda, mediana) de esos datos”. Sí señor o señora, ahí usted empezó a aplicar analítica de datos. Claro está que la analítica descriptiva va un poco más allá de eso. Como su nombre lo indica con este tipo se describen una situación, evento o producto de la mejor forma posible con el objetivo de responder qué ha pasado.
Analítica predictiva
Según Kelleher Mac Namee y D’Arcy (2015) la analítica predictiva consiste en el arte de construir y usar modelos para hacer predicciones basadas en los patrones que se extraen de los datos históricos de interés. Ahora vamos a responder la pregunta que seguramente le surgió: Y este tipo de analítica, ¿para qué me sirve?
La respuesta es sencilla porque básicamente lo que responde este tipo de analítica es que es lo más probable que suceda. El espacio que tenemos no es suficiente largo para todo lo que podemos hacer con este tipo de analítica, así que en esta entrada les contaremos sólo sobre dos usos que tomamos y complementamos de Kelleher Mac Namee y D’Arcy (2015):
Es importante tener en cuenta que, para cualquiera de esas aplicaciones, además de contar con un recurso humano o un proveedor experto en soluciones en analítica, necesita una base de datos histórica. Y eso no significa un año o dos de datos, eso significa mínimo más de tres años si estamos hablando de una periodicidad mensual y recuerde que entre más periodos tenga mejor será la precisión que podrá tener el modelo, la cual nunca será del 100%. Si no tiene los datos, pero usted reconoce que su organización presenta problemas que se podrían solventar u oportunidades que se podrían aprovechar utilizando la analítica predictiva, entonces es hora de empezar a pensar de manera estratégica sobre la captura y almacenamiento de esos datos que usted necesita.
Analítica prescriptiva
La analítica prescriptiva va un paso más allá. De acuerdo con Bull, Centurion, Kearns, Kelso y Viswanathan (2015), el interés por ésta hizo boom en 2013 (aún no he encontrado el motivo para que esto sea así) aunque los métodos que se emplean existen hace mucho tiempo. La analítica prescriptiva se apoya en técnicas de investigación de operaciones, machine learning, estadística aplicada y procesamiento del lenguaje natural para responder interrogantes como:
¿Cómo optimizar la estrategia de trade?
¿Cómo optimizar el portafolio de servicios financieros de mi compañía?
¿Cómo optimizar el mix de productos que ofrece mi compañía?
¿Qué es lo mejor o lo peor que puede pasar?
Referencias
Bull, P., Centurion, C., Kearns, S., Kelso, E., y Viswanathan, N. (2015). Prescriptive analytics for business leader. River Logic.
Chartered Global Management Accountant. (2016). Business analytics and decision making: The human dimension.
Kelleher, J. D., Mac Namee, B., & D’Arcy, A. (2015). Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. MIT Press.
Rapidminer. (s.f). An Introduction to Advanced Analytics. Disponible en: https://rapidminer.com/resource/introduction-advanced-analytics/
En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.
Nombre de la variable
Tipo de variable
Nivel de medición
Nombre del proveedor
Cualitativa
Nominal
Razón social de la empresa
Cualitativa
Nominal
NIT de la empresa
Cualitativa
Nominal
Fecha en que inició la relación comercial
Cuantitativa
De intervalo
Número de teléfono móvil
Cualitativa
Nominal
Dirección de la sede principal
Cualitativa
Nominal
Medio de pago aceptado por el proveedor
Cualitativa
Nominal
Estado del proveedor
Cualitativa
Nominal
Número de transacciones de compra por proveedor
Cuantitativa
Ratio
Valor total de la compra (pesos colombianos)
Cuantitativa
Ratio
Valor de la compra pagado (pesos colombianos)
Cuantitativa
Ratio
Valor de la compra por pagar (pesos colombianos)
Cuantitativa
Ratio
Número de la factura de compra
Cualitativa
Ordinal
Porcentaje de descuento
Cuantitativa
Ratio
Valor del IVA (pesos colombianos)
Cuantitativa
Ratio
Calificación del servicio prestado por el proveedor
Cualitativa
Ordinal
Medidas descriptivas para variables cualitativas
Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:
Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.
Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo. Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).
Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible. Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil. Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.
Referencias
Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings
Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y en el post pasado empezamos a hablar sobre las estadísticas descriptivas que podemos utilizar para explorar datos del tipo cualitativo. Además de las estadísticas como la moda y las tablas de frecuencia, algo con lo que siempre debemos contar es con las visualizaciones, tanto de datos cualitativos como de datos cuantitativos, incluso podemos mezclar ambos tipos de visualización en una misma gráfica. Hoy nos vamos a centrar en los atributos preatentivos o preattentive atributes por su nombre en inglés. Les contaremos qué son, les daremos ejemplos y por qué son importantes que los tengan en cuenta cuando están haciendo visualizaciones de la información.
Definición
Los atributos preatentivos de las visualizaciones son aquellos que se procesan en nuestra memoria sensorial sin nuestro pensamiento consciente. Es decir que son muy útiles porque transmitimos ideas de la forma correcta al aprovechar las propiedades de la percepción visual humana, la cual es la más desarrollada entre todos nuestros sentidos.
Colin Ware, en su libro “Information Visualization: Perception for Design” define cuatro propiedades visuales preatentivas:
Color
Forma
Movimiento
Posicionamiento espacial
Veamos cada una de ellas:
Color
El color se puede expresar de muchas maneras diferentes. Desde la escala RGB (Rojo, Verde, Azul) hasta la escala CMYK (Cian, Magenta, Amarillo y Clave) a la escala HSL (Tono, Saturación y Luminosidad) Esta semana de hecho aprendí que CMYK se necesita cuando vas a hacer impresiones, por ejemplo, unas tarjetas de presentación o material promocional; mientras que, el RBK está bien que lo utilices en las aplicaciones web, cuando vas a hacer presentaciones en prezi o power point. Para hoy nos es útil la escala HSL (ver Imagen 1). El tono es lo que normalmente llamamos color, por ejemplo, rojo, zapote, verde, morado, azul, entre otros. Mientras que saturación y luminosidad son una medida de la intensidad del color. Para mí a veces es difícil diferenciar visualmente entre ambas propiedades de los colores. Básicamente la saturación de un color cambia a medida que ese color tiene más o menos cantidad de gris, mientras que, el brillo lo que representa es qué tan claro u oscuro es un color respecto a su color patrón (Artes visuales, 2016).
El color sirve para llamar la atención sobre algo de los datos, eso lo que hace es que el usuario no tenga realizar una búsqueda visual, en otras palabras utilice para su observador vaya directamente al grano de lo que usted quiere que él observe.
La forma tiene muchos sub atributos con los cuales podemos llamar la atención o por el contrario para reducir su atención en ese objetivo (ver Imagen 2). Por ejemplo, podemos aumentar el tamaño de un objeto como una señal de que ese objeto es importante. Mientras que lo podemos hacer pequeño si queremos reducir su importancia.
Movimiento
Movimiento tiene dos subatributos: dirección del movimiento y la frecuencia del movimiento o parpadeo como diríamos algunos. Mucho ojo con este atributo, si lo usas efectivamente será un éxito y lograras llamar la atención, de lo contrario puede convertirse en algo que distraiga al observador del resto de elementos que estés presentado, o incluso se puede volver molesto o mareador.
Posicionamiento espacial
Tres sub atributos tienes que tener en cuenta según la Interaction Design Foundation (2018):
Posicionamiento 2D: esta es a menudo la mejor forma de entregar datos que puedan reconocerse y procesarse visualmente fácilmente. Es particularmente efectivo para representaciones de datos cuantitativos. Tiene que ver no solo con la posición también con el agrupamiento que se genera partir de las posiciones que toman los datos.
Profundidad estereoscópica: percibimos la profundidad al combinar las imágenes generadas por los ojos izquierdo y derecho en el cerebro. Esta profundidad es procesada de forma preatentiva. Es posible recrear la profundidad estereoscópica utilizando dos cámaras separadas configuradas en diferentes ángulos para un sujeto e imponiendo las imágenes una sobre la otra.
Posicionamiento cóncavo y convexo: esto se puede crear mediante el uso de sombreado (ver imagen del eclipse de luna).
Fuente: Pixabay.
Para finalizar
Ya sabemos cuáles son esos atributos, y sabemos que son poderosos porque nuestro cerebro los procesa rápidamente sin hacer mucho esfuerzo. Lo anterior no quiere decir que vamos a hacer un sancocho con esos atributos en nuestra visualizaciones. Tenemos que pensar quién es nuestro público, qué mensaje queremos transmitir, y probar con varias visualizaciones hasta que logremos llegar a la mejor visualización para el contexto y el público al que le estamos presentando. Un ejemplo de esto lo ven en la próxima imágenes, por un lado una gráfica que combina color (tono) y largo para mostrar lo que aparenta ser la satisfacción con el trabajo dependiendo de ciertas cualidades del gerente. En la primera imagen, espero que les pase a ustedes también, fue difícil encontrar algo, me quede observando intentando ver si había algún patrón pero el uso de esos colores dificultó la tarea. En la segunda imagen el color facilita entender el mensaje.
Colin Ware. (2004). Information Visualization: Perception for Design. Morgan Kaufmann, San Francisco, CA, 2nd edition.
Interaction Design Foundation (Abril, 2018). Preattentive Visual Properties and How to Use Them in Information Visualization Disponible en https://www.interaction-design.org/literature/article/preattentive-visual-properties-and-how-to-use-them-in-information-visualization
Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y las estadísticas descriptivas que podemos utilizar para explorar los datos del tipo cualitativo. Este es el último post de esta serie Eso no quiere decir que no tendremos más post sobre exploración y limpieza de datos porque de este tema hay para cientos de post, de hecho, hay libros enteros que sólo se dedican a este tema, el motivo de esa decisión es que queremos que el contenido de nuestro blog sea variado, cuando retomemos este tema pondremos los hipervínculos respectivos y en éste les contaremos sobre las herramientas que disponemos para explorar las variables del tipo cuantitativo: medidas de tendencia central, medidas de dispersión y los gráficos más utilizados.
Medidas de tendencia central
Una medida de tendencia central describe un conjunto de datos al identificar la posición central con un único valor numérico. Las tres medidas más utilizadas son: la media (también conocida como el promedio o la media aritmética), la mediana (también conocida como el segundo cuartil) y la moda. En la siguiente figura vemos un ejemplo de cómo calcular estas tres medidas para una serie de números.
La media resulta ser la suma de los valores divido por el número de observaciones y es tal vez la medida de tendencia central más utilizada. La media tiende a no ser útil cuando los datos presentan valores extremos porque se produce un sesgo en la media ya que con esta medida todos los valores tienen la misma ponderación o importancia.
La mediana es aquel valor por el que la mitad (50%) de los datos está por debajo y la otra mitad (50%) está por encima. Para poder calcular la mediana debemos organizar los datos de menor a mayor. Si observa la figura en este caso la mediana es 6, al lado izquierdo hay 5 números y al lado derecho hay otros 5 números. Si el número de valores no es impar como el caso del ejemplo, debemos sumar y dividir por dos los números que estarían al lado de la mediana. Por ejemplo, suponga que la serie es: 3,4,5,5,5,5, 6,6,7,8,8,9. Esta serie tiene 12 números, la mediana estaría entre 5 y 6 por lo tanto la mediana sería 5.5 ((5+6) / 2)
La moda es el valor que más se repite en una serie, en la figura es el número 5 (se repite 3 veces). Puede haber una sola moda, como en la figura, o puede haber 2 o más modas, o incluso puede ser que la serie no tenga moda porque no hay algún número que se repita más de 1 vez.
Medidas de dispersión
Las medidas de dispersión nos muestran qué tan esparcidos están los datos. Puede haber medidas absolutas o relativas. Dentro de las absolutas las más utilizadas son el rango y la desviación estándar; mientras que, el coeficiente de variación es el más utilizado dentro de las relativas.
El rango como la muestra la Figura 2 es la diferencia entre el valor más grande y el menor valor. Es decir es una medida de la dispersión total que hay en los datos, y por lo tanto no tiene en cuenta cómo los datos se distribuyen entre el menor y el mayor valor. Es por eso por lo que utilizamos otras medidas de dispersión como la desviación estándar.
La desviación estándar muestral es en “promedio” qué tan dispersos están los valores alrededor de la media. Para calcularla debemos obtener la diferencia entre cada valor y la media (por eso a cada valor de nuestro ejemplo le restamos el 6). Cada diferencia es elevada al cuadrado y sumamos los resultados. Finalmente dividimos por n-1 (obteniendo la varianza muestral) y a ese resultado le sacamos la raíz cuadrada. Vean que el hecho de que elevemos al cuadrado la diferencia nos lleva a obtener que siempre la varianza y la desviación estándar sean positivas. Entre mayor sea la desviación estándar más dispersos estarán los datos.
Por último, el coeficiente de variación es la desviación estándar divida por la media y se expresa en términos porcentuales. Este indicador se utiliza mucho cuando estamos comparando dos o más conjuntos de datos que se encuentran medidos en diferentes escalas.
Visualizaciones
En la figura 3 y 4 vemos unos datos cuantitativos y sus respectivas estadísticas descriptivas. A primera vista parece que no hay mucha diferencia. Sin embargo, cuando los gráficos (figura 5) observamos que cada conjunto de datos tiene un comportamiento diferente. Lo anterior refuerza la importancia de acompañar nuestras tablas y estadísticos numéricos con visualizaciones. ¿Cuáles son las más utilizadas? Los histogramas, las líneas, las cajas de bigotes, y los diagramas de dispersión. Los histogramas los utilizamos para variables individuales; mientras que, los diagramas de dispersión nos sirven para ver si hay algún tipo de relación entre dos variables.