Visualizaciones

Tributos Preatentivos

Atributos preatentivos la clave para mejores visualizaciones

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y en el post pasado empezamos a hablar sobre las estadísticas descriptivas que podemos utilizar para explorar datos del tipo cualitativo. Además de las estadísticas como la moda y las tablas de frecuencia, algo con lo que siempre debemos contar es con las visualizaciones, tanto de datos cualitativos como de datos cuantitativos, incluso podemos mezclar ambos tipos de visualización en una misma gráfica. Hoy nos vamos a centrar en los atributos preatentivos o preattentive atributes por su nombre en inglés. Les contaremos qué son, les daremos ejemplos y  por qué son importantes que los tengan en cuenta cuando están haciendo visualizaciones de la información.

Definición

Los atributos preatentivos de las visualizaciones son aquellos que se procesan en nuestra memoria sensorial sin nuestro pensamiento consciente. Es decir que son muy útiles porque transmitimos ideas de la forma correcta al aprovechar las propiedades de la percepción visual humana, la cual es la más desarrollada entre todos nuestros sentidos.

Colin Ware, en su libro “Information Visualization: Perception for Design” define cuatro propiedades visuales preatentivas:

  • Color
  • Forma
  • Movimiento
  • Posicionamiento espacial

Veamos cada una de ellas:

Color

El color se puede expresar de muchas maneras diferentes. Desde la escala RGB (Rojo, Verde, Azul) hasta la escala CMYK (Cian, Magenta, Amarillo y Clave) a la escala HSL (Tono, Saturación y Luminosidad) Esta semana de hecho aprendí que CMYK se necesita cuando vas a hacer impresiones, por ejemplo, unas tarjetas de presentación o material promocional; mientras que, el RBK está bien que lo utilices en las aplicaciones web, cuando vas a hacer presentaciones en prezi o power point.  Para hoy nos es útil la escala HSL (ver Imagen 1). El tono es lo que normalmente llamamos color, por ejemplo, rojo, zapote, verde, morado, azul, entre otros. Mientras que saturación y luminosidad son una medida de la intensidad del color. Para mí a veces es difícil diferenciar visualmente entre ambas propiedades de los colores. Básicamente la saturación de un color cambia a medida que ese color tiene más o menos cantidad de gris, mientras que, el brillo lo que representa es qué tan claro u oscuro es un color respecto a su color patrón (Artes visuales, 2016).

El color sirve para llamar la atención sobre algo de los datos, eso lo que hace es que el usuario no tenga realizar una búsqueda visual, en otras palabras utilice para su observador vaya directamente al grano de lo que usted quiere que él observe.

Fuente: Armonía y contraste de colores (2010)  

Forma

La forma tiene muchos sub atributos con los cuales podemos llamar la atención o por el contrario para reducir su atención en ese objetivo (ver Imagen 2). Por ejemplo, podemos aumentar el tamaño de un objeto como una señal de que ese objeto es importante. Mientras que lo podemos hacer pequeño si queremos reducir su importancia.

Movimiento

Movimiento tiene dos subatributos: dirección del movimiento y la frecuencia del movimiento o parpadeo como diríamos algunos. Mucho ojo con este atributo, si lo usas efectivamente será un éxito y lograras llamar la atención, de lo contrario puede convertirse en algo que distraiga al observador del resto de elementos que estés presentado, o incluso se puede volver molesto o mareador.

Posicionamiento espacial

Tres sub atributos tienes que tener en cuenta según la Interaction Design Foundation (2018):

  • Posicionamiento 2D: esta es a menudo la mejor forma de entregar datos que puedan reconocerse y procesarse visualmente fácilmente. Es particularmente efectivo para representaciones de datos cuantitativos. Tiene que ver no solo con la posición también con el agrupamiento que se genera partir de las posiciones que toman los datos.
  • Profundidad estereoscópica: percibimos la profundidad al combinar las imágenes generadas por los ojos izquierdo y derecho en el cerebro. Esta profundidad es procesada de forma preatentiva. Es posible recrear la profundidad estereoscópica utilizando dos cámaras separadas configuradas en diferentes ángulos para un sujeto e imponiendo las imágenes una sobre la otra.
  • Posicionamiento cóncavo y convexo: esto se puede crear mediante el uso de sombreado (ver imagen del eclipse de luna).

Fuente: Pixabay.

Para finalizar

Ya sabemos cuáles son esos atributos, y sabemos que son poderosos porque nuestro cerebro los procesa rápidamente sin hacer mucho esfuerzo. Lo anterior no quiere decir que vamos a hacer un sancocho con esos atributos en nuestra visualizaciones. Tenemos que pensar quién es nuestro público, qué mensaje queremos transmitir, y probar con varias visualizaciones hasta que logremos llegar a la mejor visualización para el contexto y el público al que le estamos presentando. Un ejemplo de esto lo ven en la próxima imágenes, por un lado una gráfica que combina color (tono) y largo para mostrar lo que aparenta ser la satisfacción con el trabajo dependiendo de ciertas cualidades del gerente. En la primera imagen, espero que les pase a ustedes también, fue difícil encontrar algo, me quede observando intentando ver si había algún patrón pero el uso de esos colores dificultó la tarea. En la segunda imagen el color facilita entender el mensaje.

Fuente: Cole Nussbaumer

Referencias

  1. Artes Visuales. (Noviembre 8, 2016). ¿Qué Es El Color? | Teoría Del Color Y Sus Propiedades. Disponible en: https://artesvisuales.mx/2016/11/08/que-es-el-color-teoria-del-color-y-sus-propiedades/
  2. Colin Ware. (2004). Information Visualization: Perception for Design. Morgan Kaufmann, San Francisco, CA, 2nd edition.
  3. Interaction Design Foundation (Abril, 2018). Preattentive Visual Properties and How to Use Them in Information Visualization Disponible en https://www.interaction-design.org/literature/article/preattentive-visual-properties-and-how-to-use-them-in-information-visualization
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte 4

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y las estadísticas descriptivas que podemos utilizar para explorar los datos del tipo cualitativo. Este es el último post de esta serie Eso no quiere decir que no tendremos más post sobre exploración y limpieza de datos porque de este tema hay para cientos de post, de hecho, hay libros enteros que sólo se dedican a este tema, el motivo de esa decisión es que queremos que el contenido de nuestro blog sea variado, cuando retomemos este tema pondremos los hipervínculos respectivos y en éste les contaremos sobre las herramientas que disponemos para explorar las variables del tipo cuantitativo: medidas de tendencia central, medidas de dispersión y los gráficos más utilizados.

Medidas de tendencia central

Una medida de tendencia central describe un conjunto de datos al identificar la posición central con un único valor numérico. Las tres medidas más utilizadas son: la media (también conocida como el promedio o la media aritmética), la mediana (también conocida como el segundo cuartil) y la moda. En la siguiente figura vemos un ejemplo de cómo calcular estas tres medidas para una serie de números.

La media resulta ser la suma de los valores divido por el número de observaciones y es tal vez la medida de tendencia central más utilizada. La media tiende a no ser útil cuando los datos presentan valores extremos porque se produce un sesgo en la media ya que con esta medida todos los valores tienen la misma ponderación o importancia.

La mediana es aquel valor por el que la mitad (50%) de los datos está por debajo y la otra mitad (50%) está por encima. Para poder calcular la mediana debemos organizar los datos de menor a mayor. Si observa la figura en este caso la mediana es 6, al lado izquierdo hay 5 números y al lado derecho hay otros 5 números. Si el número de valores no es impar como el caso del ejemplo, debemos sumar y dividir por dos los números que estarían al lado de la mediana. Por ejemplo, suponga que la serie es: 3,4,5,5,5,5, 6,6,7,8,8,9. Esta serie tiene 12 números, la mediana estaría entre 5 y 6 por lo tanto la mediana sería 5.5 ((5+6) / 2)

La moda es el valor que más se repite en una serie, en la figura es el número 5 (se repite 3 veces). Puede haber una sola moda, como en la figura, o puede haber 2 o más modas, o incluso puede ser que la serie no tenga moda porque no hay algún número que se repita más de 1 vez.

Medidas de dispersión

Las medidas de dispersión nos muestran qué tan esparcidos están los datos. Puede haber medidas absolutas o relativas. Dentro de las absolutas las más utilizadas son el rango y la desviación estándar; mientras que, el coeficiente de variación es el más utilizado dentro de las relativas.

El rango como la muestra la Figura 2 es la diferencia entre el valor más grande y el menor valor. Es decir es una medida de la dispersión total que hay en los datos, y por lo tanto no tiene en cuenta cómo los datos se distribuyen entre el menor y el mayor valor. Es por eso por lo que utilizamos otras medidas de dispersión como la desviación estándar.

La desviación estándar muestral es en “promedio” qué tan dispersos están los valores alrededor de la media. Para calcularla debemos obtener la diferencia entre cada valor y la media (por eso a cada valor de nuestro ejemplo le restamos el 6).  Cada diferencia es elevada al cuadrado y sumamos los resultados. Finalmente dividimos por n-1 (obteniendo la varianza muestral) y a ese resultado le sacamos la raíz cuadrada. Vean que el hecho de que elevemos al cuadrado la diferencia nos lleva a obtener que siempre la varianza y la desviación estándar sean positivas. Entre mayor sea la desviación estándar más dispersos estarán los datos.

Por último, el coeficiente de variación es la desviación estándar divida por la media y se expresa en términos porcentuales. Este indicador se utiliza mucho cuando estamos comparando dos o más conjuntos de datos que se encuentran medidos en diferentes escalas.

Visualizaciones

En la figura 3 y 4 vemos unos datos cuantitativos y sus respectivas estadísticas descriptivas. A primera vista parece que no hay mucha diferencia. Sin embargo, cuando los gráficos (figura 5) observamos que cada conjunto de datos tiene un comportamiento diferente. Lo anterior refuerza la importancia de acompañar nuestras tablas y estadísticos numéricos con visualizaciones. ¿Cuáles son las más utilizadas? Los histogramas, las líneas, las cajas de bigotes, y los diagramas de dispersión. Los histogramas los utilizamos para variables individuales; mientras que, los diagramas de dispersión nos sirven para ver si hay algún tipo de relación entre dos variables.

Fuente: Frank Anscombe (1973).