Volumen

analitica

BIG DATA: No es una tendencia ni una moda tecnológica, es una realidad que vino para quedarse.

Los grandes conjuntos de información o big data (aunque creo que el adjetivo grande ya le está quedando pequeño) están aquí desde hace ya un tiempo y están creciendo a pasos gigantes. Se espera que en 2020 haya 40 zettabytes almacenados digitalmente, esto es alrededor de 6080 millones de años de ponerse a ver videos en HD (NVTC, 2017). Es decir, si suponemos que usted es colombiano entonces debería vivir 78 años

Si usted nació en Colombia en 2016 y es hombre entonces tiene una esperanza de vida al nacer de 75,4 años y si es mujer su esperanza de vida es 81,1 años (Fernández, 2017), entonces para no complicarnos sacamos el promedio.

En promedio, luego usted necesitaría casi 78 millones de vidas para ver todos esos videos. En esta entrada voy a contarles de cómo se mide el Big Data y por qué está creciendo de manera exponencial.

Infografía de Big Data de IBM
Fuente: IBM (s.f.)

Volumen

Empecemos entonces por la medición del volumen. Para eso hay que hablar de bytes. ¿Qué es un byte? Un byte es una unidad de medida para almacenaje y procesamiento de información. Un byte es lo que se requiere para almacenar una letra. Yo creo que usted está familiarizado con algunas medidas de volumen que le siguen al byte; por ejemplo, un Kilobyte (KB) son 1024 bytes, imagínese que una hoja escrita en Word es equivalente más o menos a 30 KB. Después viene el Megabyte (1 MB son 1024 KB), y eso es un libro de texto. Le sigue un GB que son 1024 MB, eso es en lo típico en lo que nos fijamos cuando vamos a comprar una memoria USB o un celular.

Uno más reciente es el Terabyte (1 TB son 1024 GB), y ese volumen es lo que ahora ofrecen la mayoría de los computadores portátiles hoy en día. Mi portátil tiene una TB de almacenamiento y aunque guardo y guardo información parece que eso nunca se va a acabar.  Después siguen los Petabytes (1PB son 1024 TB), los Exabytes (1 EB son 1024 TB), los Zettabytes (1 ZB 1024 EB), los Yottabytes (1 YB son 1024 ZB), los Brontobyte (1 BB son 1024 YB) y los Geopbyte (1 GB son 1024 BB).

Veamos algunos ejemplos de esas unidades de medidas. En 2008, Google procesaba 20 Pentabytes de información cada día (Dontha, 2017).  Un Exabyte es equivalente a 250 millones de DVD’s, si comparamos todas las películas que se han creado en toda la historia del cine (500.000 películas aproximadamente), entonces qué haríamos con los 249.5 millones de DVD’s restantes, suponiendo que tenemos acceso a todas las películas y DVD’s que queramos (Säisä, 2013). Entonces, ¿en términos de volumen a qué nos referimos cuando hablamos de Big Data? Cuando hablamos de docenas de Terabytes y de ahí en adelante podemos decir que ya estamos hablando de Big Data.

Variedad

Y, ¿por qué crece tan rápido? Por un lado, los desarrollos tecnológicos han generado una gran variedad de datos; por otro lado, cada vez más personas en el mundo tienen acceso a ellos. Imagínese que en 1998 (hace 20 años) las búsquedas que se hacían en el Google por día eran de 9800 en promedio y en 2012, fueron 5134 millones en promedio (SAP es una multinacional alemana que se dedica a diseñar software para todo tipo de organizaciones, 2014). En otras palabras, ¡Aproximadamente 524000 veces más búsquedas en 2012 que en 1998, y eso sólo ocurrió en 14 años!

¿Qué tipo de desarrollos tecnológicos? Por ejemplo, el celular, el internet o el ipod. Si usted es un centennial (nació en 1995 o después) probablemente no tenga idea que es un beeper o un fax, tenga un celular y casi todos los que conoce también tienen uno. De hecho, se estima que en el mundo hay 6 .8 de billones de líneas de celulares, y si somos más o menos 7.6 billones de personas, entonces tenemos que de cada 100 personas hay 78 que tienen celular.

¿Qué almacenamos en el celular? Todo tipo de datos: imágenes, videos, sonidos (música), mensajes de texto, y si además tenemos datos o acceso a wifi, podemos ver videos en Youtube, agregar contenido a Facebook o enviar Tweets [note] No es que antes de estos desarrollos no tuviéramos fotografías, o videos, o “mensajes de texto”, solo que los almacenamos, interactuamos y las compartíamos de una forma diferente. Por ejemplo, las fotos las tomamos con una cámara fotografía, quedaban almacenadas en un rollo que teníamos que revelar y las guardábamos físicamente en un álbum.[/note].  Resulta que 30 billones de piezas de contenido se comparten mensualmente en Facebook, 400 millones de Tweets se mandan todos los días, o 4 billones de horas de video se ven en YouTube cada mes (IBM, s.f), yo no sé ustedes, pero a mí esas cifras no me caben en la cabeza.

Velocidad

Hay otra característica que es importante: la velocidad. Es decir que tanto tiempo se necesita para almacenar y analizar la información De nuevo los desarrollos tecnologías nos permiten tener más información en tiempo real. De hecho, existen alrededor de 2.5 conexiones de red por cada persona en la tierra (IBM, s.f.).  Un ejemplo de la velocidad está a unos cuantos pasos de usted si posee un carro moderno, estos tienen alrededor de 100 sensores y eso significa que en tiempo real usted puede saber con exactitud el nivel de gasolina, la presión de sus llantas, entre muchas cosas, y toda esa información la almacenan y procesan en milésimas de segundo.

Si notaron, subrayé tres palabras: variedad, volumen y velocidad. Esas son las 3 V básicas que caracterizan al Big Data. Sobre las otras características (valor y veracidad) y las oportunidades y retos que ha traído el Big Data les hablaré en la próxima entrada.

Referencias

  1. Dontha, R. (2017, 13 enero). Who came up with the name Big Data? Disponible en https://www.datasciencecentral.com/profiles/blogs/who-came-up-with-the-name-big-data
  2. Fernández, C.F (2017, 14 septiembre). Los hombres colombianos vivirán 75,4 años y las mujeres 81,1 años. El Tiempo. Disponible en: http://www.eltiempo.com/vida/salud/esperanza-de-vida-en-los-hombres-y-mujeres-de-colombia-130840
  3. IBM (s.f). The Four V’s of Big Data. Disponible en: http://www.ibmbigdatahub.com/infographic/four-vs-big-data
  4. NTCV – Northern Virginia Tecnology Council (2017). Data Analytics. Disponible en: http://blog.nvtc.org/index.php/nvtc-publishes-2017-data-analytics-infographic/
  5. Säisä, L. (2013, 9 agosto). Big Data and privacy aspects. Disponible en: http://saisa.eu/blogs/Guidance/?p=1274
  6. SAP (2013). Big Data is affecting people everywhere. Disponible en: https://visual.ly/community/infographic/technology/big-data-affecting-people-everywhere
Big data

BIG DATA: Veracidad, valor y retos

En la entrada pasada les conté que el Big Data se caracteriza por: Velocidad, Variedad y Volumen. Ahora hay otras dos V que se tienden a utilizar: Veracidad y Valor. Hoy les contaré sobre el significado de ellas y cuáles son algunos de los retos que enfrentan las organizaciones con el Big Data.

Veracidad

¿De dónde salió esta V? De IBM. ¿Y qué quiere decir? Según la RAE, veracidad significa que tiene la propiedad de ser veraz, es decir “Que dice, usa o profesa siempre la verdad”. La verdad se puede explorar desde varias ópticas: objetivo/subjetivo, verdadero/engaño, creíble/implausible (Lukoianova & Rubin, 2014). ¿Por qué esta propiedad podría ser importante? Bueno porque muchos datos son generados por los seres humanos directamente o indirectamente. Seamos sinceros, los seremos humanos a veces expresamos en las redes sociales una cosa y terminamos haciendo lo contrario; ejemplos de ello lo encuentra en el Plesbicito por la Paz o el Brexit (directo). O hay avances tecnológicos que son creados con el fin mismo de crear desinformación (dar click aquí para leer el artículo “La información falsa llega más lejos, más rápido y a más gente que la verdadera”) (indirecto).  ¿Entonces cómo sabemos si los datos que capturamos son o no veraces? No hay una fórmula mágica para clasificar un dato como confiable o no, mi recomendación es que no pierda su sentido común y pensamiento crítico cuando vea los resultados de los análisis de los datos. Y eso aplica tanto si es Big Data como no.

Valor

Entre más datos tienes, más valor tiene tu compañía. Por ejemplo, en el top 10 de las empresas más valiosas en el mundo (Fortune 500 2016) se encontraban: Walmart, Apple, Amazon, Alphabet (Google), Microsoft y Facebook (Marr, 2017). Cada una en un sector de la economía diferente, con un modelo de negocio distinto, sin embargo, tienen un elemento en común: su habilidad para recolectar datos y aprovecharlos para generar ventajas competitivas.

¿Cómo monetizar los datos? Los datos incrementan el valor de mercado de la compañía o a través de la generación de capacidades para crear un valor extra con los datos que puedan vendérselo a tus clientes o a terceros. Ya vimos un ejemplo del primer caso. Veamos un ejemplo del segundo. ¿Tienes una tarjeta de crédito? Si es así, ya sea Visa, Mastercard o American Express, entonces es cierto lo que estás pensando ellos ganan por todos lados. Por un lado, por el cobro que te realizan por el servicio que prestan. Pero resulta que ese servicio que usted utiliza le da información de sus hábitos de compra: dónde, qué, cuánto, cada cuánto, a cuántas cuotas, etc. Eso es información valiosa para muchas otras empresas. Por ejemplo, los retailers pueden estar dispuestos a comprar esa información porque les es útil para segmentar a los clientes o para identificar tendencias de compra de ciertos nichos de mercado (Marr, 2017).

5Vs y muchos retos

¿Qué retos enfrentan las organizaciones? Muchos. Todo depende del sector en que se encuentre su organización, el tamaño de ésta, de los objetivos estratégicos de largo plazo que se hayan, es decir los retos de una organización son específicos a las características de la empresa y a su entorno. Lo que sí puedo es darle algunas preguntas que se debería responder si va a empezar a acumular muchos datos o si ya está lleno de datos, cada vez creciendo más y no tiene ni idea de qué hacer con ellos.

Empecemos con la V de Volumen. ¿Cuál es la información que es valiosa para tu negocio? A menos que seas Google, Facebook o Amazon, no puedes darte el lujo de almacenar todos los datos que generas porque resulta muy costoso, Después, puedes responder ¿Dónde vas a almacenar los datos y quién se va a encargar de hacer eso? Si no tienes la capacidad propia de almacenaje, hay muchos servidores en la nube donde puedes guardar tu información como los que provee Amazon, Google, Microsoft, Atlantic.net, entre otros. También tienes que pensar en cuál es la infraestructura tecnológica que necesitas para procesar esos datos y evaluar si tu recurso humano tiene las capacidades técnicas para manipular esa información.

La V de Velocidad: procesamiento de la información en tiempo real. Probablemente, en Colombia estemos un poco lejos de esta característica, al menos en la mayoría de las empresas, pero para las que sí lo están, mi recomendación es analice qué es lo realmente importante y procese eso. De nuevo hay que analizar los costos y beneficios, y no perder de vista la visión estratégica que queremos alcanzar.

Por último, la V de Variedad. Los datos provienen de tantas fuentes diferentes y terminan almacenados en diferentes computadores. Aquí podrías responderte: ¿Qué tipo de datos colectas? ¿Qué tipo de procesamiento necesitan? ¿Para qué me podrían servir? Y ¿Cómo los puedo integrar? Mejor dicho, haz el inventario de los datos a los que tienes acceso, dónde están y quién tiene acceso a ellos. Puedes tener infinita cantidad de datos, pero si no conoces qué tienes y cómo se pueden integrar, de poco te sirven para tomar decisiones y mejorar la eficiencia operacional de tu compañía.

Después de que captures y almacenes los datos tendrás otros retos: ¿cómo visualizarlos?, ¿cómo reducir la dimensionalidad?, ¿cómo manejar la dispersión y regularizar los datos? Como ya te mencionamos las respuestas particulares a estas preguntas son dependientes de tu organización y características. Nosotros te contaremos los últimos avances tecnológicos que  existen en el mercado para resolver retos y aprovechar oportunidades, te daremos en qué pensar, y especialmente queremos que entiendas los conceptos para que puedas hablar un mismo lenguaje con los ingenieros de sistemas y comunicar la importancia de los datos a tus proveedores y clientes (internos y externos).

Referencias

  1. Lukoianova, T., & Rubin, V. L. (2014). Veracity roadmap: Is big data objective, truthful and credible?.
  2. Marr, B. (2017). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page Publishers.
Tres casos de Big Data

Tres casos de éxito de aplicar BIG DATA

Es Volumen, es Variedad, es Velocidad, es Veracidad y sobre todo es VALOR cuando aplicamos analítica al BIG DATA (Big Data Analytics). Ya hablamos de sus características y de sus retos, hoy es el día para presentarles algunos casos de éxito, y mostrarles para qué le puede servir a una organización aplicar Big Data Analytics.

Caso No. 1 Global Pulse

Generalmente asociado el tema de Big Data al sector empresarial pero este no es exclusivo de ese sector. Organizaciones gubernamentales, o intergubernamental como es el caso de las Naciones Unidas, buscan aprovechar el big data, la inteligencia artificial y otras tecnologías emergentes para cumplir con los objetivos que se han propuesto. Por ese motivo, las Naciones Unidas (UN)  Esta organización nació después del fin de la Segunda Guerra Mundial, el 24 de octubre de 1945 y hoy tiene 193 Estados miembros, dentro de sus objetivos promover la paz, proteger los derechos humanos, establecer el marco de la justicia internacional y promover el progreso económico y social. crearon la iniciativa Global Pulse, con la que esperan apoyarse en las nuevas herramientas tecnológicas para ayudar a distribuir ayuda humanitaria, y promover el desarrollo sostenible.

UN no está sola, en cada uno de los proyectos, Global Pulse se une con otras empresas que poseen las capacidades analíticas para manipular grandes volúmenes de información. Por ejemplo, para Irlanda, el grupo de Global Pulse se unió a SAS para responder a la pregunta de ¿si pueden las redes sociales profundizar el desempleo?

Para eso capturaron información digital (redes sociales, blogs, foros, noticias que estuvieran relacionados con el desempleo), después realizaron un análisis exploratorio, y por último realizaron un análisis de sentimientos (sentiment analysis) [note] Análisis de sentimientos, también llamado minería de opinión , es el campo de estudio que analiza las opiniones, sentimientos, evaluaciones, valoraciones, actitudes de las personas, y emociones hacia entidades tales como productos, servicios, organizaciones, individuos, problemas, eventos, temas y sus atributos. y etiquetaron cada conversación. Por último, realizaron una correlación entre el estado de ánimo de la conversación y las estadísticas oficiales de desempleo. Descubrieron que mayores conversaciones en las redes sociales sobre temas relacionados con confusión y ansiedad ocasionada por el trabajo es un buen indicador que alerta un pico de desempleo en Irlanda y este indicador funciona con tres meses de anticipación.

Caso No. 2 OPower

Big Data y computación en la nube generalmente van de la mano. Ese es el caso de la compañía OPower, subsidiaria de Oracle Corporation, que funciona como una plataforma que asiste a empresas de servicios públicos a reducir el consumo de energía y a mejorar las relaciones que tienen con sus clientes. Empleando datos de termostatos y otros dispositivos de Pacific Gas and Electric, OPower captura alrededor de 7 millones de datos cada día y con eso genera reportes que se adjuntan a la factura de servicios públicos como una forma de incentivar al cliente a racionar su consumo de energía al comparar su comportamiento con el comportamiento de sus vecinos.

A medida que el volumen de datos aumentaba, el tiempo requerido para almacenar y procesarlos aumentaba. Su infraestructura de datos basada en MySQL no estaba dando abasto y muchos datos quedaban sin analizarse. ¿Cómo entregar a los clientes una propuesta de valor en un tiempo corto? La respuesta fue empezar a utilizar Hadoop Apache Hadoop es un software de código abierto que admite el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras y es muy adecuado para ejecutar aplicaciones en forma paralela.  y Datameer, herramientas tecnológicas que le permitieron acceder y analizar los datos tanto a sus científicos de datos como a sus gerentes de productos. Con ese cambio OPower ha reducido drásticamente el tiempo requerido para acceder a datos para el análisis y a empoderado a los gerentes de producto con ideas para ayudar a los clientes a reducir consumo de energía en $500 millones y se ha reducido la producción de CO2 en 7 mil millones de libras.

Caso No. 3 Netflix

¿Quién no se ha visto una película o serie en Netflix? Personalmente, amante de los 100 y 3%, esperando las nuevas temporadas en este momento.  Netflix tiene más de 100 millones de suscriptores en el mundo, ya se imaginarán el gran volumen de datos que capturan, y eso con un solo objetivo: mejorar la experiencia del usuario.

Antes de ser lo que es hoy, Netflix era una compañía que alquilaba y vendía DVD’s vía correo, las suscripciones a Netflix eran económicas y no cobraban multas si el cliente se retrasaba en la entrega. Ese modelo de negocio revolucionó a la industria y llevó a otras empresas, que no se lograron adaptar a los cambios del entorno como Blockbuster, a la quiebra. Los fundadores de Netflix se dieron cuenta de la importancia de los datos y en 2006 lanzaron el premio Netflix, que ofrecía un $ 1 millón de dólares al grupo ofreciera el mejor algoritmo para predecir cómo calificarían sus clientes una película en función de sus calificaciones anteriores. De ahí en adelante el uso de Big Data ayuda a Netflix a decidir qué programas le interesarán al usuario, generar contenido (la serie House Cards se diseñó a partir de resultados de Big Data Analytics), entre otras; es más, el sistema de recomendaciones influye en el 80% del contenido que vemos en Netflix. Los algoritmos detrás del sistema de recomendación ayudan a Netflix a ahorrar $ 1 mil millones de dólares al año a partir de la retención de clientes (InsideBIGDATA,2018)

Comentarios finales

Me gustaría resaltar dos aspectos de los casos presentados. El primero es la importancia de empezar por definir una pregunta de interés para la organización, antes de hacer un inventario de los datos disponibles o aplicar técnicas de analítica para ver qué se podría encontrar. En otras palabras, primero establecer cuál es el norte que quiere alcanzar la organización y cuáles son las preguntas debería estar en capacidad de responder para alcanzar esa meta, después sí salir a buscar los datos y los métodos apropiados.

En segundo lugar, la organización no se las tiene que saber todas. UN buscó a SAS para que este se encargara de capturar, almacenar y procesar los datos. OPower migró a Hadoop y buscó a Datameer para empoderara a los gerentes de productos a analizar los datos. Por último, Netflix abrió un concurso para que un equipo externo desarrollara un algoritmo.

Referencias

  1. (s.f). Top Five High-Impact Use Cases for Big Data Analytics. Disponible en https://www.datameer.com/pdf/eBook-Top-Five-High-Impact-UseCases-for-Big-Data-Analytics.pdf
  2. Global Pulse (2013). Big Data For Development: A Primer. Disponible en http://www.unglobalpulse.org/sites/default/files/Primer%202013_FINAL%20FOR%20PRINT.pdf
  3. InsideBIGDATA (2018, enero 20). How Netflix Uses Big Data to Drive Success. Disponible en https://insidebigdata.com/2018/01/20/netflix-uses-big-data-drive-success/
  4. Objetivos de Desarrollo Sostenible. (s.f). Naciones Unidas. Disponible en https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/