BIG DATA: No es una tendencia ni una moda tecnológica, es una realidad que vino para quedarse.

analitica

Los grandes conjuntos de información o big data (aunque creo que el adjetivo grande ya le está quedando pequeño) están aquí desde hace ya un tiempo y están creciendo a pasos gigantes. Se espera que en 2020 haya 40 zettabytes almacenados digitalmente, esto es alrededor de 6080 millones de años de ponerse a ver videos en HD (NVTC, 2017). Es decir, si suponemos que usted es colombiano entonces debería vivir 78 años

Si usted nació en Colombia en 2016 y es hombre entonces tiene una esperanza de vida al nacer de 75,4 años y si es mujer su esperanza de vida es 81,1 años (Fernández, 2017), entonces para no complicarnos sacamos el promedio.

En promedio, luego usted necesitaría casi 78 millones de vidas para ver todos esos videos. En esta entrada voy a contarles de cómo se mide el Big Data y por qué está creciendo de manera exponencial.

Infografía de Big Data de IBM
Fuente: IBM (s.f.)

Volumen

Empecemos entonces por la medición del volumen. Para eso hay que hablar de bytes. ¿Qué es un byte? Un byte es una unidad de medida para almacenaje y procesamiento de información. Un byte es lo que se requiere para almacenar una letra. Yo creo que usted está familiarizado con algunas medidas de volumen que le siguen al byte; por ejemplo, un Kilobyte (KB) son 1024 bytes, imagínese que una hoja escrita en Word es equivalente más o menos a 30 KB. Después viene el Megabyte (1 MB son 1024 KB), y eso es un libro de texto. Le sigue un GB que son 1024 MB, eso es en lo típico en lo que nos fijamos cuando vamos a comprar una memoria USB o un celular.

Uno más reciente es el Terabyte (1 TB son 1024 GB), y ese volumen es lo que ahora ofrecen la mayoría de los computadores portátiles hoy en día. Mi portátil tiene una TB de almacenamiento y aunque guardo y guardo información parece que eso nunca se va a acabar.  Después siguen los Petabytes (1PB son 1024 TB), los Exabytes (1 EB son 1024 TB), los Zettabytes (1 ZB 1024 EB), los Yottabytes (1 YB son 1024 ZB), los Brontobyte (1 BB son 1024 YB) y los Geopbyte (1 GB son 1024 BB).

Veamos algunos ejemplos de esas unidades de medidas. En 2008, Google procesaba 20 Pentabytes de información cada día (Dontha, 2017).  Un Exabyte es equivalente a 250 millones de DVD’s, si comparamos todas las películas que se han creado en toda la historia del cine (500.000 películas aproximadamente), entonces qué haríamos con los 249.5 millones de DVD’s restantes, suponiendo que tenemos acceso a todas las películas y DVD’s que queramos (Säisä, 2013). Entonces, ¿en términos de volumen a qué nos referimos cuando hablamos de Big Data? Cuando hablamos de docenas de Terabytes y de ahí en adelante podemos decir que ya estamos hablando de Big Data.

Variedad

Y, ¿por qué crece tan rápido? Por un lado, los desarrollos tecnológicos han generado una gran variedad de datos; por otro lado, cada vez más personas en el mundo tienen acceso a ellos. Imagínese que en 1998 (hace 20 años) las búsquedas que se hacían en el Google por día eran de 9800 en promedio y en 2012, fueron 5134 millones en promedio (SAP es una multinacional alemana que se dedica a diseñar software para todo tipo de organizaciones, 2014). En otras palabras, ¡Aproximadamente 524000 veces más búsquedas en 2012 que en 1998, y eso sólo ocurrió en 14 años!

¿Qué tipo de desarrollos tecnológicos? Por ejemplo, el celular, el internet o el ipod. Si usted es un centennial (nació en 1995 o después) probablemente no tenga idea que es un beeper o un fax, tenga un celular y casi todos los que conoce también tienen uno. De hecho, se estima que en el mundo hay 6 .8 de billones de líneas de celulares, y si somos más o menos 7.6 billones de personas, entonces tenemos que de cada 100 personas hay 78 que tienen celular.

¿Qué almacenamos en el celular? Todo tipo de datos: imágenes, videos, sonidos (música), mensajes de texto, y si además tenemos datos o acceso a wifi, podemos ver videos en Youtube, agregar contenido a Facebook o enviar Tweets [note] No es que antes de estos desarrollos no tuviéramos fotografías, o videos, o “mensajes de texto”, solo que los almacenamos, interactuamos y las compartíamos de una forma diferente. Por ejemplo, las fotos las tomamos con una cámara fotografía, quedaban almacenadas en un rollo que teníamos que revelar y las guardábamos físicamente en un álbum.[/note].  Resulta que 30 billones de piezas de contenido se comparten mensualmente en Facebook, 400 millones de Tweets se mandan todos los días, o 4 billones de horas de video se ven en YouTube cada mes (IBM, s.f), yo no sé ustedes, pero a mí esas cifras no me caben en la cabeza.

Velocidad

Hay otra característica que es importante: la velocidad. Es decir que tanto tiempo se necesita para almacenar y analizar la información De nuevo los desarrollos tecnologías nos permiten tener más información en tiempo real. De hecho, existen alrededor de 2.5 conexiones de red por cada persona en la tierra (IBM, s.f.).  Un ejemplo de la velocidad está a unos cuantos pasos de usted si posee un carro moderno, estos tienen alrededor de 100 sensores y eso significa que en tiempo real usted puede saber con exactitud el nivel de gasolina, la presión de sus llantas, entre muchas cosas, y toda esa información la almacenan y procesan en milésimas de segundo.

Si notaron, subrayé tres palabras: variedad, volumen y velocidad. Esas son las 3 V básicas que caracterizan al Big Data. Sobre las otras características (valor y veracidad) y las oportunidades y retos que ha traído el Big Data les hablaré en la próxima entrada.

Referencias

  1. Dontha, R. (2017, 13 enero). Who came up with the name Big Data? Disponible en https://www.datasciencecentral.com/profiles/blogs/who-came-up-with-the-name-big-data
  2. Fernández, C.F (2017, 14 septiembre). Los hombres colombianos vivirán 75,4 años y las mujeres 81,1 años. El Tiempo. Disponible en: http://www.eltiempo.com/vida/salud/esperanza-de-vida-en-los-hombres-y-mujeres-de-colombia-130840
  3. IBM (s.f). The Four V’s of Big Data. Disponible en: http://www.ibmbigdatahub.com/infographic/four-vs-big-data
  4. NTCV – Northern Virginia Tecnology Council (2017). Data Analytics. Disponible en: http://blog.nvtc.org/index.php/nvtc-publishes-2017-data-analytics-infographic/
  5. Säisä, L. (2013, 9 agosto). Big Data and privacy aspects. Disponible en: http://saisa.eu/blogs/Guidance/?p=1274
  6. SAP (2013). Big Data is affecting people everywhere. Disponible en: https://visual.ly/community/infographic/technology/big-data-affecting-people-everywhere