Grandes volúmenes de datos

Científico de Datos

¿Qué es Data Analytics, Big Data o Data Science, y por qué un científico de datos tiene el trabajo más sexy del mundo en el siglo XXI?

Probablemente en los últimos años has oído o leído en algún medio de comunicación el término Ciencia de Datos (Data Science), Analítica de Datos (Data Analytics) o Big Data. Forbes por ejemplo ha publicado que el científico de datos ha sido catalogado como el mejor trabajo en Estados Unidos por tres años seguidos, cuya mediana de salario es 110.000 dólares al año (con una tasa de cambio de $2851 pesos/dólar) eso es alrededor de 313.61 millones de pesos al año o 26 millones de pesos mensuales (Davenport & Patil, 2012).

Si vives en Colombia de pronto has leído que Colombia es el noveno país del mundo con una política de Big Data, después de Estados Unidos (2012); Australia (2013); Reino Unido (2013); Corea del Sur (2013), Japón (2013); Unión Europea (2014), Francia (2014) y China en 2014 (Departamento Nacional de Planeación (DNP), 2017. [note] Algo que notarás en todas nuestras entradas es que constantemente referenciamos nuestros escritos a fuentes oficiales, artículos indexados, libros y medios de comunicación. Espero que te sirvan para complementar la información que buscas, también es para que sepas que no nos sacamos la información que compartimos del sombrero, y que de éstas surjan nuevas inquietudes o sugerencias que puedas compartir con nosotros ?.

O has leído sobre que el Ministerio de Tecnologías de Información y Comunicaciones (MinTIC) de Colombia abrió una convocatoria a principios de 2018 para formar a 200 personas en analítica de datos y TI (MinTIC, 2017).

Ahora si eres como yo (yo hace unos años), todo lo que te acabo de decir carece de sentido para ti. Eso y nada es casi que es lo mismo. Y te entiendo, si escribes en Google: Data Analytics, ¡te aparecen 666,000,000 de resultados!

Bueno el propósito de este blog es intentar responder preguntas como la del título de esta primera entrada y muchas otras que están relacionadas con este tema. Y tal vez te preguntes, ¿por qué abrimos este blog? La respuesta es que nos apasiona este tema y creemos que es importante socializarlo de una forma sencilla y agradable que les permita a otras personas (estudiantes, profesionales, empresarios, jubilados, realmente puede ser cualquier persona puesto que hay datos en todas partes) entusiasmarse por él.

Así que iniciemos una breve conceptualización de varios términos.

Campos de la Ciencia de Datos
Fuente: Dahl Winters (2015)

Ciencia de datos

Primero, qué es la Ciencia de Datos. ¿Es algo 100% nuevo? No. Se asocia con analítica de los negocios, inteligencia de negocios, analítica de datos, entre otros términos (pronto tendremos entradas para estos términos también).

La ciencia de datos se aplica hace mucho tiempo, pero solo recientemente se le acuño ese nombre  En 2008 D.J. Patil y Jeff Hammerarcacher acuñaron el término. En ese momento, el primero lideraba el área de datos y análisis en LinkedIn y el segundo en Facebook. ¿A qué? Bueno Foreman (2014) la define como la ciencia que transformar los datos, mediante matemáticas y estadística, en revelaciones valiosas, decisiones y productos. Yo le agregaría otros mediante· a esa definición tales como: ingeniería de datos, reconocimiento de patrones y aprendizaje avanzado de computación, visualización, modelado de incertidumbre, almacenamiento de datos, y computación de alto rendimiento (HPC). Y cómo se relaciona la analítica de datos con la ciencia de datos, pues ésta es la encargada de extraer esas valiosas intuiciones o revelaciones de los datos, mediante el uso muchas herramientas, sobre las cuales te contaremos más adelante.

¿Y Big Data?

De acuerdo, a las Naciones Unidas en 2012 el Big Data se refiere al volumen masivo de datos, tanto estructurados (ej.: bases de datos) como no estructurados (ej.: redes sociales, tweets, videos), que son demasiado grandes y difíciles de procesar con las bases de datos y el ‘software’ tradicional (UN Global Pulse, 2012). Doug Laney articuló tres palabras claves para definir Big Data: volumen, velocidad y variedad (SAS, s.f.). Lo del volumen masivo es complicado entenderlo en el lenguaje de los ingenieros de sistemas (volumen masivo = muchos terabytes o exabytes de información) pero lo podemos convertir en objetos tangibles que conocemos; por ejemplo, el volumen total de los datos de los 16 ministerios de Colombia (1000 terabytes = Big Data) cabe en 222,000 DVD (DNP, 2016).

El Big Data trae varios retos en términos de almacenamiento, procesamiento, seguridad, entre otros aspectos, y eso se da especialmente porque crece de manera exponencial y es sumamente variado (bases de datos, grabaciones de video o voz, imágenes, redes sociales, entre otras). Se estima que cada minuto se suben 48 horas de video en YouTube, 527 páginas web se crean, 204,166,667 emails son enviados, 3,600 fotos se compartes en Instagram, y 684,478 individuos comparten contenido en Facebook (Simon, 2013).

¿El trabajo máx sexy del mundo?

Para finalizar, de acuerdo a la edición de octubre de 2012 de la revista Harvard Business Review  el científico de datos tenía (y sigue teniendo) el trabajo más sexy del mundo en el siglo XXI porque la demanda por estos profesionales sobrepasa la oferta actual, eso los hace valiosos y por eso en este momento son de los profesionales mejor pagados en el mundo. Por ejemplo, en Estados Unidos se estimaba que para este año (2018) habría un déficit entre 140 y 190 mil profesionales de esta rama (Simon, 2013). Y qué hace este profesional, de acuerdo con la definición de IBM:

“Lo que distingue a los científicos de datos es la perspicacia en los negocios, junto con su capacidad para comunicar los hallazgos encontrados tanto a las personas administrativas como a las de TI, de tal forma que pueden influir cómo una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas de negocios. Escogerán los problemas correctos que tienen más valor para la organización”. (Traducción propia)

Es decir, un científico de datos debe reunir habilidades y conocimiento del negocio (como un administrador de empresas o gerente de la organización), de un ingeniero de sistemas y de un estadístico.

La realidad es que es poco probable que una sola persona sepa a profundidad de las últimas dos áreas, y más difícil aún que tenga conozca sobre varios sectores productivos. Es por eso por lo que hoy en día, los científicos de datos son grupos de individuos de varias disciplinas que forman una sinergia para cumplir con el papel del científico de datos, aplicando la ciencia de datos y ofreciéndole a las organizaciones el valor de los datos mediante la analítica de datos.

Referencias

  1. Davenport, T.H. & Patil D.J.(2012, octubre). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. Recuperado de https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  2. Departamento Nacional de Planeación (2016, marzo). “Colombia entra a las grandes ligas del Big Data”: Simón Gaviria Muñoz. Recuperado de https://www.dnp.gov.co/Paginas/%E2%80%9CColombia-entra-a-las-grandes-ligas-del-Big-Data%E2%80%9D–Sim%C3%B3n-Gaviria-Mu%C3%B1oz-.aspx
  3. Departamento Nacional de Planeación (2017, octubre). Colombia será el noveno país del mundo en tener una política de Big Data: DNP. Recuperado de https://www.dnp.gov.co/Paginas/Colombia-ser%C3%A1-el-noveno-pa%C3%ADs-del-mundo-en-tener-una-pol%C3%ADtica-de-Big-Data-DNP-.aspx
  4. Foreman, J. W. (2014). Data smart: Using data science to transform information into insight. John Wiley & Sons.
  5. Ministerio de Tecnologías de Información y Comunicaciones (2017, diciembre). 200 ciudadanos podrán formarse en analítica de datos y TI con la convocatoria de Científicos de Datos. Recuperado de http://www.mintic.gov.co/portal/604/w3-article-62098.html
  6.  SAS. (s.f.). Big Data: what is it and why it matters. Recuperado de https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
  7. Simon, P. (2013). Too big to ignore: the business case for big data. John Wiley & Sons.
  8. UN Global Pulse (2012). Big Data for Development: Challenges and Opportunities. Recuperado de http://www.unglobalpulse.org/projects/BigDataforDevelopmet
analitica

BIG DATA: No es una tendencia ni una moda tecnológica, es una realidad que vino para quedarse.

Los grandes conjuntos de información o big data (aunque creo que el adjetivo grande ya le está quedando pequeño) están aquí desde hace ya un tiempo y están creciendo a pasos gigantes. Se espera que en 2020 haya 40 zettabytes almacenados digitalmente, esto es alrededor de 6080 millones de años de ponerse a ver videos en HD (NVTC, 2017). Es decir, si suponemos que usted es colombiano entonces debería vivir 78 años

Si usted nació en Colombia en 2016 y es hombre entonces tiene una esperanza de vida al nacer de 75,4 años y si es mujer su esperanza de vida es 81,1 años (Fernández, 2017), entonces para no complicarnos sacamos el promedio.

En promedio, luego usted necesitaría casi 78 millones de vidas para ver todos esos videos. En esta entrada voy a contarles de cómo se mide el Big Data y por qué está creciendo de manera exponencial.

Infografía de Big Data de IBM
Fuente: IBM (s.f.)

Volumen

Empecemos entonces por la medición del volumen. Para eso hay que hablar de bytes. ¿Qué es un byte? Un byte es una unidad de medida para almacenaje y procesamiento de información. Un byte es lo que se requiere para almacenar una letra. Yo creo que usted está familiarizado con algunas medidas de volumen que le siguen al byte; por ejemplo, un Kilobyte (KB) son 1024 bytes, imagínese que una hoja escrita en Word es equivalente más o menos a 30 KB. Después viene el Megabyte (1 MB son 1024 KB), y eso es un libro de texto. Le sigue un GB que son 1024 MB, eso es en lo típico en lo que nos fijamos cuando vamos a comprar una memoria USB o un celular.

Uno más reciente es el Terabyte (1 TB son 1024 GB), y ese volumen es lo que ahora ofrecen la mayoría de los computadores portátiles hoy en día. Mi portátil tiene una TB de almacenamiento y aunque guardo y guardo información parece que eso nunca se va a acabar.  Después siguen los Petabytes (1PB son 1024 TB), los Exabytes (1 EB son 1024 TB), los Zettabytes (1 ZB 1024 EB), los Yottabytes (1 YB son 1024 ZB), los Brontobyte (1 BB son 1024 YB) y los Geopbyte (1 GB son 1024 BB).

Veamos algunos ejemplos de esas unidades de medidas. En 2008, Google procesaba 20 Pentabytes de información cada día (Dontha, 2017).  Un Exabyte es equivalente a 250 millones de DVD’s, si comparamos todas las películas que se han creado en toda la historia del cine (500.000 películas aproximadamente), entonces qué haríamos con los 249.5 millones de DVD’s restantes, suponiendo que tenemos acceso a todas las películas y DVD’s que queramos (Säisä, 2013). Entonces, ¿en términos de volumen a qué nos referimos cuando hablamos de Big Data? Cuando hablamos de docenas de Terabytes y de ahí en adelante podemos decir que ya estamos hablando de Big Data.

Variedad

Y, ¿por qué crece tan rápido? Por un lado, los desarrollos tecnológicos han generado una gran variedad de datos; por otro lado, cada vez más personas en el mundo tienen acceso a ellos. Imagínese que en 1998 (hace 20 años) las búsquedas que se hacían en el Google por día eran de 9800 en promedio y en 2012, fueron 5134 millones en promedio (SAP es una multinacional alemana que se dedica a diseñar software para todo tipo de organizaciones, 2014). En otras palabras, ¡Aproximadamente 524000 veces más búsquedas en 2012 que en 1998, y eso sólo ocurrió en 14 años!

¿Qué tipo de desarrollos tecnológicos? Por ejemplo, el celular, el internet o el ipod. Si usted es un centennial (nació en 1995 o después) probablemente no tenga idea que es un beeper o un fax, tenga un celular y casi todos los que conoce también tienen uno. De hecho, se estima que en el mundo hay 6 .8 de billones de líneas de celulares, y si somos más o menos 7.6 billones de personas, entonces tenemos que de cada 100 personas hay 78 que tienen celular.

¿Qué almacenamos en el celular? Todo tipo de datos: imágenes, videos, sonidos (música), mensajes de texto, y si además tenemos datos o acceso a wifi, podemos ver videos en Youtube, agregar contenido a Facebook o enviar Tweets [note] No es que antes de estos desarrollos no tuviéramos fotografías, o videos, o “mensajes de texto”, solo que los almacenamos, interactuamos y las compartíamos de una forma diferente. Por ejemplo, las fotos las tomamos con una cámara fotografía, quedaban almacenadas en un rollo que teníamos que revelar y las guardábamos físicamente en un álbum.[/note].  Resulta que 30 billones de piezas de contenido se comparten mensualmente en Facebook, 400 millones de Tweets se mandan todos los días, o 4 billones de horas de video se ven en YouTube cada mes (IBM, s.f), yo no sé ustedes, pero a mí esas cifras no me caben en la cabeza.

Velocidad

Hay otra característica que es importante: la velocidad. Es decir que tanto tiempo se necesita para almacenar y analizar la información De nuevo los desarrollos tecnologías nos permiten tener más información en tiempo real. De hecho, existen alrededor de 2.5 conexiones de red por cada persona en la tierra (IBM, s.f.).  Un ejemplo de la velocidad está a unos cuantos pasos de usted si posee un carro moderno, estos tienen alrededor de 100 sensores y eso significa que en tiempo real usted puede saber con exactitud el nivel de gasolina, la presión de sus llantas, entre muchas cosas, y toda esa información la almacenan y procesan en milésimas de segundo.

Si notaron, subrayé tres palabras: variedad, volumen y velocidad. Esas son las 3 V básicas que caracterizan al Big Data. Sobre las otras características (valor y veracidad) y las oportunidades y retos que ha traído el Big Data les hablaré en la próxima entrada.

Referencias

  1. Dontha, R. (2017, 13 enero). Who came up with the name Big Data? Disponible en https://www.datasciencecentral.com/profiles/blogs/who-came-up-with-the-name-big-data
  2. Fernández, C.F (2017, 14 septiembre). Los hombres colombianos vivirán 75,4 años y las mujeres 81,1 años. El Tiempo. Disponible en: http://www.eltiempo.com/vida/salud/esperanza-de-vida-en-los-hombres-y-mujeres-de-colombia-130840
  3. IBM (s.f). The Four V’s of Big Data. Disponible en: http://www.ibmbigdatahub.com/infographic/four-vs-big-data
  4. NTCV – Northern Virginia Tecnology Council (2017). Data Analytics. Disponible en: http://blog.nvtc.org/index.php/nvtc-publishes-2017-data-analytics-infographic/
  5. Säisä, L. (2013, 9 agosto). Big Data and privacy aspects. Disponible en: http://saisa.eu/blogs/Guidance/?p=1274
  6. SAP (2013). Big Data is affecting people everywhere. Disponible en: https://visual.ly/community/infographic/technology/big-data-affecting-people-everywhere
Big data

BIG DATA: Veracidad, valor y retos

En la entrada pasada les conté que el Big Data se caracteriza por: Velocidad, Variedad y Volumen. Ahora hay otras dos V que se tienden a utilizar: Veracidad y Valor. Hoy les contaré sobre el significado de ellas y cuáles son algunos de los retos que enfrentan las organizaciones con el Big Data.

Veracidad

¿De dónde salió esta V? De IBM. ¿Y qué quiere decir? Según la RAE, veracidad significa que tiene la propiedad de ser veraz, es decir “Que dice, usa o profesa siempre la verdad”. La verdad se puede explorar desde varias ópticas: objetivo/subjetivo, verdadero/engaño, creíble/implausible (Lukoianova & Rubin, 2014). ¿Por qué esta propiedad podría ser importante? Bueno porque muchos datos son generados por los seres humanos directamente o indirectamente. Seamos sinceros, los seremos humanos a veces expresamos en las redes sociales una cosa y terminamos haciendo lo contrario; ejemplos de ello lo encuentra en el Plesbicito por la Paz o el Brexit (directo). O hay avances tecnológicos que son creados con el fin mismo de crear desinformación (dar click aquí para leer el artículo “La información falsa llega más lejos, más rápido y a más gente que la verdadera”) (indirecto).  ¿Entonces cómo sabemos si los datos que capturamos son o no veraces? No hay una fórmula mágica para clasificar un dato como confiable o no, mi recomendación es que no pierda su sentido común y pensamiento crítico cuando vea los resultados de los análisis de los datos. Y eso aplica tanto si es Big Data como no.

Valor

Entre más datos tienes, más valor tiene tu compañía. Por ejemplo, en el top 10 de las empresas más valiosas en el mundo (Fortune 500 2016) se encontraban: Walmart, Apple, Amazon, Alphabet (Google), Microsoft y Facebook (Marr, 2017). Cada una en un sector de la economía diferente, con un modelo de negocio distinto, sin embargo, tienen un elemento en común: su habilidad para recolectar datos y aprovecharlos para generar ventajas competitivas.

¿Cómo monetizar los datos? Los datos incrementan el valor de mercado de la compañía o a través de la generación de capacidades para crear un valor extra con los datos que puedan vendérselo a tus clientes o a terceros. Ya vimos un ejemplo del primer caso. Veamos un ejemplo del segundo. ¿Tienes una tarjeta de crédito? Si es así, ya sea Visa, Mastercard o American Express, entonces es cierto lo que estás pensando ellos ganan por todos lados. Por un lado, por el cobro que te realizan por el servicio que prestan. Pero resulta que ese servicio que usted utiliza le da información de sus hábitos de compra: dónde, qué, cuánto, cada cuánto, a cuántas cuotas, etc. Eso es información valiosa para muchas otras empresas. Por ejemplo, los retailers pueden estar dispuestos a comprar esa información porque les es útil para segmentar a los clientes o para identificar tendencias de compra de ciertos nichos de mercado (Marr, 2017).

5Vs y muchos retos

¿Qué retos enfrentan las organizaciones? Muchos. Todo depende del sector en que se encuentre su organización, el tamaño de ésta, de los objetivos estratégicos de largo plazo que se hayan, es decir los retos de una organización son específicos a las características de la empresa y a su entorno. Lo que sí puedo es darle algunas preguntas que se debería responder si va a empezar a acumular muchos datos o si ya está lleno de datos, cada vez creciendo más y no tiene ni idea de qué hacer con ellos.

Empecemos con la V de Volumen. ¿Cuál es la información que es valiosa para tu negocio? A menos que seas Google, Facebook o Amazon, no puedes darte el lujo de almacenar todos los datos que generas porque resulta muy costoso, Después, puedes responder ¿Dónde vas a almacenar los datos y quién se va a encargar de hacer eso? Si no tienes la capacidad propia de almacenaje, hay muchos servidores en la nube donde puedes guardar tu información como los que provee Amazon, Google, Microsoft, Atlantic.net, entre otros. También tienes que pensar en cuál es la infraestructura tecnológica que necesitas para procesar esos datos y evaluar si tu recurso humano tiene las capacidades técnicas para manipular esa información.

La V de Velocidad: procesamiento de la información en tiempo real. Probablemente, en Colombia estemos un poco lejos de esta característica, al menos en la mayoría de las empresas, pero para las que sí lo están, mi recomendación es analice qué es lo realmente importante y procese eso. De nuevo hay que analizar los costos y beneficios, y no perder de vista la visión estratégica que queremos alcanzar.

Por último, la V de Variedad. Los datos provienen de tantas fuentes diferentes y terminan almacenados en diferentes computadores. Aquí podrías responderte: ¿Qué tipo de datos colectas? ¿Qué tipo de procesamiento necesitan? ¿Para qué me podrían servir? Y ¿Cómo los puedo integrar? Mejor dicho, haz el inventario de los datos a los que tienes acceso, dónde están y quién tiene acceso a ellos. Puedes tener infinita cantidad de datos, pero si no conoces qué tienes y cómo se pueden integrar, de poco te sirven para tomar decisiones y mejorar la eficiencia operacional de tu compañía.

Después de que captures y almacenes los datos tendrás otros retos: ¿cómo visualizarlos?, ¿cómo reducir la dimensionalidad?, ¿cómo manejar la dispersión y regularizar los datos? Como ya te mencionamos las respuestas particulares a estas preguntas son dependientes de tu organización y características. Nosotros te contaremos los últimos avances tecnológicos que  existen en el mercado para resolver retos y aprovechar oportunidades, te daremos en qué pensar, y especialmente queremos que entiendas los conceptos para que puedas hablar un mismo lenguaje con los ingenieros de sistemas y comunicar la importancia de los datos a tus proveedores y clientes (internos y externos).

Referencias

  1. Lukoianova, T., & Rubin, V. L. (2014). Veracity roadmap: Is big data objective, truthful and credible?.
  2. Marr, B. (2017). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page Publishers.
Tres casos de Big Data

Tres casos de éxito de aplicar BIG DATA

Es Volumen, es Variedad, es Velocidad, es Veracidad y sobre todo es VALOR cuando aplicamos analítica al BIG DATA (Big Data Analytics). Ya hablamos de sus características y de sus retos, hoy es el día para presentarles algunos casos de éxito, y mostrarles para qué le puede servir a una organización aplicar Big Data Analytics.

Caso No. 1 Global Pulse

Generalmente asociado el tema de Big Data al sector empresarial pero este no es exclusivo de ese sector. Organizaciones gubernamentales, o intergubernamental como es el caso de las Naciones Unidas, buscan aprovechar el big data, la inteligencia artificial y otras tecnologías emergentes para cumplir con los objetivos que se han propuesto. Por ese motivo, las Naciones Unidas (UN)  Esta organización nació después del fin de la Segunda Guerra Mundial, el 24 de octubre de 1945 y hoy tiene 193 Estados miembros, dentro de sus objetivos promover la paz, proteger los derechos humanos, establecer el marco de la justicia internacional y promover el progreso económico y social. crearon la iniciativa Global Pulse, con la que esperan apoyarse en las nuevas herramientas tecnológicas para ayudar a distribuir ayuda humanitaria, y promover el desarrollo sostenible.

UN no está sola, en cada uno de los proyectos, Global Pulse se une con otras empresas que poseen las capacidades analíticas para manipular grandes volúmenes de información. Por ejemplo, para Irlanda, el grupo de Global Pulse se unió a SAS para responder a la pregunta de ¿si pueden las redes sociales profundizar el desempleo?

Para eso capturaron información digital (redes sociales, blogs, foros, noticias que estuvieran relacionados con el desempleo), después realizaron un análisis exploratorio, y por último realizaron un análisis de sentimientos (sentiment analysis) [note] Análisis de sentimientos, también llamado minería de opinión , es el campo de estudio que analiza las opiniones, sentimientos, evaluaciones, valoraciones, actitudes de las personas, y emociones hacia entidades tales como productos, servicios, organizaciones, individuos, problemas, eventos, temas y sus atributos. y etiquetaron cada conversación. Por último, realizaron una correlación entre el estado de ánimo de la conversación y las estadísticas oficiales de desempleo. Descubrieron que mayores conversaciones en las redes sociales sobre temas relacionados con confusión y ansiedad ocasionada por el trabajo es un buen indicador que alerta un pico de desempleo en Irlanda y este indicador funciona con tres meses de anticipación.

Caso No. 2 OPower

Big Data y computación en la nube generalmente van de la mano. Ese es el caso de la compañía OPower, subsidiaria de Oracle Corporation, que funciona como una plataforma que asiste a empresas de servicios públicos a reducir el consumo de energía y a mejorar las relaciones que tienen con sus clientes. Empleando datos de termostatos y otros dispositivos de Pacific Gas and Electric, OPower captura alrededor de 7 millones de datos cada día y con eso genera reportes que se adjuntan a la factura de servicios públicos como una forma de incentivar al cliente a racionar su consumo de energía al comparar su comportamiento con el comportamiento de sus vecinos.

A medida que el volumen de datos aumentaba, el tiempo requerido para almacenar y procesarlos aumentaba. Su infraestructura de datos basada en MySQL no estaba dando abasto y muchos datos quedaban sin analizarse. ¿Cómo entregar a los clientes una propuesta de valor en un tiempo corto? La respuesta fue empezar a utilizar Hadoop Apache Hadoop es un software de código abierto que admite el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras y es muy adecuado para ejecutar aplicaciones en forma paralela.  y Datameer, herramientas tecnológicas que le permitieron acceder y analizar los datos tanto a sus científicos de datos como a sus gerentes de productos. Con ese cambio OPower ha reducido drásticamente el tiempo requerido para acceder a datos para el análisis y a empoderado a los gerentes de producto con ideas para ayudar a los clientes a reducir consumo de energía en $500 millones y se ha reducido la producción de CO2 en 7 mil millones de libras.

Caso No. 3 Netflix

¿Quién no se ha visto una película o serie en Netflix? Personalmente, amante de los 100 y 3%, esperando las nuevas temporadas en este momento.  Netflix tiene más de 100 millones de suscriptores en el mundo, ya se imaginarán el gran volumen de datos que capturan, y eso con un solo objetivo: mejorar la experiencia del usuario.

Antes de ser lo que es hoy, Netflix era una compañía que alquilaba y vendía DVD’s vía correo, las suscripciones a Netflix eran económicas y no cobraban multas si el cliente se retrasaba en la entrega. Ese modelo de negocio revolucionó a la industria y llevó a otras empresas, que no se lograron adaptar a los cambios del entorno como Blockbuster, a la quiebra. Los fundadores de Netflix se dieron cuenta de la importancia de los datos y en 2006 lanzaron el premio Netflix, que ofrecía un $ 1 millón de dólares al grupo ofreciera el mejor algoritmo para predecir cómo calificarían sus clientes una película en función de sus calificaciones anteriores. De ahí en adelante el uso de Big Data ayuda a Netflix a decidir qué programas le interesarán al usuario, generar contenido (la serie House Cards se diseñó a partir de resultados de Big Data Analytics), entre otras; es más, el sistema de recomendaciones influye en el 80% del contenido que vemos en Netflix. Los algoritmos detrás del sistema de recomendación ayudan a Netflix a ahorrar $ 1 mil millones de dólares al año a partir de la retención de clientes (InsideBIGDATA,2018)

Comentarios finales

Me gustaría resaltar dos aspectos de los casos presentados. El primero es la importancia de empezar por definir una pregunta de interés para la organización, antes de hacer un inventario de los datos disponibles o aplicar técnicas de analítica para ver qué se podría encontrar. En otras palabras, primero establecer cuál es el norte que quiere alcanzar la organización y cuáles son las preguntas debería estar en capacidad de responder para alcanzar esa meta, después sí salir a buscar los datos y los métodos apropiados.

En segundo lugar, la organización no se las tiene que saber todas. UN buscó a SAS para que este se encargara de capturar, almacenar y procesar los datos. OPower migró a Hadoop y buscó a Datameer para empoderara a los gerentes de productos a analizar los datos. Por último, Netflix abrió un concurso para que un equipo externo desarrollara un algoritmo.

Referencias

  1. (s.f). Top Five High-Impact Use Cases for Big Data Analytics. Disponible en https://www.datameer.com/pdf/eBook-Top-Five-High-Impact-UseCases-for-Big-Data-Analytics.pdf
  2. Global Pulse (2013). Big Data For Development: A Primer. Disponible en http://www.unglobalpulse.org/sites/default/files/Primer%202013_FINAL%20FOR%20PRINT.pdf
  3. InsideBIGDATA (2018, enero 20). How Netflix Uses Big Data to Drive Success. Disponible en https://insidebigdata.com/2018/01/20/netflix-uses-big-data-drive-success/
  4. Objetivos de Desarrollo Sostenible. (s.f). Naciones Unidas. Disponible en https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/