¿Qué es Data Analytics, Big Data o Data Science, y por qué un científico de datos tiene el trabajo más sexy del mundo en el siglo XXI?
Probablemente en los últimos años has oído o leído en algún medio de comunicación el término Ciencia de Datos (Data Science), Analítica de Datos (Data Analytics) o Big Data. Forbes por ejemplo ha publicado que el científico de datos ha sido catalogado como el mejor trabajo en Estados Unidos por tres años seguidos, cuya mediana de salario es 110.000 dólares al año (con una tasa de cambio de $2851 pesos/dólar) eso es alrededor de 313.61 millones de pesos al año o 26 millones de pesos mensuales (Davenport & Patil, 2012).
Si vives en Colombia de pronto has leído que Colombia es el noveno país del mundo con una política de Big Data, después de Estados Unidos (2012); Australia (2013); Reino Unido (2013); Corea del Sur (2013), Japón (2013); Unión Europea (2014), Francia (2014) y China en 2014 (Departamento Nacional de Planeación (DNP), 2017. [note] Algo que notarás en todas nuestras entradas es que constantemente referenciamos nuestros escritos a fuentes oficiales, artículos indexados, libros y medios de comunicación. Espero que te sirvan para complementar la información que buscas, también es para que sepas que no nos sacamos la información que compartimos del sombrero, y que de éstas surjan nuevas inquietudes o sugerencias que puedas compartir con nosotros ?.
O has leído sobre que el Ministerio de Tecnologías de Información y Comunicaciones (MinTIC) de Colombia abrió una convocatoria a principios de 2018 para formar a 200 personas en analítica de datos y TI (MinTIC, 2017).
Ahora si eres como yo (yo hace unos años), todo lo que te acabo de decir carece de sentido para ti. Eso y nada es casi que es lo mismo. Y te entiendo, si escribes en Google: Data Analytics, ¡te aparecen 666,000,000 de resultados!
Bueno el propósito de este blog es intentar responder preguntas como la del título de esta primera entrada y muchas otras que están relacionadas con este tema. Y tal vez te preguntes, ¿por qué abrimos este blog? La respuesta es que nos apasiona este tema y creemos que es importante socializarlo de una forma sencilla y agradable que les permita a otras personas (estudiantes, profesionales, empresarios, jubilados, realmente puede ser cualquier persona puesto que hay datos en todas partes) entusiasmarse por él.
Así que iniciemos una breve conceptualización de varios términos.
Campos de la Ciencia de Datos
Fuente: Dahl Winters (2015)
Ciencia de datos
Primero, qué es la Ciencia de Datos. ¿Es algo 100% nuevo? No. Se asocia con analítica de los negocios, inteligencia de negocios, analítica de datos, entre otros términos (pronto tendremos entradas para estos términos también).
La ciencia de datos se aplica hace mucho tiempo, pero solo recientemente se le acuño ese nombre En 2008 D.J. Patil y Jeff Hammerarcacher acuñaron el término. En ese momento, el primero lideraba el área de datos y análisis en LinkedIn y el segundo en Facebook. ¿A qué? Bueno Foreman (2014) la define como la ciencia que transformar los datos, mediante matemáticas y estadística, en revelaciones valiosas, decisiones y productos. Yo le agregaría otros mediante· a esa definición tales como: ingeniería de datos, reconocimiento de patrones y aprendizaje avanzado de computación, visualización, modelado de incertidumbre, almacenamiento de datos, y computación de alto rendimiento (HPC). Y cómo se relaciona la analítica de datos con la ciencia de datos, pues ésta es la encargada de extraer esas valiosas intuiciones o revelaciones de los datos, mediante el uso muchas herramientas, sobre las cuales te contaremos más adelante.
¿Y Big Data?
De acuerdo, a las Naciones Unidas en 2012 el Big Data se refiere al volumen masivo de datos, tanto estructurados (ej.: bases de datos) como no estructurados (ej.: redes sociales, tweets, videos), que son demasiado grandes y difíciles de procesar con las bases de datos y el ‘software’ tradicional (UN Global Pulse, 2012). Doug Laney articuló tres palabras claves para definir Big Data: volumen, velocidad y variedad (SAS, s.f.). Lo del volumen masivo es complicado entenderlo en el lenguaje de los ingenieros de sistemas (volumen masivo = muchos terabytes o exabytes de información) pero lo podemos convertir en objetos tangibles que conocemos; por ejemplo, el volumen total de los datos de los 16 ministerios de Colombia (1000 terabytes = Big Data) cabe en 222,000 DVD (DNP, 2016).
El Big Data trae varios retos en términos de almacenamiento, procesamiento, seguridad, entre otros aspectos, y eso se da especialmente porque crece de manera exponencial y es sumamente variado (bases de datos, grabaciones de video o voz, imágenes, redes sociales, entre otras). Se estima que cada minuto se suben 48 horas de video en YouTube, 527 páginas web se crean, 204,166,667 emails son enviados, 3,600 fotos se compartes en Instagram, y 684,478 individuos comparten contenido en Facebook (Simon, 2013).
¿El trabajo máx sexy del mundo?
Para finalizar, de acuerdo a la edición de octubre de 2012 de la revista Harvard Business Review el científico de datos tenía (y sigue teniendo) el trabajo más sexy del mundo en el siglo XXI porque la demanda por estos profesionales sobrepasa la oferta actual, eso los hace valiosos y por eso en este momento son de los profesionales mejor pagados en el mundo. Por ejemplo, en Estados Unidos se estimaba que para este año (2018) habría un déficit entre 140 y 190 mil profesionales de esta rama (Simon, 2013). Y qué hace este profesional, de acuerdo con la definición de IBM:
“Lo que distingue a los científicos de datos es la perspicacia en los negocios, junto con su capacidad para comunicar los hallazgos encontrados tanto a las personas administrativas como a las de TI, de tal forma que pueden influir cómo una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas de negocios. Escogerán los problemas correctos que tienen más valor para la organización”. (Traducción propia)
Es decir, un científico de datos debe reunir habilidades y conocimiento del negocio (como un administrador de empresas o gerente de la organización), de un ingeniero de sistemas y de un estadístico.
La realidad es que es poco probable que una sola persona sepa a profundidad de las últimas dos áreas, y más difícil aún que tenga conozca sobre varios sectores productivos. Es por eso por lo que hoy en día, los científicos de datos son grupos de individuos de varias disciplinas que forman una sinergia para cumplir con el papel del científico de datos, aplicando la ciencia de datos y ofreciéndole a las organizaciones el valor de los datos mediante la analítica de datos.
Referencias
- Davenport, T.H. & Patil D.J.(2012, octubre). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. Recuperado de https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
- Departamento Nacional de Planeación (2016, marzo). “Colombia entra a las grandes ligas del Big Data”: Simón Gaviria Muñoz. Recuperado de https://www.dnp.gov.co/Paginas/%E2%80%9CColombia-entra-a-las-grandes-ligas-del-Big-Data%E2%80%9D–Sim%C3%B3n-Gaviria-Mu%C3%B1oz-.aspx
- Departamento Nacional de Planeación (2017, octubre). Colombia será el noveno país del mundo en tener una política de Big Data: DNP. Recuperado de https://www.dnp.gov.co/Paginas/Colombia-ser%C3%A1-el-noveno-pa%C3%ADs-del-mundo-en-tener-una-pol%C3%ADtica-de-Big-Data-DNP-.aspx
- Foreman, J. W. (2014). Data smart: Using data science to transform information into insight. John Wiley & Sons.
- Ministerio de Tecnologías de Información y Comunicaciones (2017, diciembre). 200 ciudadanos podrán formarse en analítica de datos y TI con la convocatoria de Científicos de Datos. Recuperado de http://www.mintic.gov.co/portal/604/w3-article-62098.html
- SAS. (s.f.). Big Data: what is it and why it matters. Recuperado de https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
- Simon, P. (2013). Too big to ignore: the business case for big data. John Wiley & Sons.
- UN Global Pulse (2012). Big Data for Development: Challenges and Opportunities. Recuperado de http://www.unglobalpulse.org/projects/BigDataforDevelopmet