Data Science - Entendiendo lo que es y su impacto

Data Science - Entendiendo lo que es y su impacto

La ciencia de los datos, un termino que para muchos proviene de una de las grandes mentes de la ciencia ficción, como por ejemplo Ray Bradbury, mientras que para otros, es un área de tal relevancia en nuestra sociedad, que el cargo de "científico de los datos", es catalogado como el "trabajo más sexy del siglo 21". Al preguntarle a la asistente virtual de Amazon, Alexa, por una definición sobre que es la ciencia de los datos, "ella" nos dice lo siguiente:

Data Science es usualmente definida como un campo multidisciplinario de métodos científicos, procesos y sistemas con el fin de extraer conocimiento o visión de los datos.

En esta columna, el foco es poder ayudar a entender como este campo multidisciplinario de extracción de conocimiento de los datos, ha llevado a tener tal relevancia en nuestra sociedad, la cual puede ser usada para el bien o también para fines con alta connotación mediática (como el caso de Cambridge Analytica y Facebook) y otros.

Los temas a tratar son:

  • Los datos y algunos números
  • Como se guardan los datos
  • La diferencia entre los datos y la información
  • La ciencia de los datos
  • El perfil profesional requerido
  • El nuevo petróleo

Los datos y algunos números

Los datos, en ciencias de la computación, son definidos "como cualquier tipo de secuencias de uno o más simbolos dados que pueden ser especificamente interpretados" (wikipedia). Por tanto bajo esta definición, un dato puede ser parte o el todo de: tu clave de correo, una imágen en alguna red social, el valor de la temperatura del motor de automóvil, etc.

Una imágen de ejemplos de los datos:

Fuente: wikmedia

La unidad básica actual, que mide el tamaño del mundo de los datos digitales es el bit (estoy dejando de lado a propósito el cúbit). Con está, se forma la unidad aceptada en el mundo digital: El Byte (el gramo para medir la masa de este mundo).

De acuerdo a la empresa DOMO (empresa tecnológica, dedicada al mundo de la inteligencia de negocios), en el año 2017, en cada minuto de los día se generó la siguiente cantidad de datos:

Citando a DOMO en su infografía: "El 90% por cientos de los datos actuales, fueron generados en los dos últimos años ( 2,5 EXABYTES o 2,5 trillones de bytes o 2,5 x 10 a la 18 bytes de datos por día)". Basicamente esto quiere decir que en los últimos dos años "en el mundo digital" se generó casí la totalidad de los "oceanos de los datos". Los datos son generados por los negocios, gobiernos, las personas hasta incluso las máquinas.

Siendo nuestra sociedad actual dependiente del mundo digital, la generación de los datos y su uso, solo va hacia una solo dirección: al alza y rápidamente sostenida. Uno de los elementos que dan base a este crecimiento explosivo, es el del Internet de las Cosas o IoT (dispositivos y maquinas que se comunican entre sí y que generan datos que se transmiten de forma automática).

En el siguiente diagrama se muestra la evolución del internet, los usuarios y del IoT:

Fuente: ClicTest

Es por eso que éstos "océanos digitales" solo aumentarán de manera más acelerada, producto de las múltiples formas actuales y futuras de generación de los datos.

Como se guardan los datos

Los datos en el mundo de la computación, son guardados al día de hoy, principalmente de cuatro formas:

  • Estructurada
  • No estructurada
  • Semi-estructurada
  • y mediante los bloques de datos

El siguiente diagrama da una idea de lo que me refiero con estructurado y de lo que no:

Fuente: BigData.black

La forma estructurada para almacenar los datos, es la que uno puede asociar como lo hace una biblioteca con los libros, memorias, fichas y otros, manteniendo un registro de que lo que es que, y que relaciones existen entre si. Usualmente usadas en las empresas y organizaciones, sí son bien construidas y mantenidas, son de fácil acceso para encontrar y hacer uso de los datos.

Los datos no estructurados, son registros que no tienen una estructura identificable. Esta forma representa cerca del 80% de los datos y aquí encontramos textos, imágenes, audio, video, publicaciones en medios sociales etc.

Fuente: SlideGeeks.com

Los datos semi-estructurados, es un mix entre los datos estructurados y los no estructurados, no se encuentran guardados en una base de datos relacional, pero tienen algún tipo de propiedades que los hacen más fácil de analizar (ejemplos pueden incluir los documentos XML y las base de datos NoSQL).

Finalmente, gracias al mundo de las criptomonedas, ha surgido una nueva forma para guardar los datos, la cual recibe el nombre de bloque de datos o blockchain. De forma simple, permite guardar datos de forma distribuida, sin intermediario, confiable y de manera inmutable. Para más información está mi columna que hice sobre esta nueva tecnología.

La diferencia entre los datos y la información

Los términos datos e información, a veces son tratados como lo mismo, pero no lo son. Los datos son registros brutos, mientras la información es el resultado de un análisis o inferencia que tienen como base de uno o más datos. Dejo un video explicativo y didáctico sobre este tema:

Fuente: Rodney Espinosa

La ciencia de los datos

Data Science (o ciencia de los datos), como nos dice Alexa, es un campo multidisciplinario cuyo fin es la extracción de información y conocimiento de los "océanos de los datos" que las empresas, personas y más, generan y que son almacenados de distintas formas. Los elementos que componen a la ciencia de los datos son:

Fuente: kiwidatascience.com

Por tanto es una mezcla entre métodos científicos, estadísticos, investigación, herramientas tecnológicas (ej.: BigData, AI, Machine Learning, etc.) y más. Esquemáticamente la misión, la ciencia de los datos (en el mundo de los negocios), puede resumirse gráficamente de la siguiente manera:

Fuente: IBM.com

Es decir gracias a la ayuda de la ciencia de los datos: pasar desde los datos en bruto, y con ayuda de modelos, herramientas, simplificaciones y otros; a entregar información que permita generar planes, conocimiento y decisiones centradas en los datos. Aquí estamos hablando de generar acciones concretas, mediante una cantidad importante de datos, de forma confiable, libre de sesgo y de alto impacto. La ciencia de los datos, no solo tiene impacto en los negocios, sino que en varias áreas del conocimiento humano.

Los datos no se registran para ser guardados en un museo. Éstos son almacenados para realizar algo. Sí no se hace nada con los datos, entonces no hay razón para registrarlos. El propósito final de guardar los datos, es el de proveer base para acciones o una recomendación para una acción.

Cita de: W. Edwards Deming, 1942

El perfil profesional requerido

De forma regular se puede ver en artículos o notas de la web, la relevancia que ha tenido los perfiles dedicados a la ciencia de los datos:

Fuente: ComputerWorld.es

Más que hablar sobre rentas y otros, que varia país por país y otros factores, si es interesante conocer la amalgama que se espera, para gente que quiere dedicarse a estos temas. En concreto:

Es decir tiene tener una bateria de "herramientas duras y no duras"que incluyen:

  • Experiencia y conocimiento de herramientas matemáticas y estadísticas
  • Expertise en lenguajes de programación y base de datos (ej.: Python, R, SQL, NoSQL, Hadoop, Hive, Spark y un largo etcetera).
  • Habilidades y manejo de "herramientas blandas" de gestión, resolución de problemas, visión estratégica y más. Además de ser curiosos para bucear en los datos.
  • Saber comunicar y poder presentar los resulatados o información de manera visual.

Un ejemplo real de un llamado postular (es solo de ejemplo y ya lleva un tiempo), de una de las principales entidades bancarías de mi país:

Concluyendo

Imágen de TheAustralian.com.au

Hoy nos encontramos en la llamada Era Digital, y los datos han sido catalogados como el nuevo petróleo por muchos analistas y gente relacionada. Por ejemplo CISCO Systems, el gigante informático con principal foco los temas de telecomunicaciones y redes, menciona lo siguiente:

Fuente: CISCO, 2012

Los datos son el nuevo petroleo:

"Vemos en los datos el mismo poder trasnformador que los visionarios del siglo 19, intuyeron al petróleo que se encontraba atrapado de forma subterranea."

"Sí los datos 'crudos' pueden ser extraidos, refinados y bombeados hacia donde pueden impactar a la toma de decisión y en tiempo real, el valor de los datos puede subir muy alto. Y sí los datos pueden ser compartidos de forma adecuada con todo el ecosistema y disponibilizados en lugares donde la analítica es más útil, entonces los datos serán un radical cambio de como hacer las cosas, impactando la forma como vivimos, trabajamos, aprendemos y jugamos."

Finalmente, podriamos decir que la ciencia de los datos engloba las herramientas, técnicas y habilidades requeridas para la correcta explotación y manejo de este nuevo petróleo. Un petróleo, que permite generar valor relevante para la sociedad actual y futura (negocios, gente y países). Algunos plantean, que dicho valor debe ser distribuido de mejor forma, y no debe quedar en manos de pocos. A modo de ejemplo de esta línea de argumento, una columna en el diario The Guardian (escrita Ben Tarnoff).

Es indudablemente, una campo del conocimiento humano muy interesante de investigar y seguir.

Sobre el autor

Soy Ingeniero en tecnología de profesión, emprendedor de una iniciativa de conocimiento y actualidad del mundo tecnológico, consultor y relator de temas tecnológicos para las personas y los negocios. Amante del audio y video, pero también de la naturaleza y una buena conversación.

Tomas Gonzalez Naranjo

Manager Business Consulting en EY

5y

Muy buen articulo!

Yeivis Joam Bravo Gotera

CCA® Chartered Controller Analyst Certificate, Data Analytics, Data Science, Business Intelligence, Planning and Supply Chain Manager

5y

Excelente artículo Eduardo, has reseñado en el, entre diferentes imágenes, vídeos y comentarios, la importancia de la información transformada en dato, el petróleo de este siglo, pero lo valioso de ello es que no está solo en el subsuelo como tesoro escondido, si no en todos lados y que de todos lo que amamos la data science depende el dar y obtener valor de ellos.

To view or add a comment, sign in

Explore topics