¿El mejor diputado o diputada 2024?

La cadena de valor del científico de datos

Fotografía de Mikhail Nilov.

Como se observó en el artículo anterior (El científico de datos), el científico de datos es un profesional que debe manejar muy bien diversas áreas de conocimiento y tener la habilidad de poner ese conocimiento teórico en práctica para resolver problemas.

Esta semana se comienza con la descripción de la cadena de valor del científico de datos, con las principales actividades desarrolladas por este profesional, desde donde se genera datos, hasta como se convierte la información, se analiza, modelan los datos y se comunica permitiendo la toma de decisiones para la generación de valor en la empresa u organización.

En el siguiente esquema se observan las fases por las que transita un científico de datos, según las actividades que esté desarrollando.

Fuente: Elaboración propia.

Parte 1 de 4: Creación de datos

Una cadena de valor es un sistema de actividades conectadas unas con otras, donde las primeras que se realizan son requeridas para avanzar a las siguientes, afectando así el costo y la efectividad con las que todas ellas se realizan, poder identificar cuáles son los principales insumos y lograr así tener una ruta clara de donde se genera ese valor.

Durante esta entrega se desarrolla la primera fase de creación del dato, en las siguientes 3 semanas se explicarán en detalle, una por semana, las fases restantes.

Fase 1: Creación del dato

Las fases de la cadena de valor de un científico de datos, comienza por la creación de los insumos, los datos, los cuales hoy provienen de alguna fuente que lo genera y realiza su registro.

Se puede hacer básicamente de dos formas:

  1. Generación de datos manual: En este caso el dato es registrado en una tabla por una persona de tiene esa actividad llamada tabulación. Un ejemplo de ello es en los casos cuando se hace una encuesta o entrevista donde se completa manualmente el cuestionario usualmente impreso, seleccionado las respuestas marcando con “x” o completando lo solicitado, por ejemplo, su nombre.

Si la creación del dato se hace manual, los principales pasos para ello son:

  • Creación de un instrumento: que permita la recopilación de datos, como la encuesta o cuestionario mencionado, que deberá ser revisado y aprobado por un especialista para cerciorarse de que lo que se vaya a consultar sea lo que realmente se ocupa (no tiene sentido preguntar algo que no tiene pensado utilizarse o no se le ve una utilidad real).
  • Tabulación de los resultados: cuando se tengan todos los datos en los cuestionarios físicos, deberán registrarse en una tabla, con sus respectivos códigos, generalmente en esas tablas las columnas representan las variables y las filas representan los registros. Por ejemplo, en la variable (columna) nombre, estarán todos los nombres de las personas entrevistadas, y en una fila “x”, estará el registro completo de una persona (información completa en todas las variables para una misma persona)
  • Validación de datos: luego de hacer las tabulaciones, deberá por medio de una persona distinta al tabulador (llamado validador), revisar que los registros sean correctos, de encontrarse alguna inconsistencia (anomalía) deberá revisarse si el registro es correcto, si lo es, justificar la razón para dejarlo, y si es un error, deberá corregirse.

La validación de los datos permite una revisión para aumentar la calidad de los datos registrados y tener adecuados insumos para las siguientes fases y actividades a realizar.

  1. Generación de datos automática: También existe la posibilidad (cada vez con mayor frecuencia) de la generación de datos se realice de forma automática, como se hace por medio de robots programados para extraer datos del internet, por ejemplo, los registros que quedan de las compras en línea, las conversaciones de redes sociales, los registros de las transacciones bancarias, o los mismos cuestionarios, que antes eran impresos, realizarse ahora por medio de formulario en línea, entre muchos otros ejemplos.

Cuando los datos se crean automáticamente por medio del uso de la tecnología, los instrumentos se automatizan, por lo que la tabulación de datos y sus validaciones son confeccionadas por programadores informáticos y los registros son generados por medio de la interacción del usuario con estas herramientas tecnológicas, por lo que la calidad de los registros es controlada desde una programación.

En esta fase se hace el trabajo más importante de todos, crear un correcto registro del dato ya que todas las decisiones futuras dependerán de que la recopilación de los datos sea la correcta, en la siguiente entrega explicaremos la fase 2 en detalle.

mailto:jgalpizar@elmundo.cr“Ciencia de Datos para Todos” es un espacio creado para presentar de forma clara y concisa todo lo que necesitas saber sobre el perfil más demandado en el ámbito laboral. 

Cada semana, exploraremos herramientas, consejos laborales y tendencias para estudiantes, profesionales y empresas que buscan crecer en un entorno impulsado por datos, invitaremos a expertos en el tema para que brinden sus aportes y logremos aprender entre todos.

Contáctanos al correo cienciadedadatos@elmundo.cr

Más sobre Ciencia de Datos