Parte 2 de 4: La transformación de datos
Continuando con la entrega de fases de la cadena de valor del científico de datos que comenzamos en la semana anterior (La cadena de valor del científico de datos), durante esta entrega se desarrolla la segunda fase de transformación de datos, que requiere de una correcta creación de datos para que la transformación pueda generar los resultados deseados.
Fase 2: Transformación del dato
La fase de la transformación de los datos busca preparar adecuadamente el dato para poder generar los indicadores requeridos y con ellos resolver los problemas previamente planteados, que permitirán preparar insumos para análisis y modelación (Fase 3).
En ella se hace principalmente la limpieza y manipulación de datos, realizando actividades como:
- Limpiar datos: por medio de depurar errores de registro, escritura y ortografía normales en los procesos de registro de la fase (principalmente los realizados manualmente).
- Estandarizar datos: esto permite homologar los datos brindando a un mismo formato y codificándolos, donde se pueden documentar de una mejor manera, todo ello con miras a un mejor análisis y modelación posterior (Fase 3).
- Generar estadísticas descriptivas: por medio de las técnicas variadas de la estadística descriptiva se pueden revisar y explorar los datos disponibles analizando si podrán estos resolver los problemas cotidianos para cumplir objetivos propuestos.
- Validar pertinencia: en esta fase se deben tomar decisiones sobre cuáles datos utilizar y cuáles no (según el objetivo del momento).
- Consolidar y relacionar: los datos que serán utilizados podrían tener que consolidarse si están disponibles en fuentes distintas y deberán posiblemente relacionarse para aumentar las opciones de resolución de las tareas efectuadas.
- Estructurar los datos por temática: si los datos disponibles son muchos, muy variados y de distintas fuentes, estos deberán de transformarse de forma adecuada utilizando agrupaciones de interés.
- Ampliar los datos originales: en esta fase se pueden crear interrelaciones entre tablas de datos o generar información nueva a partir de combinaciones de las variables disponibles (creación de variables derivadas a partir de las variables originales), esta tarea dependerá de la creatividad de cada especialista en transformación, las posibilidades de hacen exponenciales cada vez que se puede derivar una variable (una nueva variable, combinada con las anteriores y el conocimiento del negocio, pueden ayudar a aumentar las opciones de crear otras, siempre que estas ayuden a resolver los problemas enfrentados en ese momento).
Las actividades y tareas de esta fase utilizan las habilidades de estadísticas descriptivas básicas y avanzadas, estadística inferencial básica y la programación para automatizar los procesos de transformación de datos en distintos niveles, que luego son los principales insumos de la Fase 3, la cual será explicada en la siguiente entrega.