Contenido
¿Qué son los procesos ETL?
Es muy habitual que al implementar un proyecto de Business Intelligence la información provenga de distintas fuentes, es decir, que se encuentre almacenada en distintos lugares, ya sea distintos sistemas de información como SAP, Aspel SAE, Sales Force, sistemas de facturación y contabilidad o incluso que manualmente se estén utilizando archivos de excel, esto a su vez nos lleva a tener la información en distintos formatos tal como archivos de texto, archivos csv, de excel, JSON, etc. todas estas fuentes de información deben ser consolidadas en una sola para poder ser analizadas, aquí es donde los procesos ETL tienen su participación.
La palabra ETL en business intelligence o incluso en el mundo de la informática corresponde a las siglas en inglés:
- Extract – Extraer
- Transformation – Transformación
- Load – Carga
Fase de Extracción el proceso ETL (Extarct)
¿De dónde proviene la información?, se tiene que identificar los sistemas que almacenan la información que se necesita extraer, además es importante identificar la criticidad de los sistemas de información, si estamos frente a un sistema de información crítico para las operaciones en tiempo real de la empresa, se debe tener mucho cuidado al conectar con la fuente de datos para evitar interrumpir el sistema o generar retrasos por sobrecarga de procesos.
Un tema importante aquí es la habilidad que tiene el experto en datos para poder extraer únicamente la información que se necesita y que será indispensable para la realización de la exploración de datos y creación de análisis.
En esta fase simplemente nos enfocamos en utilizar alguna herramienta, como SQL Server o Knime etc. para realizar consultas o queries y extraer la información.
Fase de Transformación en el proceso ETL (Transformation)
En esta fase se realiza la homologación de los datos adicionalmente que esto conlleva varias operaciones como filtrado de datos, ordenación, agregación, combinado de datos, limpieza, depuración, remover duplicados e incluso la validación de los datos.
Fase de Carga en el proceso ETL (Load)
La mejor forma de trabajar con los datos es llevando la información a un solo lugar, en muchas ocasiones esto puede ser un lugar físico llamado data warehouse, teniendo la información en un mismo lugar se reduce el esfuerzo para acceder a la información y permite hacer la información más utilizable pues se concentra en un formato más eficaz para realizar las consultas que necesitamos.
En resumen, los procesos ETL nos ayudan a crear procesos automatizados para tomar la información del lugar donde se encuentre y en el formato en el que esté, de esta forma se integran todos datos de forma homologada y durante este proceso se realiza la limpieza de datos, garantizando su calidad y se manipulan los datos para dejarlos en el formato más adecuado para su explotación.