1

Higiene de datos y por qué es fundamental para su analítica de los mismos

Si bien el Big Data y los avances en TE para favorecer la analítica es fundamental, hace falta una cultura organizacional que permita aprovecharlos.

CIO AMÉRICA LATINA | Por Elibeth Eduardo | @ely_e

Aunque difícilmente puedan ocasionar un retrocesos en los avances, muchos críticos comienzan a poner en duda la importancia de los sistema de analítica de Big Data pues hay muchas empresas que no han logrado sacar ventaja de ellos.

Podemos decir, sin lugar a dudas, que el número de “frustraciones” y resultados poco satisfactorio aumentará en la medida en que las empresas no asuman que los Científicos de Datos no son magos y que la Analítica, como cualquier otra herramienta, sólo sirve si sabemos usarla.

Uno de los primeros requisitos para no desaprovechar el potencial del análisis de datos es que toda la estructura que su empresa ha desarrollado tuviera un objetivo previo.

Es decir, que usted no la montó porque “Era bueno” y “todo el mundo lo está haciendo” sino porque quería aprovechar mejor la información que sus procesos generan.

Si el segundo es su caso, quizás aun esté un poco perdido en aprovechar todo el potencial pero sólo tiene que encontrar el “cómo” y el “qué” (por fortuna, ya lo tiene) le servirá de guía.

Sí, siga algunos de los mapas que ya hemos construido para evitar esos errores que debe evitar para no desperdiciar el potencial del análisis de datos.

Higiene de datos como prioridad

Además, así como hay prácticas que no debe olvidar cumplir para que su gestión sea más eficiente, también hay algunas que debe desactivar lo más pronto que pueda para lograr el mismo objetivo.

Y es que si los datos que está analizando no son precisos, actualizados, bien organizados, etc., el valor de los análisis puede disminuir drásticamente.

“La basura dentro de la data es un problema que se magnifica por el volumen y el alcance de los datos comerciales brutos. Los mejores equipos de análisis de datos quieren que la calidad penetre más allá del volumen. Como tal, construyendo procesos y aprovechando la tecnología que refuerza la calidad los estándares son una combinación ganadora”, afirma el director de informática de Zeta Global, una empresa de marketing de gestión del ciclo de vida del cliente, Jeffry Nimeroff.

El especialista resalta que, del lado del proceso, asegurar la repetibilidad de los mismos y la auditabilidad de los resultados es importante.

Desde el punto de vista tecnológico, la implementación de herramientas de calidad de datos que incluyan:

  • La creación de perfiles;
  • La gestión de metadatos;
  • La limpieza;
  • El abastecimiento, etc., todo ello ayuda a garantizar datos de mejor calidad.

Saneamiento ambiental

Para alcanzar estos estándares hay que establecer todo una cultura de nuevos procedimiento.

“Las organizaciones necesitan usar herramientas para limpiar los desechos -datos incompletos y rotos- y amasijo de datos de diferentes fuentes para hacerlos compatibles y comprensibles, de manera que todo sea lo más fácil posible de analizar”, explicó el CTO de la compañía de seguridad cibernética Vectra, Oliver Tavakoli.

Esto debería ser innecesario decirlo. De hecho, la Ciencia de Datos intenta más profundizar el análisis que facilitarlo pero, sin embargo, una gestión no puede hacerse sin la otra.

“Haga que los datos sean tan autodescriptivos como sea posible para que todos los miembros del equipo entiendan el significado de los diversos bits de datos”, recomendó el especialista.

Por su parte, el CEO de Incedo (una empresa de servicios de tecnología), TP Miglani, considera que hay que lograr la distinción entre la información de alta calidad y la corriente de manera que la primera sea el combustible clave para generar información útil dentro de los procesos de la organización.

“Necesita construir data warehouses y data lakes para reunir los datos estructurados y no estructurados. Las organizaciones exitosas se aseguran de que mejoren la calidad de los datos con la limpieza, el cálculo de los valores perdidos y con precisión en el etiquetado”, explicó.

Un ecosistema sano

Lo importante que debe lograr transmitir el CIO al resto de la organización es que sólo logrará el máximo provecho al análisis de datos si se crea todo un ecosistema de generación, recuperación y organización que sea sano y eficiente.

Una buena higiene de los datos también significa mantener la información lo más actualizada posible.

Los datos deben estar actualizados, sin perder de vista que el “universo de datos” se está expandiendo constantemente para que las empresas saquen valor del análisis, en opinión de Nimeroff.

“La frescura de los datos requiere tener una comprensión de la puntualidad de sus procesos actuales de adquisición de datos”, aseguró el especialista.

¿Pero, a que nos referimos con “frescura”?

“Obviamente, cuanto más cercano al tiempo real,mejor es la frescura. Esta también puede ser apoyada por el uso de servicios de terceros para aumentar su tecnología en los procesos existentes”, recomendó Nimeroff.