Los científicos de datos pasan el 80% del tiempo limpiando datos y el otro 20% protestando por tener que limpiarlos

La adopción generalizada por parte de todo tipo de organizaciones del uso y análisis intensivo de datos de negocio hace que sea indispensable disponer de datos limpios. Es por ello que los procesos y herramientas dedicados a la limpieza y preparación de datos son cada vez más importantes y necesarios en nuestras organizaciones.

Se suele decir que los científicos de datos pasamos el 80 por ciento del tiempo limpiando, preparando y re-organizando datos y tan solo un 20 por ciento analizandolos. Porque lo normal es que cuando te pongas a trabajar con datos de tu organización encuentres todo tipo de problemas que tienes que superar antes de poder analizarlos o empezar a entrenar tus modelos estadísticos. Algunos de estos problemas de limpieza incluyen:

● Variables que no utilizan la tipología correcta como fechas o números guardados como cadenas de texto.
● Problemas con la codificación de caracteres en distintos formatos como ASCII, UTF-8, UTF-16, UTF-32.
● Datos duplicados presentes en las bases de datos.
● Valores que necesitan normalizarse.
● Nombres de personas o lugares etc que necesitan pasar por un proceso de desambiguación.
● Valores no disponibles (missing values) tratados de diversas maneras.
● Campos multivalor sin separadores que permitan separar los valores.
● Falta de metadatos que documenten los datos con los que trabajas.

Por tanto, podemos definir la limpieza de datos como aquellos procesos mediante los cuales se detecta y corrige la información incorrecta, incompleta, imprecisa, sin normalizar o innecesaria.

Este tipo de limpieza de datos se puede acometer con diferentes herramientas y metodologías. Lenguajes de programación como R, Python son increíblemente potentes para todo tipo de procesos de limpieza pero tienen una curva de aprendizaje que no podemos menospreciar. Afortunadamente, en el mercado empiezan a proliferar multitud de herramientas que facilitan la limpieza de datos como puedan ser OpenRefine, Trifacta, Drake o DataCleaner.

Todas estas herramientas permiten hacer un análisis inicial exploratorio de los datos que te ayuda a entenderlos mejor. Te muestran los tipos de variables de las que partes, las frecuencias de los valores textuales, la distribución de las variables numéricas, los valores no disponibles o los duplicados. Otra funcionalidad común es la que permite hacer cambios masivos utilizando simples reemplazos o expresiones regulares avanzadas. Además, muchas de estas herramientas ponen a tu alcance de manera sencilla algoritmos de agrupación estadística capaces de detectar grupos de valores que puedan ser representaciones alternativas de un mismo concepto. Por ejemplo, podríamos encontrar Nueva York escrito como NY o nueva york o New York, etc. O nombres de persona con o sin tilde, por ejemplo: Luis Martinez y Luis Martínez.

El curso online “Limpieza y enriquecimiento de datos con Open Refine” planificado del 21 de marzo al 12 de abril pretende formar perfiles de trabajadores de datos que dominen las técnicas de limpieza y normalización masiva de datos.
Científico de Datos en DataLab de la Biblioteca de la Fundación Juan March

Deja un comentario


* Se requiere casilla de verificación RGPD

*

I agree

Centro de preferencias de privacidad

Política de cookies

En esta web se utilizan cookies de terceros y propias para conseguir que tengas una mejor experiencia de navegación, puedas compartir contenido en redes sociales y para que podamos obtener estadísticas de los usuarios. Puedes evitar la descarga de cookies a través de la configuración de tu navegador, evitando que las cookies se almacenen en su dispositivo. En SEDIC no utilizamos ninguna información personal procedente de cookies, tan sólo realizamos estadísticas generales de visitas que no suponen ninguna información personal. Según los términos incluidos en el artículo 22.2 de la Ley 34/2002 de Servicios de la Sociedad de la Información y Comercio Electrónico, si continúas navegando, estarás prestando tu consentimiento para el empleo de los referidos mecanismos.

Puede conocer más sobre la política de Cookies de SEDIC en: https://www.sedic.es/politica-de-cookies/

PHPSESSID, TawkConnectionTime, Tawk_, __tawkuuid, __cfduid, ss, _ga, _gat, _gid, catAccCookies, tk_ai, wordpress_test_cookie, wordpress_logged_in_ac, wordpress_ac, 1P_JAR, CONSENT, NID,