Una gran cantidad de datos no garantiza una gran cantidad de información. Por ello, las decisiones basadas en datos no tienen por qué ser las acertadas. 
Hace unos años, con la moda de la transformación digital de empresas, surgió el concepto data-driven: entidad que basa sus decisiones en el análisis de datos. Esto llevó a muchas organizaciones a capturar grandes volúmenes. El término sigue vigente, con eventos como el Data Driven Day, donde las empresas comparten casos de éxito en inteligencia artificial. 

Ahora bien, los datos son solo el primer paso; el mérito está en convertirlos en información. Las decisiones nunca deberían basarse en datos, sino en la información que extraemos de ellos. 

Las empresas han podido adoptar este enfoque porque el almacenamiento de datos se ha abaratado. En los años 50, el primer disco duro era de menos de 5 MB y se alquilaba por 3.200 dólares al mes. Hoy puedes comprar una tarjeta de 256 GB por menos de 20 euros. ¿Qué han hecho las empresas? Guardar y guardar. ¿Es eso bueno? No necesariamente. 

Almacenar datos es barato, pero eso no significa que estés almacenando información. Nate Silver lo resume en La Señal y el Ruido: el volumen de datos ha crecido, pero el ratio de señal frente a ruido ha disminuido. Es decir, una parte cada vez mayor de los datos que almacenamos no tiene patrones de los que se pueda aprender; son solamente comportamientos erráticos de aquello que estamos estudiando. 

Los proyectos de datos deben ayudar a tomar decisiones. Lo malo es que los datos, por sí solos, no lo hacen. Los datos requieren procesamiento para convertirse en información. 

Un estudio del MIT en 2021 lo ilustró mostrando cómo las inteligencias artificiales del momento deducían qué objeto contenían unas imágenes. Observaron una alta dependencia en el fondo de la imagen (un prado, una carretera, agua, etc.), de forma que, si lo intercambiaban, la IA fallaba en su predicción con más frecuencia. Es decir, en lo que destacaba no era en detectar objetos en imágenes, sino en identificar el fondo y deducir a partir de él qué objeto estaba en primer plano. 

Algo similar puede ocurrir en una empresa que confía ciegamente en datos sin interpretar: que sus decisiones data-driven sean equivocadas. Un ejemplo es el de cómo Nike basó su marketing digital en datos extraídos de su estrategia comercial clásica. El resultado: perdió clientes nuevos, por no haber aprendido a dirigirse a ellos, y antiguos, por haberlos abandonado en su nuevo esquema. Es decir, su método data-driven orientado a captar clientes los llevó a perder ventas.

Parte de la solución pasa por anticipar qué esperas ver: usa tu experiencia para proponer hipótesis y valídalas con datos. Se trata de plantear preguntas adecuadas. Haz primero un modelo mental de cómo deberían influir los factores disponibles sobre las métricas que estés estudiando y luego usa la estadística para ver si los datos lo corroboran. No hacerlo así puede llevarte a dar por buenas correlaciones espurias. 

Una muy conocida a modo de ejemplo es que las ventas de helados están relacionadas con los incendios forestales. A nadie se le ocurre prohibir las ventas de helados con la intención de frenar los incendios porque se sabe que son las altas temperaturas las que causan ambas (y no una a la otra). Pero los datos no saben de esas relaciones: son los analistas quienes las tienen que proponer. Y si no lo hacen, sus análisis pueden dar resultados igual de absurdos que ese, pero en sistemas más complejos. En casos así, es imprescindible que alguien con conocimiento del sector verifique que estos resultados sirven para algo. 

La inteligencia artificial es capaz de entrenar a los grandes modelos de lenguaje actuales con datos con mucho ruido. Pero tú no eres una inteligencia artificial, sino alguien que busca tomar buenas decisiones. Los datos han crecido como nunca. La información, no tanto. Y es eso lo que realmente importa.