Según el Big Data, si el Gobierno de EEUU quiere reducir los suicidios, debe reducir la inversión en ciencia. ¿Extraño? En la siguiente gráfica se muestra que ambas variables están correlacionadas al 99,8%.

Spurious correlation example

From Spurious correlations (Tyler Vigen)

Por supuesto, el sentido común nos dice que algo no encaja. En el post The september issue explicábamos que elaborar nosotros mismos el análisis de tendencias nos puede aportar una gran ventaja competitiva. Pero hacerlo desde los puros datos, sin análisis causal, es peligroso. En un mundo con ingentes datos disponibles, el Big Data nos permite descubrir "posibles" correlaciones, incluso de forma automática. Lo cual no quiere decir que haya una relación de causalidad. Como dice Nassim Taleb en su Cisne Negro, el ser humano está programado para identificar patrones e inferir causalidad, pues de ello ha dependido su supervivencia a largo de la evolución. Pero ello nos genera inconvenientes como la superstición, y también grandes errores de decisión cuando aplicamos el Big Data en la empresa.

Las relaciones de causalidad no las establecen las matemáticas del Big Data, sino el buen trabajo del analista.
Chris Anderson, jefe de la revista Wired, afirma que el desarrollo de los datos masivos o Big Data hace superflua la teoría. Pero frente a las grandes esperanzas del Big Data debemos ser cautos. El 80% de los data lakes acabarán siendo ineficientes, pues no incluirán gestión efectiva de metadatos, y el 70% de los deployments en Hadoop no alcanzarán los objetivos de rentabilidad esperados (Según Gartner).
El profesor de Oxford Viktor Mayer-Schöngerger y el editor de datos de The Economist Kennet Cukier (en su libro Big data, la revolución de los datos masivos) nos explican que el empleo masivo del Big Data nos aleja de la tradicional búsqueda de la causalidad.

Pero establecer la causalidad es fundamental para desarrollar buena Inteligencia Estratégica y Prospectiva. Necesitamos establecer relaciones de causalidad entre agentes de cambio –change drivers- de nuestro mercado, o del sector en otros mercados (Sugiero aquí la lectura de los posts El tiempo en sus manos y The September issue). Pueden ser agentes de cambio en el horizonte temporal estratégico, o en el horizonte prospectivo. Así, las modas en los sabores en Italia y EEUU influenciarán el lanzamiento de nuevos snacks, postres y yogures, y esa es información estratégica. La regulación en favor del autoconsumo energético en otros países de la UE acabará presionando al gobierno de España, y esa es información para la prospectiva.

Las relaciones de causalidad no las establecen las matemáticas del Big Data, sino el buen trabajo de los analistas. La función del analista es fundamental para generar conocimiento; y sobre ese conocimiento construir las mejores decisiones empresariales. El exclusivo soporte de la estadística, sin el análisis experto que procese señales clave, es lo que hace fallar a "Nate" Silver (ex-gurú de las prediciones en el deporte) o a Goldman Sachs.

correlation and causalityBy Yanir Seroussi

El personal de nuestra empresa es quien puede establecer las relaciones de causalidad entre los change drivers de nuestro mercado, con el apoyo de consultores externos si así lo decidimos. Por supuesto, los sistemas automáticos pueden identificar correlaciones, pero en el caso de que las encuentren no debemos fiarnos de ellas. Una correlación puede significar casualidad, no causalidad. Hay que entender nuestro negocio bien para filtrar esas correlaciones.

Debemos partir de esa comprensión experta de nuestro negocio para identificar las causalidades, y con ellas buscar la información que necesitamos para tomar decisiones. El conocimiento de nuestro equipo en la empresa es valiosísimo para recorrer aguas arriba el rio de la causalidad, e identificar qué debemos saber con anticipación. Recordemos el caso de los artículos de bebé.

Si muchos clientes de nuestro hotel vienen por un concierto o nos preguntan por un evento cultural una vez alojados, vigilemos el calendario de eventos. Por un lado para informarles y que vuelvan a la ciudad y a nuestro hotel (Táctica). Por otro, para vigilar si la oferta cultural de la ciudad sube o baja con el tiempo (Estrategia).

Byung-Chul Han, filósofo de la Universidad de las Artes de Berlín, nos dice que "La ciencia positiva, guiada por los datos, no produce ningún conocimiento o verdad". Esta es una sentencia provocadora –eso pretende- pero no está de más recordar que tomar decisiones empresariales en base a correlaciones no causales es como jugar a la ruleta rusa: Puede que aciertes –con lo que sigues comercialmente vivo-, pero puede que no –con lo que pierdes todo-. No vale la pena el riesgo. El impacto de fallar en la estrategia de la empresa es demasiado grande como para jugarlo a suertes. 

Por lo tanto, causalidad y no casualidad. Confianza en nuestro equipo de analistas en la empresa, y no sólo en el Big Data.


(Con la muerte en los talones es una película de Alfred Hitchcock rodada en 1959. En ella el protagonista se ve inmerso en un conflicto por una correlación errónea a partir de una casualidad).

Por Miguel Borrás

antara se compromete a que los contenidos publicados son creados por su propio equipo, clientes o colaboradores. antara nunca subcontrata la generación de contenidos. 
Las opiniones de los autores reflejan sus propios puntos de vista, y no los de la compañía.

 

Disney de 1933, basada en la tradicional fábula Los tres cerditos)