Cada hoja de Excel está diseñada para procesar 17 billones de datos (17 mil Columnas x 1 millón de filas). Estando la posibilidad de poder abrir más de mil hojas por archivo, estaríamos hablando de que cada documento Excel es capaz de procesar una cantidad de datos mayor a 17.179.869.184.000. Ciertamente es una cantidad de datos impensable, que nos aleja de la problemática tradicional de: “Faltan datos” y nos enfrenta a la nueva problemática: “¿Y con todos esos datos qué hago?”
Una primera respuesta, quizás la más interesante, haya sido la siguiente: “Juguemos”. Utilicemos las nuevas herramientas para relacionar datos que de otra manera nadie lo hubiera hecho. Así comenzaron a surgir algunas relaciones que hasta ahora habían pasado por inadvertidas, como por ejemplo: la gran correlación entre venta de calzoncillos y crisis económicas; la curiosa relación entre importación de petróleo estadounidense y el consumo de pollo; o mi preferida, la estrecha correlación entre la nacionalidad de los premio nóbeles y el consumo de chocolate.
Hasta ahora nadie se había metido con esos temas, estimo que no tanto por cuestiones “teoréticas” sino más bien “pragmáticas”. Antiguamente, cuando se decía “es difícil procesar tantos datos” se hacía referencia a una dificultad fundamentalmente práctica, ya que se necesitaban cientos de hojas, biromes, espacio, orden y sobre todo gente (que no solo registre los datos, sino que también los pueda operar -sumar, restar, dividir, hacer funciones, etc). Hoy en día ese problema desapareció. Con las nuevas tecnologías, la cuestión técnica ha sido superada. La dificultad paso ahora al lado de la teoría, y el gran problema a abordar gira en torno a qué conocimiento relevante -útil- podemos obtener con tantísimos datos.
El problema de la Causalidad.
Las divertidas correlaciones que están apareciendo ponen sobre la mesa un viejo debate filosófico que podemos llamar como el problema de la causalidad. Si bien las discusiones en torno a la noción de causalidad son amplias, el uso de las nuevas herramientas de datos recrudecen el conflicto entre correlación y causalidad, y cada vez más en las discusiones académicas -aunque también en las cotidianas- suele escucharse la inexorable distinción: Correlación no es Causalidad.
Para ponerlo en términos simples, la correlación hace referencia a que dos eventos ocurren en simultáneo, mientras que la causalidad implica algo más: indica que uno de esos eventos está causando/generando al otro. Así, cuando uno observa correlación entre A y B (por ejemplo, el canto del gallo y la salida del sol), en principio no sabe si (1) es A el que causa B (El canto del Gallo causa la Salida del Sol), si (2) es B el que causa A (La salida del Sol hace que cante el Gallo), o si (3) hay un tercer factor C (la posición de la tierra) que está causando A y B (la posición de la tierra hace que cante el gallo y, a su vez, que salga el sol). Es decir, vemos que A y B se comportan en sintonía, pero no sabemos si A→B, si B→A, o si C→A y C→B.
Si bien parece tratarse de un problema netamente teórico-filosófico, la verdad es que tiene grandes consecuencias para la aplicación del conocimiento. Siguiendo el ejemplo, si alguno de nosotros quisiera un día de frío y creyera que la correlación entre la salida del sol y el canto del gallo se debe a que la causalidad va desde el canto del gallo hacia la salida del sol (cantan los gallos → sale el sol), seguramente estaría pensando en cómo silenciar a todos los gallos del pueblo . O bien, si a partir de la gran correlación entre el consumo de chocolates y los premio nóbeles alguien viera causalidad, muy posiblemente comenzaría a incluir el chocolate en su dieta diaria (just in case, yo ya empecé).
Ups, sospecho que con estos ejemplos tan triviales no se aprecia la relevancia del problema, así que vayamos a un tema que nos preocupa un poco más: el insoportable fenómeno de la inflación.
Emisión e Inflación.
Aunque ya nos resulte habitual, hace largos años que en Argentina vivimos bajo un fenómeno económico bastante atípico: todos los meses aumentan los precios. Lo curioso de la situación es que mientras existe un gran consenso de que la inflación es un problema, hay a la vez una gran discusión (aunque quizás solo sea en Argentina) en cuanto a su origen: ¿se debe a la emisión monetaria, a la concentración de mercado, a la maldad de los empresarios, o al espíritu santo?. En esa gran discusión teórica, hay una cuestión empírica innegable: la emisión y la inflación muestran una fuertísima correlación estadística***.*** Sin embargo, como correlación no es causalidad, quienes sostenemos que los altos niveles de emisión están causando los altos niveles de inflación somos acusados de monetaristas ortodoxos neoliberales (en Argentina, insultos populares).
Dejando a un lado lo extraño del lenguaje, me gustaría defender acá que, al menos en lo que respecta a la inflación, el debate en torno a la causalidad tiene mayor relevancia en términos gnoseológicos que pragmáticos. Esto significa que aunque podríamos pasarnos la vida entera discutiendo la cuestión de la causalidad, en este caso, como en muchísimos otros, no es necesario resolver la cuestión de la causalidad para resolver el problema de la inflación. Por eso es que quiero insistir en que la inflación es un tema que ya ha sido resuelto –acá la evidencia a nivel mundial, acá el interesante caso chileno. En pocas palabras, y por más extraño que parezca, lo que estoy diciendo es quepese a que la causalidad es un problema teórico no resuelto, para reducir la inflación es necesario reducir los niveles de emisión***.***
**** ****
Correlación vs Causalidad: el tabaquismo y el cáncer de pulmón.
Como reflexión final me gustaría compartir lo que sucedió en una lejana ciudad, durante los años 50, cuando aún estaba en discusión si el cigarrillo causaba cáncer de pulmón. Espero que contribuya a combatir la gran enfermedad que viene sufriendo la economía argentina.
Durante mucho tiempo, los epidemiólogos observaban una gran correlación entre el consumo de cigarrillos y el cáncer de pulmón. Sin embargo, estaban bajo el famoso problema “correlación no es causalidad”.
Muchos estaban convencidos que el tabaco causaba el cáncer de pulmón, pero había otros que sostenían que la causalidad era inversa: al sufrir cáncer de pulmón, la gente fumaba más (quizás para calmar su desesperación).
También se alzó un tercer grupo, que argumentaba a favor de la causa común: la correlación entre el cigarrillo y el cáncer de pulmón no implicaba causalidad en ninguno de los sentidos, en realidad había una causa mayor – la angustia combinada con la ansiedad – que hacía que las personas con dichas características contraigan cáncer de pulmón a la vez que les ocasionaba el deseo de fumar.
Ciertamente determinar relaciones causales en sentido estricto es un problema difícil –sino imposible- de solucionar. Mientras tanto, un grupo de médicos -ignorantes (o hartos) de los enredos filosóficos-, recomendaban a sus pacientes disminuir las dosis de tabaco.