Llevo años queriendo leer este libro, porque trata un tema que me gusta e interesa.
Al terminar la universidad, trabajé un par de años desarrollando modelos predictivos para los niveles de contaminación del aire en grandes ciudades, y más tarde, ya en el sector privado, fui un crítico detractor del modelo que utilizaba la empresa en que trabaja para medir el desempeño de los trabajadores, llegando incluso a hacer una presentación a toda la plantilla, recalcando la injusticia del mismo y el absurdo del comportamiento hacia el que nos empujaba.
Con esto quiero decir que entiendo perfectamente la importancia del problema que plantea este libro, y la necesitad de que la gente entienda mejor todo lo que los ordenadores hacen con nuestros datos, las suposiciones que plantean y las conclusiones que extraen, sin que nosotros seamos siquiera conscientes de ello. Por eso, creo que Weapons of Math Destruction es un libro absolutamente necesario, que aborda un problema crítico y, en muchos casos, desconocido.
Dicho lo cual, la autora plantea una visión completamente sesgada del tema, centrándose única y exclusivamente en el daño que los modelos estadísticos o la ingeniería de datos pueden causar, y no en lo mucho que pueden ayudarnos.
El libro empieza bien, pero a no mucho tardar, lo que empezó como buenas ideas y argumentos razonables, se transforma en la bravata más propia de alguien desquiciado, dando salida a toda la frustración que acumula en el pecho, que la objetiva y estructurada exposición de un ensayo.
El más evidente es el sesgo geográfico: todos todos los casos de estudio referidos en el libro son de aplicación fundamentalmente (si no exclusivamente) a Estados Unidos y su disfuncional sistema electoral, educativo o de salud pública. No hay una sola mención al mundo más allá de sus fronteras; ni siquiera una nota al pie reconociendo esta limitación.
Más preocupante, sin embargo, es que en cada capítulo (que, por cierto, no tienen relación entre sí y más parecen casos de estudio independientes), la autora plantee sus argumentos y elabore hasta alcanzar su tesis, sin hacer siquiera mención a posibles argumentos en contra; mucho menos, tratar de refutarlos. Todo lo que aparece en el libro, refuerza su tesis, pero luego bien que critica la realimentación perniciosa de los modelos que se dan la razón a sí mismos.
Lo mismo ocurre con sus referencias: usa periódicos como fuente de datos estadísticos (siempre el mismo periódico, en otra clara evidencia de objetividad...), aporta datos medios, sin mencionar cómo estos se han calculado, y llega incluso a emplear referencias del tipo "Fulanito de Tal una vez me dijo que...". Todo esto, en el mismo libro en que critica a CEOs y directivos por hacer afirmaciones sin cálculos o respaldo.
Y todo esto por no mencionar la absoluta falta de profundidad técnica del libro. No creía yo que se pudiera escribir un libro sobre modelos predictivos sin usar las palabras "ecuación", "multivariante" o "autorregresivo", pero se ve que se puede... cuando vas a profundizar tanto como un balón de Nivea flotando sobre las olas. Se menciona la paradoja de Simpson, de pasadilla, y ya está. Desde luego, por muy divulgativo que quiera ser el libro, no es el nivel de detalle que uno espera de una doctora en matemáticas.
Supongo que es mas fácil vender un libro que no entra mucho en detalles, hablando de cómo las grandes corporaciones y el sistema oprimen a las pequeñas personitas humanas, que mostrar una visión más objetiva, imparcial y científica del asunto, incluyendo tanto el bien como el mal que puede hacer la estadística y los modelos predictivos.
Hay un caso flagrante, en el capitulo que habla del algoritmo que la policía utiliza para determinar dónde es más probable que se produzca un crimen, de forma que pueda patrullar con más intensidad esa zona. Lógicamente, salvando los grandes crímenes, la mayoría de infracciones solo se reportan si hay alguien allí para verlo, de modo que este sistema introduce más datos en las zonas más patrulladas, que el algoritmo va a determinar que son las más probables de generar más incidencias, que por tanto serán más patrulladas, etc, etc...
En este punto, la autora podría haber hecho un bonito comentario sobre los defectos en el modelo, que está introduciendo ceros en las zonas no patrulladas, donde debería haber datos faltantes, y hablar sobre la complejidad que añade el tratamiento de datos faltantes a cualquier modelo estadístico, pero no. Es mucho más fácil decir en tono lastimero que el sistema es cruel, y que el algoritmo es racista y discriminatorio.
En otras ocasiones, trata de acusar al modelo o algoritmo de turno, de una injusticia que realmente es generada por personas humanas. Datos falseados, mentiras... no sé cómo eso puede ser culpa del algoritmo, pero bueno.
En un capítulo habla del modelo con el que los restaurantes de comida rápida optimizan las horas y turnos de trabajo de sus empleados, y cómo añadir ciertas restricciones y variables ha permitido a los trabajadores tener una vida más ordenada, con las debidas horas de descanso. La propia autora asegura que esas restricciones están metidas en el código. El problema es que luego los jefes deciden ignorar el modelo e imponer horarios draconianos, porque la mano de obra barata abunda y ellos obtienen mayores beneficios. ¿Es eso culpa del modelo? Ella misma ha dicho que no, párrafos antes de criticarlo. El modelo está dando un resultado que compatibiliza el beneficio económico con el descanso de los trabajadores. Si luego su jefe es un desgraciado, aquí las ecuaciones no tienen culpa ninguna.
Y aún no he dicho nada de las contradicciones. Ya he dicho que este libro parece más una bravata que le soltarías a alguien en un bar, después de un día duro de trabajo, que un un ensayo, y como a todos nos ha pasado alguna vez, en lo más álgido de una argumentación acalorada, donde impera la emoción en lugar del raciocinio, al final te dejas llevar y te contradices a ti mismo.
A lo largo de todo el libro, la autora aboga por eliminar variables como raza, nivel de ingresos o ubicación geográfica de los modelos, sacrificando precisión, en aras de un resultado más justo y equitativo. Es un objetivo noble, no digo que no, pero luego nos habla de un caso en el que quitaron variables precisamente con ese objetivo, y acabaron con un error del 40% y una variabilidad interanual de 90 puntos sobre 100. Y también lo critica, calificándolo de un modelo burdo y quasi-aleatorio. ¿Entonces qué hacemos Cathy? ¿Quitamos variables para que sea equitativo, aunque la precisión del modelo sea la misma que tirar una moneda al aire? ¿O contemplamos todas las variables para que el modelo se asemeje lo más posible a la realidad? Porque no pueden ser las dos cosas. Y si la respuesta es "ninguna de las dos", no estaría demás proponer una alternativa, ¿no?
Otra deliciosa contradicción la encontramos en el capítulo 9, cuando la autora explica cómo la estadística y los modelos predictivos solo se pueden aplicar a grupos de personas (grupos muy grandes, preferiblemente) y que reducidos al individuo, no aportan nada. El típico ejemplo que todos hemos oído de, si yo me como dos bocadillos y tú ninguno, los dos hemos comido un bocadillo de media .
Para mí fue un consuelo ver que la autora, doctora en matemáticas, tenía este concepto claro, porque después de un libro ignorándolo a conveniencia, empezaba a estar preocupado. Una y otra vez se le llena la boca hablando de la excepción al patrón, de lo injusto que es que, a esa personita trabajadora del barrio pobre, que aunque todos sus amigos y conocidos sean criminales y tengan deudas, se la clasifique como más probable de que incumpla la ley o no pague sus créditos. Que haya correlación y causalidad probada entre todas esas variables no es motivo para clasificarla de ese modo.
Vamos a ver, que tú misma has dicho que no se puede aplicar la estadística a personas individuales, solo a grupos. Es una ciencia que se basa en probabilidad. Siempre va a a haber valores atípicos. Es más duro cuando ese punto desviado de la tendencia es una persona, pero los modelos tratan de predecir el comportamiento de un conjunto, no de los puntos individuales, y ningún modelo tiene una precisión del 100% (algo que Cathy también dice al principio del libro para luego proceder a ignorar cuando la conviene).
En resumen, el libro no me ha aportado nada que no supiera de antemano, ni me ha hecho ver nada desde otra perspectiva. El tema que trata es importante, crítico, incluso, pero lo aborda de forma superficial y con una visión demasiado polarizada como para que pueda recomendarlo.
Comentarios
Publicar un comentario