Macrodatos para superproblemas

En El Capitán América y el soldado del invierno, los miembros de SHIELD están ansiosos por el lanzamiento del Proyecto Insight. Tres helicargadores sincronizados vía satélite capaces de predecir y neutralizar las amenazas antes de que sucedan. ¿Cómo funciona exactamente? Si prestas atención a la película, verás una pista: un enorme conjunto de datos basados en certificados de nacimiento, registros médicos, historial de comportamiento… En fin, todo un vasto conglomerado de información que, sin duda, nos diría mucho acerca de las tendencias conductuales de la población.

La trama de esta película representa, por supuesto, un presente ficticio. Pero la idea general, la de usar ingentes conjuntos de datos para predecir el mundo real, no lo es en realidad. En su blog de inteligencia artificial, el divulgador José Martínez ha escrito recientemente acerca de este universo de los «macrodatos».1 Los interesados en una introducción a los conceptos más importantes deberían leerlo. Elaborar predicciones a partir de tanta información es emocionante. En 2008, de acuerdo con comentarista de la revista Wired:

Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis sobre lo que podría mostrar. Podemos lanzar los números en los racimos informáticos más grandes que el mundo haya visto y dejar que los algoritmos estadísticos encuentren patrones donde la ciencia no puede. […] La nueva disponibilidad de enormes montones de datos, junto con las herramientas estadísticas para tratar estos números, ofrecen un modo completamente nuevo de entender el mundo. La correlación sustituye a la causación, y la ciencia puede avanzar aun sin modelos coherentes, ni explicación mecánica en absoluto.2

Desafortunadamente, no es tan sencillo. Contra la errónea concepción de que más datos implican más información, en ocasiones un gigantesco conjunto de datos puede significar todo lo contrario. Puede parecer intuitivo que, tras analizar un enorme océano de información, lo que encuentres debe representar un patrón o hallazgo significativo, pero las apariencias engañan con bastante frecuencia.

Los análisis estadísticos se pueden dividir en dos clases principales: los confirmatorios y los exploratorios. La diferencia entre uno y otro reside especialmente en sus propósitos. Decimos que un análisis es confirmatorio cuando nuestro objetivo es evaluar una hipótesis específica, o una cantidad de hipótesis determinadas de antemano. En cambio, llamamos exploratorios a los análisis que se llevan a cabo sin ninguna hipótesis en mente.

Los análisis exploratorios se conocen popularmente como «tortura de datos» porque esto es, en esencia, lo que sucede en el proceso. Si bien la etiqueta tiene cierto tono despectivo, en principio un análisis exploratorio no es perjudicial ni debería ser proscrito. Por un lado, cuando centramos nuestra atención únicamente en la evaluación de las hipótesis que se nos ocurren, acabamos ignorando todo lo que no se nos ha ocurrido. En un experimento reciente, dos biólogos pidieron a varios estudiantes de genética que analizaran una serie de datos que —les dijeron— representaban el índice de masa corporal y el número de pasos de 1786 personas.3 Los estudiantes fueron divididos en dos grupos; los de uno debían limitarse a evaluar tres hipótesis y los del otro podían explorar los datos libremente para ver qué conclusión extraer de ellos. Oculto entre los datos estaba el gorila que ves abajo. Resulta que solo cinco de 19 estudiantes del grupo confirmatorio encontraron el gorila, mientras que nueve de 14 del grupo exploratorio lo hicieron.

Figura 1. El gorila entre los datos.

En la historia de la ciencia se conocen sucesos fortuitos que llevaron a grandes descubrimientos. En 1961, por ejemplo, el meteorólogo estadounidense Edward Lorenz estaba poniendo a prueba simulaciones en un nuevo modelo climático desarrollado por él en el Instituto Tecnológico de Massachusetts. Aunque su computadora podía trabajar con hasta seis decimales, Lorenz redondeó sus ecuaciones para resumir la operación a solo tres. Cuando Lorenz simulaba el tiempo meteorológico a lo largo de un mes, notó que los resultados exhibían anomalías. Las tormentas aparecían o desaparecían de repente. Lorenz había descubierto que las condiciones iniciales, por pequeñas que fuesen, tenían un marcado efecto a largo plazo. Este fue un esbozo de la teoría del caos aplicada al clima.4

Por otro lado, no toma demasiado darse cuenta de que, por su propia naturaleza, los descubrimientos fortuitos son inusuales. Esta es la razón por la que los análisis exploratorios, si bien pueden ser valiosos, deben entenderse como eso, exploratorios. Simplemente, todo modelo predictivo se debe validar, lo que no es sino comprobar que realmente funciona.

Esto se puede hacer de distintas maneras, pero la lógica se resume a que debes evaluar tu modelo con otro conjunto de datos. Por ejemplo, la validación externa consiste en reunir datos de dos muestras distintas y reservar una como tu muestra exploratoria (o de entrenamiento, para los algoritmos), la otra como tu muestra confirmatoria (o de evaluación). Por supuesto, reunir datos no siempre es tan fácil como suena, así que si solo cuentas con una única muestra puedes dividirla aleatoriamente en dos subconjuntos. Esta es la validación por retención. En otro método muy frecuente en neurociencia, si tienes cincuenta personas usas las primeras 49 como entrenamiento y la última como evaluación, después las siguientes 49 como entrenamiento y la restante como evaluación, luego las siguientes 49 y así sucesivamente hasta haberlas usado a todas como evaluación. Este método se conoce como validación iterativa. No todas estas técnicas tienen igual desempeño (las mejores son las de validación externa),5 pero acaso más llamativo sea que, según algunas estadísticas, en medicina más de dos tercios de los estudios omiten la validación predictiva.6

Aunque se han diseñado algoritmos para predecir la homosexualidad a partir de fotografías,7 el crimen a partir del rastreo de móviles,8 los suicidios a partir de datos médicos,9 qué empleado está a punto de renunciar a partir de datos personales y laborales,10 existen numerosas dificultades que parecen generalizadas para varias clases de algoritmos (un buen ejemplo es el de los algoritmos de minado). Puesto que estamos hablando de cantidades gigantescas de datos (miles o millones de tuits, publicaciones en blogs, registros de posición, etcétera), el procesamiento de toda esa información, así como su análisis, consume tiempo. Con cien variables de las cuales elegir, existen casi 20 trillones de maneras de combinar diez variables. Esta es la razón por la cual varios algoritmos se basan en una técnica conocida como regresión escalonada.

La regresión se refiere a un conjunto de procedimientos estadísticos que nos permiten estimar el efecto que una variable ejerce sobre otra. La regresión escalonada nació cuando las computadoras eran mucho más lentas y llevar a cabo un análisis multivariado (de muchas variables a la vez) no era del todo posible, así que los análisis se realizaban eligiendo las variables por pasos o en escalones. Si se ha vuelto un procedimiento popular en el mundo de los algoritmos no es porque sea una técnica apropiada, sino porque es computacionalmente menos exigente.

Muchos estadísticos han desaconsejado el uso de las regresiones escalonadas (incluso fueron prohibidas de una revista en 1995) porque, en nuestra generación, son innecesarias, y el beneficio que puedan ofrecer en términos de rapidez de análisis quedan opacados por los costos que trae la pérdida de precisión.11 La regresión escalonada muy habitualmente acaba incluyendo en nuestro modelo variables que en verdad no tienen ningún valor predictivo, pero que lucen como si lo tuviesen.12 El económetra estadounidense Gary Smith llevó a cabo una serie de simulaciones con numerosas variables falsas y cinco variables verdaderas.13 La cantidad de variables verdaderas identificadas disminuía ligeramente conforme aumentaba el número de variables candidato, pese a que la cantidad total de variables incluidas en el modelo aumentaba a la par. En otras palabras, cuantos más datos, más variables falsas acaban siendo confundidas por verdaderas.

Con una cantidad suficientemente grande de datos, un algoritmo de minado podría creer que se puede predecir el tiempo en Moscú o Piongyang, Corea del Norte, a partir de los tuits de Trump. También podría encontrar una correlación entre el uso de with por parte del presidente y los precios del mercado del té.14 Sé que esto puede lucir como la falacia de tomar lo peor de algo para generalizar a todo ese algo, pero ya ha habido varios casos reales. Un algoritmo del Banco de los Estados Unidos «descubrió» que el mercado bursátil tiene mejor desempeño cuando Trump tuitea menos,15 y basándose en este hallazgo la firma financiera JP Morgan decidió crear un índice para medir los efectos de los tuits del presidente en el mercado.16 No bromeo, pero tienes que reírte.

Hasta aquí, todo luce suficientemente mal. Y se pone peor. En ocasiones, la validación predictiva puede fallar con los algoritmos de minado, porque si tenemos en cuenta muchas variables falsas es muy probable que algunas de ellas, solo por (mala) suerte, coincidan en la muestra exploratoria y en la confirmatoria. De suerte que la validación nos hace excluir algunas asociaciones falsas, pero no conseguimos eliminarlas todas.17 En efecto, este parece ser un problema de los algoritmos en general.18

Al margen de estos detalles cuantitativos, hay que tener en cuenta que los macrodatos proceden principalmente de compañías que dependen de la participación voluntaria, lo que nos trae dificultades adicionales, pues es dudoso que la población de usuarios sea representativa de la población general. No me malentiendas. Esto de ninguna manera significa que los resultados sean inútiles, solo que deben interpretarse con cuidado. Muchas veces los resultados de una red social ni siquiera son generalizables a otra.19 Los usuarios de Facebook tienden a compartir más fotografías de su familia que los de LinkedIn, pero todos sabemos que ambas plataformas cumplen fines muy diferentes.

La abundancia de los datos no pueden presuponer su diversidad, representativa de las poblaciones a que los algoritmos aspiran a servir. Más bien, la multiplicidad de los medios, mecanismos y contextos de recolección de datos pueden producir vulnerabilidades adicionales ante sesgos comprometedores. Esto es especialmente cierto para los datos que proceden de fuentes informales (como teléfonos móviles o dispositivos inalámbricos), que no están sujetos al rigor metodológico que caractiza la recolección científica de datos clásica. […]Las poblaciones que más podrían beneficiarse en las intervenciones médicas —incluyendo los pobres, los mayores, los rurales y los discapacitados— están entre las menos propensas a usar las plataformas con que se generan los macrodatos.20

Esto tiene el indeseado doble efecto de sobrestimar la magnitud de los fenómenos en una población y subestimarlos en otra. Un algoritmo de aprendizaje automatizado que usa registros médicos puede fácilmente llegar a la conclusión de que los hispanos necesitan menos atención médica porque manifiestan menores problemas de salud que el resto de los estadounidenses.21 Esta sería una buena noticia si no fuese porque seguramente los hispanoamericanos de menos estatus socioeconómico seguramente enfrentan más barreras en el acceso a los servicios médicos, lo que hace que nuestros datos estén basados en aquellos que sí pueden costearlo.

Figura 2. Sesgo de selección en los registros médicos.

Arriba tienes una ilustración si quieres comprenderlo mejor. Como verás, la población general hispana tiene, en promedio, menores puntuaciones de salud que la estadounidense. Sin embargo, son los de mejor estatus socioeconómico los que están presentes en los registros médicos. Esto es, el extremo de la distribución, resaltado por la joroba gris. La media de este extremo, marcada por la línea punteada, resulta tener una puntuación ligeramente más alta que la media estadounidense, pero no es representativa de la verdadera media hispana.

Muchos artículos académicos y programadores con experiencia reconocen la discriminación involuntaria por parte de los algoritmos como uno de los mayores desafíos en el uso de macrodatos.22 Pero apenas poco más de la mitad de los estudios médicos basados en algoritmos toman en consideración el sesgo de selección y unos dos tercios llevan a cabo regresiones escalonadas.23

Supongo que a veces es fácil olvidar la diferencia entre cantidad y calidad. Más no siempre es mejor.


1 José Miguel Martínez Gázquez, «Big data, big problem», Nova Machina, 11 de septiembre de 2020.
2 Chris Anderson, «The end of theory: The data deluge makes the scientific method obsolete», Wired, 23 de junio de 2008.
3 Itai Yanai y Martin Lercher (2020), «A hypothesis is a liability», Genome Biology, 21: 231.
4 Spencer R. Weart, The Discovery of Global Warming (Massachusetts: Harvard University Press, 2008 [2.ª ed.]), pp. 58-60.
5 Chakkrit Tantithamthavorn y otros (2017), «An empirical comparison of model validation techniques for defect prediction models», IEEE Transactions on Software Engineering, 43 (1): 1-18.
6 Richard Riley y otros (2016), «External validation of clinical prediction models using big datasets from e-health records or IPD meta-analysis: Opportunities and challenges», British Medical Journal, 353: i3140.
7 Sam Levi, «New AI can guess whether you’re gay or straight from a photograph», The Guardian, 8 de septiembre de 2017.
8 Parmy Olson, «Algorithm aims to predict crime by tracking mobile phones», Forbes, 6 de agosto de 2012.
9 Matthew Hudson, «Machine-learning algorithms can predict suicide risk more readily than clinicians, study finds», Newsweek, 27 de febrero de 2017.
10 Jennifer Liu, «This algorithm can predict when workers are about to quit—here’s how», CNBC, 10 de septiembre de 2019.
11 Peter Flom y David Cassel (2007), «Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use», discusión; Mark Wittingham y otros (2006), «Why do we still use stepwise modelling in ecology and behaviour?», Journal of Animal Ecology, 75 (5): 1182-1189.
12 En términos más precisos, la regresión escalonada excluye las variables que no superan el umbral de significancia estadística e incluye las que sí lo hacen. Aunque aparentemente esto no debería ser perjudicial, el problema es que la cantidad de pasos en el proceso aumenta los grados de libertad, lo que disminuye nuestra potencia estadística y, por fin, nos conduce a muchos falsos positivos.
13 Gary Smith (2018), «Step away from stepwise», Journal of Big Data, 5: 32.
14 Gary Smith (2020), «Data mining fool’s gold», Journal of Information Technology, en línea.
15 Steve Goldstein, «The more Trump tweets, the worse it is for stocks, research finds», Market Watch, 3 de septiembre de 2019.
16 Emma Newburger, «JP Morgan has created an index to track the effect of Trump’s tweets on financial markets: ‘Volfefe index’», CNBC, 8 de septiembre de 2019.
17 Gary Smith (2020), «The paradox of big data», SN Applied Sciences, 2: 1041.
18 Bharat Rao, Glenn Fung y Romer Rosales (2008), «On the dangers of cross-validation: An experimental study», presentado en la Conferencia Internacional de Minado de Datos SIAM, pp. 588-596.
19 Alexandra Olteanu y otros (2019), «Social data: Biases, methodological pitfalls, and ethical boundaries», Frontiers in Big Data, 2: 13.
20 Eli Cahan y otros (2019), «Putting the data before the algorithm in big data addressing personalized healthcare», npj Digital Medicine, 2: 78.
21 Milena Gianfrancesco y otros (2018), «Potential biases in machine learning algorithms using electronic health record data», JAMA Internal Medicine, 178 (11): 1544-1547.
22 Maddalena Favaretto, Eva de Clercq y Bernice Simone Elger (2019), «Big Data and discrimination: Perils, promises and solutions. A systematic review», Journal of Big Data, 6: 12.
23 Benjamin Goldstein y otros (2017), «Opportunities and challenges in developing risk prediction models with electronic health records data: A systematic review», Journal of the American Medical Informatics Association, 24 (1): 198–208.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s