Sobre el diseño de incentivos

Sobre el diseño de incentivos

Sobre el diseño de incentivos

Uno de los principales retos al desarrollar Inteligencias Artificiales consiste en codificar adecuadamente un mecanismo de recompensas tal que permita al algoritmo aprender correctamente la tarea a desarrollar. ¿Dónde podemos buscar inspiración?

Me encuentro en esa edad en que cada vez que desbloqueo mi smartphone, si no recibo un anuncio sobre la boda de un amigo, es porque se trata de un embarazo. No falla. Esto significa que cada vez más conversaciones a mi alrededor giran en torno a cómo educar a un hijo (o una hija). Un aspecto que me resulta especialmente llamativo es cómo por norma general, si bien los padres suelen contar con una idea más o menos clara sobre qué quieren para su descendencia a largo plazo – felicidad, salud, amor, dinero – nadie sabe a ciencia cierta qué reglas seguir en el día a día, o cómo premiar (y castigar) conductas que les acerquen (o les alejen) de esas metas finales.

En este sentido, y por sorprendente que parezca, educar a un niño y entrenar a un modelo de IA podrían tener algunas similitudes. Por ejemplo, imaginen lo absurdo que sería entregarle un libro escrito en chino a un joven, esperando que aprenda el idioma por sí mismo. Se necesitan incentivos a corto plazo, un sistema de recompensas, para guiar paulatinamente al niño en su progreso. E inventar tal sistema no es en absoluto trivial, como bien pudo comprobar el economista de la Universidad de Toronto Joshua Gans [1]. Padre de dos criaturas, ante los problemas para aprender a orinar en un retrete del hermano menor, los padres pensaron que sería una buena idea recompensar a la hermana mayor cada vez que ésta le ayudara a ir al baño. Craso error. La niña rápidamente se dio cuenta de que si forzaba a su hermano a beber agua de manera continua, inevitablemente las visitas al baño se multiplicarían. Ella sólo tenía que estar ahí para que la cantidad de caramelos que recibía por su “ayuda” creciera de manera exponencial.

Estos ejemplos son importantes para entender que los sistemas actuales basados en IA precisan de la definición de mecanismos análogos, y su diseño y selección siempre es motivo de estudio. Para tareas relativamente simples, como sugerirnos la siguiente serie a consumir dentro de un catálogo o reconocer los elementos presentes en una imagen, tras años de investigación hemos encontrado fórmulas que funcionan razonablemente bien. Sin embargo, a medida que se estrecha nuestra relación y dependencia con sistemas basados en IAs, cabe preguntarse qué criterios podríamos seguir para asegurar que esta tecnología, así como sus usos, no se vuelven en nuestra contra.

La incierta relación entre evolución y aprendizaje

Podríamos argumentar que la propia Naturaleza es la diseñadora perfecta de recompensas y castigos. A fin de cuentas, los ecosistemas constituyen escenarios donde todos los elementos están en perfecto equilibrio, si bien sea este cambiante. Cada uno de los individuos habitando el mismo buscan sobrevivir un día más y aumentar así sus opciones para reproducirse. No obstante, la interacción entre ellos y con su entorno regula la manera en que esto sucede. Y parece ser éste un mecanismo eficiente; A lo largo de millones de años, la evolución ha dado lugar a una biodiversidad increíble. Lástima que la valoremos tan poco.

La teoría de la evolución, propuesta por Charles Darwin a mediados del siglo XIX en su libro Sobre el Origen de las Especies, sugiere que los individuos nacen con características determinadas por su genética. Si estas se traducen en características físicas que le hacen estar mejor adaptado a su entorno, tanto mayor serán sus posibilidades de supervivencia. Nada habría que no estuviera controlado por los genes con que nacemos.

Sin embargo, ahora sabemos que esto no es cierto. Antes bien, la exposición a factores externos puede influir en la forma en que se expresan los genes. El genetista y embriólogo inglés Conrad H. Waddington (1905 — 1975) llevó a cabo una serie de experimentos para comprender cómo el entorno en que se desarrolla un organismo puede afectar a su genética [2]. Aplicando de manera selectiva calor en un determinado momento de la fase larvaria, Waddington era capaz de controlar si las moscas desarrollaban o no una vena concreta en sus alas. En otras palabras, pudo comprobar cómo factores externos, propios del ambiente en que un organismo se desarrolla, pueden regular la manera en que se expresan nuestros genes. Waddington plasmaría sus ideas al respecto en un libro de 1957 titulado The Strategy of the Genes [3], donde acuñó por primera vez el concepto de “paisaje epigenético” para referirse a los diferentes “caminos” que un gen podía tomar a la hora de expresarse en función de factores externos.

Su trabajo, así como de quienes le siguieron, ayudó a acercar las teorías darwinistas con enfoques como el de James Mark Baldwin (1861 — 1934). Baldwin postuló que las habilidades aprendidas durante la vida de un organismo podrían influir en su capacidad de adaptarse a su entorno, y que aunque estas habilidades no se transmitieran directamente a través de la herencia genética, podrían afectar la selección natural al influir en el comportamiento y las respuestas de los organismos ante desafíos ambientales. En consecuencia, se reforzaría la selección de características genéticas que respalden las habilidades aprendidas, lo que a su vez puede cambiar la dirección de la evolución en una población. Este efecto, bautizado en su honor como Efecto Baldwin [4], ha sido durante décadas fuente de innumerables discusiones entre la comunidad científica por la imposibilidad de comprobarlo experimentalmente. Y es que cualquier experimento que pretenda investigar procesos evolutivos requeriría de miles, sino millones de años para obtener resultados visibles.

Tuvimos que aguardar no sólo a la llegada de las simulaciones por ordenador, capaces de aproximar en cuestión de minutos sistemas que llevarían milenios, sino al desarrollo de sistemas computacionales mínimamente capaces de aprender, para poder retomar esta conversación con las herramientas adecuadas.

Simulando hábitats en una máquina

Geoffrey E. Hinton (1947) es apodado “el padrino de la IA”, y no precisamente por sus asociaciones con la mafia. Entre sus numerosos premios y reconocimientos, ha recibido el prestigioso Premio Turing en 2018, considerado el «Nobel» de la informática. Hinton es un pionero en el campo del aprendizaje automático y las redes neuronales artificiales, y mucho de lo que tenemos hoy a ese respecto se lo debemos directamente a él. Durante la mayor parte de su vida ha sido profesor en la Universidad de Toronto, y recientemente el público general conoció su nombre cuando renunció a su puesto en Google tras criticar duramente las decisiones tomadas por la compañía.

Este genio contemporáneo publicó en 1987 un artículo titulado “How Learning Can Guide Evolution” [5], cuyas primeras líneas rezan: “La suposición de que las características adquiridas no son heredadas es a menudo interpretada como que las adaptaciones que un organismo aprende a lo largo de su vida no pueden guiar el curso de la evolución. Esto es incorrecto”. El vivo retrato de la asertividad.

En este artículo, Hinton y su colaborador simularon por ordenador un escenario deliberadamente simple, pero que les servía para demostrar que el aprendizaje de un individuo podía ser casi tan valioso en el proceso evolutivo como la producción y evaluación (esto es, que naciera y se enfrentara a los desafíos ambientales) de un nuevo individuo. El modelo que proponen da cuenta de cómo la exploración de nuevos comportamientos (i.e., el aprendizaje de un organismo) amplía el espacio de búsqueda del proceso evolutivo, aumentando las posibilidades de que aparezcan rasgos favorables para la supervivencia. En otras palabras, si bien es cierto que los comportamientos aprendidos no cambian la genética de un modo directo, el comportamiento que se deriva sí que puede tener un impacto en la manera en que se expresan los genes, aumentando o disminuyendo con ello la probabilidad de que el organismo en cuestión se reproduzca. Además, si el comportamiento es beneficioso para la supervivencia se transmitirá mediante la interacción entre padres e hijos, reforzando con ello los comportamientos aprendidos y guiando la evolución.

Otro modelo interesante es el propuesto por David Ackley y Michael Littman en 1991 [6]. Estos investigadores crearon un modelo simplificado de hábitat, constituido por varios elementos: una población de presas, una población de depredadores, y recursos como comida y árboles. Estos últimos servían como refugio (por ejemplo, escalando) de las presas ante la proximidad de los depredadores. El ecosistema se definía así como una malla rectangular, asignando de manera aleatoria las posiciones iniciales de árboles, comida, presas y depredadores como puntos en dicha malla. A partir de estas condiciones, los investigadores pudieron observar cómo, modificando la capacidad para aprender estrategias de supervivencia de los individuos que componían la población de presas, aumentaba o disminuía su tasa de supervivencia.

En un primer momento, las presas no sabían cómo escapar de los depredadores, y rápidamente la población al completo moría. Hasta ahí, nada reseñable, más allá que incluso cuando algunos individuos eran capaces de sobrevivir, la mera adaptación evolutiva era demasiado lenta, y por tanto incapaz de dar respuesta al peligro a corto plazo que representaban los ataques de depredadores. Sin embargo, a medida que aumentaban poco a poco la capacidad de las presas para desarrollar estrategias defensivas, observaron que éstas aprendían, por ejemplo, a crear rebaños para protegerse mutuamente, o que se mantenían próximas a celdas con árboles, de tal manera que ante la presencia de un depredador pudieran encontrar refugio lo más rápidamente posible. Además, individuos nacidos en poblaciones que habían aprendido alguna de estas estrategias terminaban mostrando ese comportamiento como un “instinto”, un proceder innato desde su nacimiento. Es decir, el comportamiento aprendido durante generaciones anteriores terminaba traduciéndose en modificaciones “genéticas” que tenían un efecto similar.

A la vista de estos resultados, podríamos empezar a pensar que contamos con cada vez más indicios que apuntan a que, si bien los rasgos adquiridos (o aprendidos) en efecto no se transmiten de una manera directa, sí que impactan en la manera en que nos relacionamos con el entorno, y por tanto en cómo se expresan nuestros genes y qué tan bien se transmiten éstos a nuestra descendencia.

De la teoría a las decisiones

Pero las lecciones que podemos extraer no terminan ahí. En efecto, ésta es una línea de investigación fascinante, en tanto en cuanto podemos emplear modelos computacionales para simular en cuestión de minutos ecosistemas de creciente complejidad, que se extienden en muchos casos a lo largo de miles de años. En la era del Antropoceno, donde cada año desaparecen entre 200 y 2000 especies según estimaciones de la WWF sin que nadie parezca tener la clave para ponerle coto a este drama, una mejor comprensión de cómo la propia Naturaleza genera los estímulos suficientes y necesarios para mantener ecosistemas vivos y siempre cambiantes puede ayudarnos a diseñar mejores estrategias de conservación.

Creo asimismo que en estos estudios subyace una lectura especialmente relevante de cara a la IA. Hasta ahora, las herramientas basadas en esta tecnología estaban ciertamente limitadas en su aplicabilidad. Se desarrollaban algoritmos concretos que dieran respuesta a desafíos particulares, con condiciones de contorno muy bien definidas. Pero con la irrupción de sistemas de IA Generativa mainstream, como el modelos de lenguaje GPT-4 (la base del archiconocido ChatGPT), nuestra interacción con ellos es cada vez mayor y menos restringida a un tipo de contenido, hasta el punto de que pronto tendremos que considerar a estos sistemas como un habitante más de tantos de nuestros propios “ecosistemas digitales”. Ante este escenario, cabe preguntarse, ¿qué aprenderán estos modelos en su continua interacción con nosotros?

Comenzábamos este artículo hablando de lo complejo que resulta educar a un hijo. Quizás la clave esté en tener claro qué valores morales y éticos queremos que conformen su personalidad cuando sea adulto, y estar con ellos durante su crecimiento, apoyándolos en la dirección correcta cuando lo necesitan. Quizás sea este el momento de la Historia en que debamos plantearnos cuestiones similares con respecto a nuestras máquinas. Después de todo, ¿quién sabe cómo criar a un hijo?

 

Ricardo Kleinlein, Ph.D.

Post-Doctoral Research Fellow
Brigham & Women’s Hospital, Harvard Medical School

Referencias
[1]: Joshua Gans, Parentonomics, Cambridge MIT Press (2010).
[2]: Slack, J. Conrad Hal Waddington: the last Renaissance biologist?. Nat Rev Genet 3, 889–895 (2002).
[3]: Waddington, C. H. The Strategy of the Genes, Geo Allen & Unwin, London (1957).
[4]: Cairns, R. B. The making of a developmental science: The contributions and intellectual heritage of James Mark Baldwin. Developmental Psychology, 28(1), 17–24 (1992).
[5]: Hinton, Geoffrey E. and Steven J. Nowlan. “How Learning Can Guide Evolution.” Complex Syst. 1 (1996).
[6]: Ackley, David H. and Michael L. Littman. “Interactions between learning and evolution.” (1991).

Educational Pitch de Foro de Foros

Nuestro principal objetivo es dotar de conocimiento a la sociedad civil siendo puente para el diálogo

Descargar

Compartir :

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Alguna pregunta?

Para más información sobre lo que hacemos, ponte en contacto con nosotros.

¡Gracias!

Sin la colaboración de todos ellos, Foro de Foros no sería posible.

Próxima actividad:

Beers & Movies

25 de junio

Cines Verdi

Días
Horas
Minutos