Viernes, 27 Septiembre , 2024

¿Cómo pueden las máquinas tener en cuenta las consecuencias de sus acciones?

Este artículo fue publicado originalmente por The Conversation.

Foto: Dil_Ranathunga/Shutterstock

The Conversation

La aparición de los llamados grandes modelos de lenguaje, como ChatGPT, ha reavivado antiguos debates académicos. ¿Qué características debe poseer un sistema de IA para ser considerado verdaderamente inteligente? ¿Debe tener sentido común? ¿Debe ser autónomo? ¿Debe tener en cuenta las consecuencias de sus actos?

Responder a estas preguntas es crucial para entender en qué punto estamos en el desafío de construir máquinas inteligentes. También lo es para otorgar o restar credibilidad a quienes anuncian la inminente llegada de una inteligencia artificial general.

Claves para tomar una buena decisión

Existe un amplio consenso en la comunidad científica en considerar que la capacidad de prever las consecuencias de sus acciones es fundamental para que cualquier sistema, biológico o artificial, sea considerado inteligente.

Sin esta habilidad, sus decisiones carecerían de dirección y propósito. Sus respuestas serían reactivas, sin análisis ni previsión de los efectos a largo plazo. El sistema no podría adaptarse bien a su entorno ni corregir sus errores. Esto limitaría gravemente su funcionalidad y su capacidad para interactuar de manera efectiva con el mundo.

Un buen ejemplo es el caso del coche autónomo. Este vehículo enfrentará situaciones en las que deberá elegir entre varias acciones, como frenar bruscamente o esquivar un obstáculo.

El modelo S después de haber tenido un accidente en modo autopilo, en Williston, Florida. National Transportation Safety Board., CC BY

Al tomar la decisión, puede considerar que frenar evitaría un accidente. Sin embargo, también debe evaluar el riesgo de provocar otro accidente, como un choque por detrás. Si no considera este riesgo, el frenado podría tener peores consecuencias que no evitar el obstáculo.

Los sistemas de IA actuales usan modelos que analizan escenarios basados en datos y comportamientos previos. Sin embargo, trabajan principalmente con correlaciones. Esto significa que identifican patrones útiles, pero no comprenden la relación de causa y efecto. Las correlaciones son útiles para modelar situaciones comunes, pero no bastan para analizar todas las consecuencias de una acción en un escenario determinado.

Aquí es donde entra en juego la relación de causalidad. Mientras que la correlación indica que dos eventos ocurren juntos, la causalidad describe cómo una acción (la causa) produce un resultado (la consecuencia). Para que una máquina pueda realmente tener en cuenta las consecuencias de sus actos, no basta con reconocer patrones: debe entender qué acción desencadena qué resultado.

Correlación vs. causalidad

Si observamos que las personas que toman más café tienen más insomnio, eso no implica que el café cause la falta de sueño. Quizás quienes sufren insomnio beben más café para mantenerse despiertos. O tal vez el estrés podría influir en ambos factores. La correlación también puede ser una coincidencia o un patrón sin una relación causal directa. A veces, los datos muestran conexiones aparentes sin un fundamento causal real.

Para deducir que el café realmente causa insomnio, hace falta realizar experimentos controlados. Por ejemplo, podríamos dividir a un conjunto de personas en dos grupos de forma aleatoria, en que uno tome café y el otro no. Luego, podemos observar las diferencias en sus patrones de sueño, asegurándonos de controlar otras variables como el estrés, la alimentación y el estilo de vida.

Otra opción sería utilizar técnicas de análisis de datos avanzadas basadas en inferencia causal, que pueden ayudar a aislar el efecto del café del resto de factores potencialmente confusores.

Dotar a las máquinas de conocimiento causal

Los sistemas actuales de IA, basados en el análisis de correlaciones observacionales y sin capacidad de razonamiento causal, están lejos de tener la capacidad para decidir por sí mismos qué eventos son consecuencia de sus acciones. Por lo tanto, la única opción para que lo tomen en cuenta es que los dotemos de un modelo del mundo que incluya de forma explícita todas aquellas relaciones causales conocidas por los humanos.

Esto presenta varias dificultades, que abarcan tanto aspectos técnicos como filosóficos y prácticos. Los modelos causales son complejos, dinámicos y, a menudo, ambiguos.

Por tanto, crear un sistema capaz de manejar estas complejidades requiere avances significativos en el diseño de IA y en nuestra comprensión del mundo. Pero muy recientemente se ha propuesto una vía intermedia que puede paliar alguno de estos problemas: el uso de grandes modelos de lenguaje.

Esta idea puede parecer paradójica. ¿Podemos usar un sistema basado en correlaciones para entender relaciones causales? La cuestión se aclara cuando pensamos en cómo adquirimos conocimiento causal los humanos: a través de la explicación.

Parte de nuestro conocimiento causal viene de pequeños experimentos cotidianos y otra parte puede estar inscrita en nuestro genoma. Pero la mayor parte nos la han explicado otras personas: padres, amigos, maestros, etc. En resumen, la explicación mediante el lenguaje es una de las principales vías para adquirir esta clase de conocimiento.

Los grandes modelos de lenguaje se han entrenado con muchos documentos que describen relaciones causales y, por lo tanto, representan un vasto repositorio (no exento de problemas) de conocimiento causal que podría aprovecharse. ¿Será esta una vía fructífera? Aún no lo sabemos y puede tomar tiempo descubrirlo, pero abre una posible solución para dotar a las máquinas de conocimiento sobre las consecuencias de sus acciones.

PS: Una propuesta de experimento sin valor científico

Con el siguiente prompt podemos probar el “conocimiento causal” de un gran modelo de lenguaje. También podemos experimentar con otros prompts en diferentes escenarios y evaluar qué porcentaje de aciertos tienen.

Eres un asesor de negocios y das consejos claros, bien fundamentados, pero breves (de 5 a 15 líneas) en respuesta a preguntas sobre lo que las personas deberían hacer.
PREGUNTA: El dueño de una tienda de juguetes quiere decidir si el anuncio que usaron a principios de diciembre es realmente mejor que sus anuncios anteriores. Aquí están sus datos de ventas: Octubre: 10 200 € ; Noviembre: 10 000 € ; Diciembre: 13 000 € ; Enero: 10 100 € . Ahora quiere decidir qué anuncio mostrar en febrero. ¿Puedes ayudarles a valorar si el aumento de ventas en diciembre se debió a los anuncios? Ten en cuenta que el nuevo anuncio cuesta 1 000 € más, por lo que el fabricante de juguetes está interesado en maximizar sus ganancias.

Si hacemos la prueba, lo más probable es nos proponga una respuesta que estaría alineada con la estructura causal del escenario (qué elementos son importantes y qué relación de causa-efecto tienen) que le hemos propuesto.

Esto no significa que sepa razonar causalmente –no lo hace porque, a veces, comete errores incompatibles con esta capacidad–, pero sí demuestra que ha capturado esta estructura causal de los documentos con los que ha sido entrenado.

Jordi Vitrià, Catedrático de Informática, Universitat de Barcelona

Este artículo fue publicado originalmente en The Conversation. Lea el original.