Sam ha llevado un casco con sensores y cámara entre los 6 y los 25 meses. No siempre estaba activo. Se grabaron 61 horas de la vida del niño, en las que estuvo expuesto a 250 000 palabras. Así ha sido como Sam ha servido para enseñar a hablar a las inteligencias artificiales.

Los bebés aprenden a hablar a una velocidad pasmosa. Antes de cumplir un año dicen su primera palabra y a los tres ya se defienden en el día a día con su lengua materna. Son la envidia de muchos adultos que quieren aprender un nuevo idioma y tardan mucho más en llegar a ese nivel, si lo consiguen. Y también son un modelo a seguir para la inteligencia artificial, que necesita muchos más datos para aprender un idioma. Por eso un equipo de investigadores de la Universidad de Nueva York ha metido sus algoritmos en la piel de un bebé, Sam, para ver lo que son capaces de aprender. No literalmente, claro: lo han hecho enseñándole al sistema vídeos grabados desde la perspectiva del niño, usando un casco con cámara.

Los resultados del estudio muestran que el sistema aprende palabras relacionándolas con las cosas que el niño ve y escucha en su vida diaria. Es un avance para construir inteligencias artificiales que aprendan de forma más eficiente y similar a como lo hacemos las personas.

 

La ambigüedad, el sarcasmo y los chistes

 

Las lenguas naturales (como el español o el inglés) son formas de comunicación que las personas desarrollamos espontáneamente. Esto las diferencia de las lenguas artificiales, como los lenguajes de programación o el lenguaje matemático, creadas a propósito para un fin.

Normalmente, en las lenguas artificiales todo tiene un significado único que no admite discusión: si decimos 1+1=2, no hay duda de qué queremos decir. Pero esto no es así en las lenguas naturales: si decimos “nos vemos en el banco”, ¿hemos quedado en un asiento del parque o donde guardamos el dinero? La ambigüedad hace que las lenguas naturales sean especialmente difíciles para las máquinas. También por eso los chistes, la poesía y el sarcasmo dan problemas a los ordenadores.

 

Desde la Guerra Fría

 

Ya en la década de los 50 surgió el interés por que los ordenadores pudieran trabajar con lenguaje humano (por ejemplo, el Experimento Georgetown, para traducir entre inglés y ruso, de gran interés en la Guerra Fría).

Para lograrlo, lingüistas e informáticos describían la estructura del idioma escribiendo reglas sintácticas, basadas en las teorías de Chomsky. Por ejemplo, una regla podría decir: una oración se compone de sujeto (que va primero) y predicado (que va después). Pero podían hacer falta miles de reglas.

Eran sistemas muy limitados: no resolvían bien la ambigüedad porque no tenían en cuenta el contexto.

 

La limitación de aprender para una única función

 

En los años 80 se produjo un avance importante con el uso de algoritmos de aprendizaje automático. Son algoritmos que aprenden mediante ejemplos como este: para traducir entre inglés y ruso, les damos miles de textos en inglés y sus traducciones al ruso. A partir de ahí, se las arreglan para detectar patrones y aprender por sí mismos a traducir textos nuevos. Esto hace su desarrollo más fácil (es más sencillo conseguir ejemplos que escribir una gramática) y mejora los resultados, porque pueden tener en cuenta el contexto. Pero mantiene una limitación: cada algoritmo así construido solo vale para una cosa. Por ejemplo, un sistema de traducción solo traduce, no puede resumir textos o responder preguntas.

 

Los grandes modelos de lenguaje como ChatGPT

 

El siguiente gran salto se dio a finales de la década de 2010: surgieron los grandes modelos de lenguaje, la base de ChatGPT.

Son sistemas que aprenden a predecir qué palabra es más probable que venga después. Por ejemplo, a partir de “los Estados Unidos de”, un modelo de lenguaje podría predecir “América”. Si después le pedimos que añada otra palabra, y otra, será capaz de generar un texto coherente. Para lograrlo basta con enseñarles muchos textos, por ejemplo descargados de Internet.

 

¿Cuál es la utilidad de predecir la siguiente palabra?

 

Los propios creadores de estos sistemas no lo imaginaban hasta que los vieron en acción. Para sorpresa de todos, al mejorarlos entrenándolos con más y más texto vieron que podían responder a preguntas y llevar a cabo tareas variadas, como traducir, resumir o incluso escribir de forma creativa. Son habilidades emergentes: capacidades que los algoritmos de IA adquieren al hacerse más grandes y contar con más datos.

Nadie sabe muy bien cómo funcionan, y, de hecho, hay debate sobre si de verdad estos sistemas entienden algo. Algunos científicos defienden que actúan como simples loros, imitando el lenguaje humano sin entender ni una palabra. Otros dicen que, a pesar de basarse en estadísticas sobre el texto que han visto, sí son capaces de entender su significado.

Estos grandes modelos ya no están limitados a una tarea, pero traen problemas nuevos. Para entrenar un modelo como el último ChatGPT se usan billones de palabras, una cantidad descomunal de texto. Esto requiere ordenadores de gran potencia y memoria, algo solo al alcance de grandes empresas tecnológicas. Y encima, consumen mucha energía y contaminan.

 

Aprender como un bebé

 

Esto nos lleva de vuelta a Sam. Los niños solo escuchan unas decenas de millones de palabras en sus tres primeros años de vida, muchísimas menos que ChatGPT. Con eso les basta para defenderse en su idioma.

¿Por qué los sistemas de IA necesitan muchos más datos? Una de las claves es que los bebés pueden asociar las palabras con objetos y experiencias. Al señalar una pelota diciendo “pelota”, les ayudamos a saber qué significa la palabra. Los sistemas como ChatGPT no tienen esa ayuda, se las arreglan con los textos en bruto.

De ahí la relevancia del experimento con Sam. ¿Puede una IA aprender el lenguaje como lo hacen los bebés? Los resultados son prometedores y podrían llevar, en el futuro, a sistemas que necesiten muchos menos datos, energía y emisiones que los actuales.