La IA ayuda a Duolingo a personalizar el aprendizaje de idiomas

Usar la IA para enseñar a 300 millones de personas

Aprender un idioma extranjero fue probablemente uno de sus objetivos del año pasado. Y el año anterior, y el anterior. Igual sucede con los gimnasios... Nuestros mejores propósitos no suelen durar mucho. Además de que para dominar un idioma nuevo hace falta dedicarle mucho tiempo, la mayoría consideran difíciles los métodos de aprendizaje convencionales. Incluso muchas herramientas lingüísticas basadas en la web pueden resultar monótonas y complicadas.

La startup Duolingo, con sede en Pittsburgh, está cambiando todo eso gracias a su plataforma de aprendizaje de idiomas basada en IA. La empresa llega a más de 300 millones de usuarios con más de 32 cursos de idiomas, desde francés y tamil hasta lenguas en peligro de extinción como el hawaiano y el navajo.

Lo que hace diferente a Duolingo es su enfoque de aprendizaje personalizado, que gamifica la experiencia de aprendizaje a través de un sistema de recompensas basado en puntos para mantener a los usuarios motivados y avanzando hacia el dominio. El Departamento de Estado de Estados Unidos calcula que se necesitan 600 horas para aprender un idioma de categoría uno, como el francés o el italiano. Duolingo espera que lo consigan con tan solo 15 minutos al día.

Los usuarios comienzan con la prueba de nivel adaptativa de Duolingo, basada en la inteligencia artificial, que los examina con ejercicios reales que harían durante el curso, de modo que si han estudiado cuatro años de francés en el instituto, no tienen por qué empezar por el principio del curso más básico. Cada pregunta o reto de la prueba se elige de forma adaptativa en función de la pregunta anterior y de si la han respondido correctamente o no.

«La dificultad de las palabras, la gramática y la forma en que se lo presentamos en la prueba influyen para elegir la configuración exacta, de modo que en menos de cinco minutos tengamos una idea realmente clara de por dónde va a empezar el curso», explica Burr Settles, Research Director en Duolingo.

Utilizando un concepto llamado repetición espaciada, las lecciones de idiomas están diseñadas para que los usuarios practiquen tareas personalizadas en intervalos cada vez más largos, lo que ha demostrado ser más eficaz que estudiar mucho en un periodo corto de tiempo.

A medida que el usuario adquiere más destreza, interactúa con el contenido de distintas maneras. Por ejemplo, Duolingo lleva un registro de cuántas veces ha visto el usuario cada palabra del plan de estudios, cuántas veces la ha acertado, los modos en los que la ha acertado y cuánto tiempo ha pasado desde que la practicó.

«Gracias a la IA podemos predecir en un momento dado la probabilidad de que el usuario pueda recordar esa palabra en un contexto determinado», explica Burr. «Y podemos darle lo que necesita para seguir practicando en el momento exacto en que lo necesita».

«Podemos darle al usuario lo que necesita para seguir practicando en el momento exacto en que lo necesita».

Burr Settles
Research Director
Duolingo

«Podemos darle al usuario lo que necesita para seguir practicando en el momento exacto en que lo necesita».

Burr Settles
Research Director
Duolingo

El aprendizaje detrás del idioma

Para habilitar esta IA, Duolingo utiliza el aprendizaje profundo, un subconjunto de la IA y el machine learning que utiliza redes neuronales para imitar el comportamiento del cerebro, analizar rápidamente los datos y hacer predicciones inteligentes. Mediante algoritmos de aprendizaje profundo para el procesamiento del lenguaje natural, la empresa puede analizar los datos de registro de los usuarios para predecir la probabilidad de que contesten correctamente. Estas predicciones son la base para personalizar tanto la prueba de aprendizaje adaptativo como el contenido de la aplicación de aprendizaje.

Pero este no fue el principio. La empresa se originó en 2009 con un proyecto de traducción de la Universidad Carnegie Mellon (CMU) llamado Monolingo. El objetivo era enseñar a los usuarios un idioma extranjero haciéndoles traducir documentos como artículos de Wikipedia o sitios de noticias. Por aquel entonces, Monolingo (e incluso los inicios de Duolingo) utilizaban algoritmos más tradicionales de la ciencia cognitiva. Por ejemplo, los algoritmos de referencia utilizaban parámetros elegidos a mano, lo que significa que no aprendían necesariamente de datos reales. A medida que los investigadores de Duolingo probaban varios enfoques con los usuarios, se hizo evidente que para el nivel de personalización que buscaban eran necesarios modelos de machine learning más sofisticados y personalizados.

«Se trata de una problemática muy específica, por lo que hemos tenido que inventarlo todo desde cero», afirma Burr. «Es un ciclo de vida normal para estos casos de uso probar primero un enfoque cognitivo rudimentario para empezar a recopilar datos y, una vez que los tienes, empezar a perfeccionarlos con aprendizaje profundo».

Para desarrollar estos algoritmos personalizados (todo, desde el reconocimiento del habla no nativa hasta la clasificación para la puntuación automatizada), Duolingo utiliza el marco de aprendizaje profundo PyTorch en Amazon Web Services (AWS). Estos modelos de aprendizaje profundo se entrenan y luego se implementan en producción utilizando instancias P3 de GPU de alto rendimiento de Amazon EC2. La velocidad y la escalabilidad son esenciales para el entrenamiento, ya que los modelos pueden utilizar entre 100 000 y 30 millones de puntos de datos a la vez, dependiendo del problema, para hacer más de 300 millones de predicciones cada día.

«Utilizaremos una ventana deslizante porque para entrenar nuestros modelos basta con dos semanas de recopilación de datos, dado el número de usuarios, pruebas e idiomas», afirma Burr. Para administrar canalizaciones de datos para el machine learning, la empresa utiliza Amazon DynamoDB para la administración de datos, Amazon EMR con Amazon EBS como almacenamiento temporal, Amazon S3 para el almacenamiento permanente y Spark para realizar cálculos para predicciones periódicas por lotes.

Además, para dar vida a sus aplicaciones, Duolingo utiliza Amazon Polly, una herramienta de conversión de texto a habla impulsada por aprendizaje profundo que se integra fácilmente en sus aplicaciones, para dar voz a la prueba y a numerosos cursos.

Al utilizar estas herramientas de aprendizaje profundo, la empresa observó una mejora tanto en la precisión de las predicciones como en la participación de los usuarios. El número de usuarios que utilizaron Duolingo y volvieron el segundo día mejoró inmediatamente en un 12 %.

Burr y el equipo de Duolingo siguen probando nuevas posibilidades con el aprendizaje profundo, explorando modelos para la seguridad de las pruebas, la detección de fraudes, la biometría y la comprensión del contexto. Por ejemplo, puede que el usuario se equivoque en una pregunta, pero que no esté muy claro por qué. ¿Se equivocó porque olvidó la palabra? O quizás porque la conjugó de manera incorrecta.

«No siempre está claro cuál fue la causa a partir de la señal que recibimos», afirma Burr. «Queda mucho por hacer en materia de IA».

A medida que Duolingo mejora su oferta lingüística mediante el aprendizaje profundo, es posible que pueda tachar al menos un objetivo de sus propósitos de Año Nuevo.

Kia usa el aprendizaje automático para reducir el número de víctimas en accidentes automovilísticos

Más información »

TuSimple utiliza aprendizaje automático para entrenar semirremolques con conducción autónoma

Más información »

GE Healthcare ofrece un servicio sanitario de mayor calidad gracias el aprendizaje automático

Más información »

Zocdoc utiliza la IA para fomentar la confianza de los pacientes

Más información »