Aprendizaje por Refuerzo en la Inteligencia Artificial
Durante los últimos años, la utilización de técnicas en la inteligencia artificial (IA) para ayudar a la solución de problemas reales ha crecido enormemente debido al éxito encontrado con el uso de las redes neuronales.
Por Robert Yates, CEO de Alternativas en Computación
Durante los últimos años, la utilización de técnicas en la inteligencia artificial (IA) para ayudar a la solución de problemas reales ha crecido enormemente debido al éxito encontrado con el uso de las redes neuronales. Algunas áreas en donde se han logrado resultados significativos incluyen el reconocimiento de voz, reconocimiento facial, ubicación de objetos indeseados, automanejo de vehículos, automatización de transacciones bursátiles y diagnóstico médico. Se pronostica que el uso de estas aplicaciones se expanda durante los próximos años hasta tocar cada aspecto de nuestras vidas cotidianas.
En la mayoría de los casos, se emplean redes neuronales que tienen que aprender una tarea específica y existen una variedad de métodos que se han desarrollado para lograr este tipo de aprendizaje. El método más común es el aprendizaje supervisado que consiste en presentar un conjunto de ejemplos previamente calificados por seres humanos. La red neuronal va ajustando sus parámetros internos hasta lograr un alto porcentaje de éxito con los ejemplos presentados. Después se tiene que verificar su aprendizaje con ejemplos nuevos que no incluyen los casos utilizados durante el aprendizaje original. El aprendizaje supervisado es muy utilizado en el reconocimiento de imágenes y voz, así como en un diagnóstico médico.
Otro método utilizado se llama aprendizaje por refuerzo en donde la computadora aprende a escoger una de varias acciones posibles para lograr el mejor resultado. En un juego de mesa, por ejemplo, la computadora buscaría el mejor movimiento, dentro de todos los movimientos posibles, para poder ganar al contrincante. En un vehículo de automanejo, la computadora, como chófer del vehículo, efectuaría movimientos sobre el volante, freno y acelerador en cada momento para llevar el vehículo a su destino de manera segura.
De una manera más formal, se puede frasear el aprendizaje por refuerzo en términos de un agente que interactúa con un ambiente representado por un estado dentro de un conjunto de estados posibles. En un juego de mesa, el estado sería una representación del tablero del juego, por ejemplo. El agente cuenta con una seria de posibles acciones para cada estado. Al escoger una acción, se efectúa y el ambiente cambia y le devuelve un estado nuevo y una remuneración (positiva o negativa) por haber llegado a este estado nuevo. El objetivo del agente, entonces, es buscar las acciones que le dejan la máxima cantidad de remuneraciones durante la duración de la experiencia. En otras palabras, el agente intenta encontrar la mejor política de escoger acciones en diferentes estados del ambiente para optimizar la valuación del estado que corresponde a la totalidad de esas remuneraciones.
La empresa de inteligencia artificial Deep Mind, ahora de Google, empleó estas técnicas con mucho éxito primero con los juegos de video de Atari y después con un programa nuevo, AlphaGo para jugar Go, un juego de mesa oriental más complejo que el ajedrez. Tanto con los juegos de Atari así como con el juego de Go, el resultado del aprendizaje por refuerzo de Deep Mind superó a los mejores seres humanos en esos juegos. Los logros obtenidos con el manejo de vehículos sin chófer también utilicen estos métodos y su incidencia de accidentes es considerablemente menor a los choferes humanos.
Por la gran generalidad de aplicabilidad de estas técnicas y el constante progreso de la inteligencia artificial a problemas cada vez más complicados, se prevé un gran futuro para la utilización del aprendizaje por refuerzo en conjunto con las redes neuronales.