No soy un experto en el tema pero tengo algunos antecedentes.
En Inteligencia Artificial hay algo llamado ‘Aprendizaje de refuerzo’, que es una técnica para reforzar (recompensar) las cosas correctas que hace el programa de computadora durante la simulación y evitar el mal. En términos generales, el programa de computadora está escrito de una manera que le da las reglas básicas (cómo avanzar, por ejemplo) y el objetivo final (ganar juegos o acumular puntos, por ejemplo). Cuando el programa se ejecuta por primera vez, utiliza estas reglas para hacer algo al azar solo para obtener comentarios del entorno. cuando el programa pierde, prueba diferentes parámetros aleatorios. cuando pierde de nuevo, compara los viejos con los nuevos para extraer solo las acciones correctas y evitar las acciones incorrectas. Sigue haciendo esto hasta que obtenga la máxima recompensa posible en el juego. La ventaja de esta técnica es que cuanto más fuerte es el oponente, más fuerte se vuelve el programa de computadora. Básicamente, el programa extraerá todas las cosas que hizo bien en todos sus juegos antes y descartará todo lo incorrecto. Para entender más, mire este video que muestra cómo un robot araña aprende a caminar después de que le rompen la pierna:
Si quieres saber más sobre el tema, aprende sobre algoritmos de evolución. El algoritmo de evolución más popular es el algoritmo genético que se utiliza para el aprendizaje de bots de juegos y muchas otras cosas. Además, creo que el bot OpenAI se basa en este algoritmo, pero no estoy seguro.
- ¿Scott Fahlman (y el Grupo de Investigación Scone) sigue desarrollando activamente Scone?
- Con un buen traductor automático, ¿debería lograrse el equilibrio mediante la primera ronda de inversión?
- ¿Cuánto le ayudaría la Maestría en Inteligencia Artificial de la Universidad de Edimburgo a conseguir un trabajo en el sector privado como científico de datos?
- Cómo interpretar los resultados de la red neuronal
- ¿Es mejor quedarse con el aprendizaje automático o pasar al aprendizaje profundo?