Esencialmente, el sistema depende de prueba y error cuando aprende a jugar, por lo que necesita algún tipo de retroalimentación desde el principio. Un humano miraría el primer nivel y se daría cuenta de que el objeto ‘clave’ es deseable, mientras que el cráneo rodante y la caída de la plataforma son probablemente peligrosos y planean en consecuencia. La IA no planifica una ruta a la clave de la manera en que lo haría un humano, por lo que está atascado cometiendo los mismos errores una y otra vez. Los objetivos del juego son mucho más abstractos que los invasores del espacio, por ejemplo, en los que el agente es sobrehumano. Los invasores espaciales pueden dividirse en colisiones entre ciertos sprites que son “buenos” y colisiones entre otros que son “malos”. Los invasores espaciales no requieren ninguna planificación a largo plazo y es fácil disparar al menos a un invasor mediante una combinación aleatoria de botones, por lo tanto, es fácil para el agente “aprender”.
Este video explica y demuestra el problema:
- ¿La inteligencia artificial se hará cargo de la industria financiera y bancaria?
- ¿Cuál es la mejor inversión AI o sostenibilidad?
- ¿En qué está capacitada la IA para que los humanos no lo sean, y viceversa?
- ¿En qué circunstancias se debe aprender el lenguaje de programación Prolog?
- ¿Cómo calculo un "Probabilidad de pertenecer al género XYZ" -Score para pistas de música usando WEKA?