¿Cómo evitan los programas de aprendizaje automático / IA la trampa de quedar encerrados en una forma de hacer algo una vez que han encontrado un método exitoso para completar una tarea? ¿Pueden calcular otras soluciones competidoras en paralelo?

Desde una perspectiva de aprendizaje por refuerzo, este es el problema de la compensación de exploración versus explotación. ¿El agente sigue explotando una solución aceptable (en el marco de RL, esta es una política) para maximizar sus recompensas o debería explorar algunas otras políticas que podrían ser aún mejores?

Este problema es especialmente importante en problemas con señales de recompensas muy escasas, como un juego de atari llamado venganza de Montezuma. Un método de exploración como épsilon codicioso (donde el porcentaje de épsilon del tiempo, el agente tomará una acción aleatoria para tratar de explorar) no tiene remedio para resolver el problema, ya que el juego requiere una secuencia muy larga de acciones precisas para pasar incluso el primer nivel (suba escaleras, evite los emenies, recoja la llave, suba algunas escaleras más, salte a través de plataformas, finalmente abra la puerta a la siguiente área). Los métodos de exploración no dirigidos, como el épsilon codicioso, no pueden resolverlos.

Para superar esto, se han desarrollado métodos de exploración dirigida que pueden resolver estos problemas de alguna manera, como la exploración de psedo-count (mantenga una estimación de pseudo-count de qué estados y cuántas veces ha sido antes, y asigne una alta recompensa por los estados eso tiene bajo psedo-count, que en valor el agente para ir a nuevos estados nuevos).

Unificación de exploración basada en conteo y motivación intrínseca

Un estudio de exploración basada en conteo para el aprendizaje de refuerzo profundo

Como es de esperar, este es uno de los muchos problemas cruciales difíciles en el aprendizaje por refuerzo que aún debe resolverse.

En un desafío típico de Kaggle, diferentes participantes presentan diferentes soluciones de LD . El que tenga la mejor puntuación gana en el desafío. Posteriormente, sin embargo, otras buenas soluciones no ganadoras, así como la solución ganadora, se vuelven populares. Los extraños no quedan atrapados en la solución ganadora.

En algunos casos, mediante el uso de Pruebas de hipótesis estadísticas o Principio de inducción matemática, puede ser posible probar si una solución es una solución local o una solución global.

En general, si se sabe que una solución es una solución local en lugar de una solución global, el proveedor de la solución establece el alcance y la limitación de la solución. Los usuarios de la solución también se preocupan por revisar su alcance y limitación.

Luego, hay varios métodos de conjunto, en los que se prueban varios submétodos en paralelo, y el promedio de los resultados de los submétodos se presenta como el resultado del método.

Evitar trampas de sobreajuste

Chomba dio una excelente respuesta, y ahora pintaré una imagen en la que verán cómo se puede lograr el “miminum global” en la práctica.

Una trampa que los modelos ml tienden a encontrar se llama sobreajuste. El ajuste excesivo ocurre cuando el modelo funciona bien en los datos de entrenamiento (es decir, hace algunas buenas predicciones basadas en los datos de entrenamiento), pero hace mucho menos bien (produce malas predicciones) en algún criterio de datos de prueba previamente no visto; es decir, el error de entrenamiento (del entrenamiento en algunos ejemplos en el conjunto de entrenamiento) está disminuyendo en una pendiente negativa, mientras que el error de validación (del entrenamiento en ejemplos no vistos en el conjunto de entrenamiento) está aumentando en una pendiente positiva.

De esta manera, se dice que el modelo está aprendiendo demasiados parámetros (representaciones aprendidas) en relación con los ejemplos de entrenamiento.

Como solución, los modelos de aprendizaje pueden beneficiarse del uso de varias técnicas. (por ejemplo, validación cruzada, regularización, detención temprana, poda, antecedentes bayesianos sobre parámetros, comparación de modelos o abandono)

Cálculo de soluciones competitivas en paralelo (un ejemplo)

La red de confrontación generativa se refiere a generar representaciones aprendidas competitivas .

Este es un tema avanzado; se puede resumir como aplicando teoría de juegos , a través de métodos similares a min max mientras se configuran modelos opuestos para minimizar alguna pérdida máxima posible en un escenario en el que un modelo genera algo de espacio aprendido, mientras que el otro discrimina el espacio mencionado anteriormente, para evaluar la cercanía a los ejemplos de entrenamiento. ( En palabras más simples, el discriminador exige que las representaciones aprendidas de la red del generador se acerquen cada vez más a los ejemplos de capacitación)

Siraj es probablemente el mejor maestro de aprendizaje profundo en YouTube (y lo hace otros temas aparte del aprendizaje profundo también).

Echa un vistazo al video de gan de Siraj a continuación:

Redes Adversarias Generativas – Aprendizaje Automático Fresco # 2

Analicemos la pregunta:

¿Cómo evitan los programas de inteligencia artificial (IA) / aprendizaje automático (ML) la trampa de encerrarse en una forma de hacer algo una vez que encuentran un método exitoso para completar una tarea?

  • En primer lugar, los modelos actuales de IA / ML aprenden mediante la optimización de un objetivo. El objetivo normalmente se denomina función de costo y, por lo tanto, debe minimizarse. Entonces, los modelos AI / ML buscan el punto más bajo en la superficie de error definido por la función de costo. El método de aprendizaje se asentará naturalmente en una posición de equilibrio donde los gradientes se vuelvan cero o en cualquier dirección en que los métodos de aprendizaje intenten ajustar los pesos que resulten en un mayor costo. Este punto más bajo puede ser un mínimo global o mínimos locales.
  • En segundo lugar, los modelos AI / ML, una vez que encuentran un punto más bajo en la superficie de error, si es lo suficientemente profundo, no podrán escapar de él y si la superficie de error es convexa, entonces solo hay un mínimo y, por lo tanto, el modelo seguirá encontrando las mismas soluciones una y otra vez, independientemente del punto de inicialización. Sin embargo, en realidad, las superficies de error son fuertemente no convexas con muchas trampas mínimas locales. Esas trampas mínimas locales son soluciones “alternativas”.
  • En tercer lugar, los modelos AI / ML actuales no encuentran “métodos”, solo ajustan los pesos para asignar la entrada a una salida lo más correctamente posible. Es equivalente a encontrar una función de mapeo que mejor satifique el objetivo. Los modelos ML no presentan algoritmos para resolver problemas, no presentan un algoritmo de clasificación cuando se les da un problema de clasificación, por ejemplo. De hecho, un modelo de ML puede encontrar extremadamente difícil encontrar un algoritmo de clasificación simple o un algoritmo para la multiplicación de números.

¿Son capaces de calcular soluciones competitivas en paralelo?

  • Los métodos AI / ML encontrarán diferentes puntos mínimos locales basados ​​en tener diferentes puntos de inicialización, pero no tratan explícitamente de encontrar todos los puntos mínimos locales como formas alternativas de resolver el problema en una ejecución de optimización.
  • Es muy posible tener modelos inicializados de manera diferente y optimizados en paralelo si tiene el hardware para encontrar diferentes parámetros óptimos locales (alternativos).

En realidad, una vez que se entrena un modelo de ML, a nadie le importa si ha encontrado mínimos locales A o mínimos locales B o si sigue encontrando mínimos locales C cada vez. Si el error en todos los casos es prácticamente similar, entonces no importa.

Espero que esto ayude.

Creo que esta es la mejor pregunta sobre algoritmos de aprendizaje automático o IA en Internet. Porque aborda las limitaciones de la IA

Aunque el desarrollo de la IA ha sido muy diferente de los softwares que desarrollamos y las prácticas que seguimos, tiene una cosa similar. En ambos mundos, lo que alimentamos es lo que obtenemos. En algoritmos de aprendizaje automático: el petróleo es datos. Si sus datos son limitados, entonces la capacidad de decisión de los algoritmos.

Si desea que sus algoritmos se pongan al día con nuevos métodos mejores, deben actualizarse para las nuevas variables que tienen impacto. A menos que actualice, no podrán calcular otras soluciones de la competencia. Es posible que deba considerar hacer otro algoritmo que realice esta tarea.

Mi respuesta es para tareas de aprendizaje de refuerzo:

Cómo evitar quedarse atascado en mínimos / máximos locales:

Los algoritmos de aprendizaje por refuerzo siguen las políticas. Una popular es la política codiciosa de épsilon. Con cierta probabilidad, el algoritmo (agente) realiza una acción aleatoria. Normalmente disminuye la probabilidad con el tiempo. El problema del que estás hablando es la explotación versus la exploración.

¿Pueden calcular otras soluciones competidoras en paralelo?

El algoritmo A3C de mentes profundas utiliza varios agentes en paralelo y, por lo tanto, calcula soluciones en competencia (ligeramente diferentes) en paralelo.

Su concepto / modelo básico está equivocado. En general, una IA no tendrá “idea” si ha completado con éxito una tarea.

La IA moderna es casi todo reconocimiento de patrones. Tienes un montón de “neuronas”, observadores muy básicos sin inteligencia, conectados entre sí en redes. Las características y respuestas de esas redes se logran variando las fortalezas de las interconexiones. Los puntos fuertes de las interconexiones para realizar un trabajo determinado se obtienen mediante “capacitación” con ejemplos de ese trabajo. Si la capacitación está habilitada, la red está aprendiendo. Si la capacitación está desactivada, la red solo se utiliza como herramienta.