¿Qué usos novedosos hay para el aprendizaje de refuerzo profundo? La tecnología cambia la vida futura

¿Qué usos novedosos hay para el aprendizaje de refuerzo profundo?

Aunque a menudo no es la mejor idea comenzar con una solución y encontrar un problema, aquí hay un proceso generalizable para hacerlo:

Enumere las fortalezas de su solución
Enumere los requisitos de su solución.
Encuentre aplicaciones que aprovechen las fortalezas y proporcionen los requisitos
Priorizar esas aplicaciones

Fortalezas (estas son algunas, siéntase libre de sugerir cosas que no he pensado):

No requiere un conjunto de datos bien estructurado
En efecto, la reducción de dimensionalidad automatizada, por lo que puede trabajar en sistemas con muchas acciones para elegir
El aprendizaje de refuerzo profundo es bueno en sistemas no lineales
Se puede adaptar a los sistemas cambiantes, incluso si cambian de manera compleja o imprevista
Puede operar en entradas y salidas del mundo real o puede operar desde un modelo (más rápido pero requiere un modelo preciso)

Requisitos (nuevamente, siéntase libre de hacer sugerencias)

Suficientes acciones posibles para hacer un enfoque de aprendizaje profundo óptimo
Un retraso lo suficientemente corto entre la acción y la evaluación para recolectar suficientes muestras para alimentar un modelo de aprendizaje profundo
Requiere comentarios para las acciones
Las fallas son necesarias, por lo que debe capacitarse en un modelo muy preciso o en un sistema del mundo real donde las fallas no sean costosas

Busquemos sistemas caóticos con alta, si no infinita, complejidad, donde hay innumerables medios de interacción, donde hay mucho que ganar pero poco que perder, que cambian con el tiempo y que responden extremadamente rápido o pueden reaccionar a muchas diferentes acciones a la vez (escalables horizontalmente).

Evitemos también los sistemas de control convencionales (mecánicos, eléctricos o de otro tipo) ya que no son realmente “novedosos” en este momento.

Las cosas que implican manipular o planificar el comportamiento humano parecen una buena combinación. Puede probar acciones en muchas personas en paralelo para obtener respuestas cuantificables. Ventas y servicio al cliente y satisfacción, gestión de multitudes y tráfico, precios y promociones, comercio de alta frecuencia, cocina (por ejemplo, recetas), entretenimiento (por ejemplo, creación o edición de medios sintéticos), diseño de productos o arquitectura con representaciones 3D precisas, enfoques educativos y Las tácticas deportivas competitivas vienen a la mente.

Ha habido trabajo en algunas de esas áreas (enfoques educativos y comercio seguro). La aplicación de la ley, la respuesta de emergencia, las tácticas militares y la medicina también podrían funcionar, pero son bastante sensibles a las fallas.

Otros sistemas naturales complejos se pueden encontrar en farmacología, agricultura, ciencia de materiales. Tal vez hay ideas en esos reinos también.

No me inspira nada que pueda modelarse con precisión, porque es demasiado fácil construir una solución no novedosa que produzca resultados perfectamente buenos dada la potencia de cálculo suficiente. Si estás buscando algo realmente único y valioso, influir en el caos del mundo real me parece muy prometedor.

AprendizajeAprendizaje por refuerzoAprendizaje profundoautomático