¿Qué podrían ser posibles aplicaciones de aprendizaje de refuerzo profundo en la industria aparte de la robótica? La tecnología cambia la vida futura

Una lista parcial basada en mi conocimiento. Se actualizará a medida que obtenga más información:

Gráficos por computadora , particularmente animación de personajes. Para una primera aproximación, esto es robótica menos hardware. Esto tiene aplicaciones industriales en videojuegos, industria cinematográfica, educación y muchos más.
Ref: Habilidades de locomoción adaptativa al terreno mediante el aprendizaje de refuerzo profundo y el control interactivo de diversos personajes complejos con redes neuronales.
Agentes conversacionales : para desempeñarse bien, un agente conversacional debe, en última instancia, aprender un mapeo de políticas de un estado latente (como en un RNN) a una secuencia de palabras. El aprendizaje por refuerzo puede proporcionar un marco agradable para construir tales sistemas.
Ref: [1511.04636] Aprendizaje de refuerzo profundo con un espacio de acción del lenguaje natural y [1606.01541] Aprendizaje de refuerzo profundo para la generación de diálogos
Sistemas de control : una versión del aprendizaje de refuerzo profundo llamada optimización basada en simulación se usa ampliamente en el control. La retropropagación en realidad se originó a partir de la teoría de control, donde se utilizó para calcular trayectorias complejas (por ejemplo, disparar cohetes a la luna). Ver Mates of Costate para un poco de intuición. Uno puede pensar en muchas aplicaciones aquí como:
(a) redes de energía : suministran energía eficientemente mientras son robustos ante las incertidumbres
(b) control de procesos : fabricar medicamentos con la calidad requerida a un costo mínimo y ser robustos a la incertidumbre en la calidad del alimento / insumo
(c) programación : una historia de éxito inicial de RL y programación dinámica. Ahora se puede ampliar de manera mucho más eficiente para camiones, aerolíneas, eventos deportivos, etc. También se puede utilizar en la optimización de la cadena de suministro en Amazon, FedEx, etc.
Cuidado de la salud: un problema de aprendizaje de refuerzo específico es la configuración de bandido contextual. Se ha aplicado durante bastante tiempo en la asistencia sanitaria para ensayos clínicos y descubrimiento de nuevos medicamentos. Aunque ha habido un éxito razonable, el mayor obstáculo fue una gran cantidad de características latentes / ocultas. Me han dicho que existe la posibilidad de combinar algoritmos de bandidos profundos con una supervisión moderada de expertos para avanzar rápidamente en este campo.

Espero que esto ayude 🙂