¿Por qué el aprendizaje de refuerzo (profundo) no es adecuado o se usa más para resolver problemas de optimización combinatoria?

El aprendizaje por refuerzo (RL) se centra en escenarios en los que uno no tiene un modelo del entorno (es decir, un problema) a la mano, y el agente que emplea RL tiene que aprender a actuar mediante la interacción con el entorno a partir de los refuerzos. Esto se puede hacer estimando cómo funciona el entorno construyendo un modelo a partir de las muestras (basado en el modelo), o directamente (sin modelo) utilizando las muestras para actualizar una solución sobre cómo actuar.

Problemas de optimización combinatoria , para este tipo de problemas generalmente se necesita definir el problema que equivale a tener un modelo del problema (por lo tanto, el entorno), y no están necesariamente limitados por el número de muestras. De hecho, cuando hay un modelo disponible, tiene las probabilidades reales responsables de las transiciones y recompensas. La resolución se puede hacer a través de la programación dinámica, como la iteración de valor.

Related Content

¿Cómo se puede aplicar el aprendizaje automático a la contabilidad?

¿Cuál es la diferencia entre el entrenamiento por lotes, en línea y mini-lote en redes neuronales? ¿Cuál debo usar para un conjunto de datos de pequeño a mediano tamaño con fines de predicción?

¿Cómo es el curso de aprendizaje automático NPTEL?

¿Cuáles son las mejores conferencias sobre aprendizaje automático para el procesamiento de imágenes médicas en 2016?

¿Qué tan rápido es Theano en comparación con otras implementaciones de DBN? ¿Cómo se compara con otras implementaciones de GPU (potencialmente no públicas) para la velocidad de entrenamiento en grandes conjuntos de datos?

¿Cuál es el mejor método para la reducción de dimensionalidad y la selección / extracción de características en datos de espectrometría de masas?

¿Cuáles son los usos del consumidor para la IA?

More Interesting

¿Cómo se debe elegir el parámetro [math] l [/ math] en la regresión de mínimos cuadrados parciales?

Cómo hacer una clasificación en tiempo real con CNN

¿Cuál es la principal diferencia entre la forma bayesiana de estimación de parámetros y la regresión lineal?

¿Cuándo se lanzará sklearn 0.18?

En la minería de texto, ¿por qué deberíamos eliminar el término disperso de la matriz de términos del documento?

Cómo saber qué algoritmo usar y cuándo

¿Cuáles son las mejores herramientas de última generación para la extracción de información en Python?

Cómo crear algoritmos de reconocimiento facial

¿Cuáles son las herramientas / software más utilizados para el aprendizaje automático / big data?

¿Es un árbol de decisión solo un nombre elegante para una secuencia de declaraciones if-else-if-else -if-else?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

¿Vale la pena probar PCA en sus datos antes de alimentar a SVM?

¿Existe un libro de aprendizaje automático que ofrece una guía paso a paso con números reales o ejemplos numéricos en algoritmos de aprendizaje automático?

Algunas cosas "fueron modeladas como procesos de Poisson". ¿Qué quieren decir con eso?

¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?

Web Analytics