Hoy en día hay muchos algoritmos que supuestamente son de última generación. Simplemente es difícil compararlos, ya que el software no siempre está disponible, consideran diferentes tipos de entornos, no son fácilmente traducibles a aproximación de funciones, etc.
Filosóficamente, ¿qué significa ser el más eficiente en muestras?
- ¿Significa que es muy eficiente con sus datos, los conserva todos y encuentra rápidamente una política (casi) óptima?
- ¿O significa que requiere menos muestras (y, por lo tanto, interacciones con el entorno) antes de que funcione de manera admirable u óptima?
El primero es el foco del aprendizaje de refuerzo fuera de línea , el segundo el aprendizaje de refuerzo en línea . Muchos algoritmos señalados como de última generación se realizan en el caso fuera de línea. Podría decirse que, para el caso en línea, le sugiero que examine los Procesos de decisión Bayesian Markov y sus aproximaciones, https://arxiv.org/pdf/1205.3109.pdf, así como los algoritmos MCST / UCT que se usaron para dominar go, http: //willamette.edu/~levenick/…
- ¿Cuál es la diferencia entre el clasificador Naive Bayes y la máquina Bayes Point?
- ¿Qué clases de modelos se pueden usar para predecir distribuciones de series de tiempo?
- ¿Cómo se puede aplicar el aprendizaje profundo al procesamiento de imágenes subacuáticas?
- ¿Por qué Google TensorFlow usa OpenCL y no OpenGL? ¿Cuáles son las ventajas?
- ¿Por qué las redes neuronales recurrentes no pueden ampliarse bien?