Depende de qué escenario estás hablando. Sin embargo, la respuesta directa es no. Permítanme comenzar con pequeños ejemplos:
Si se trata solo de conducir de forma autónoma en una carretera libre, entonces es solo un controlador proporcional con puntos de referencia a continuación.
Si va a estar en un entorno conocido, entonces un algoritmo de planificación de ruta convencional con un mapa del entorno debería ser suficiente con un controlador proporcional / LQR.
- Dado un conjunto de datos y una estructura de red neuronal, ¿es posible predecir la precisión de esa red neuronal (usando otra red neuronal)?
- ¿Qué asignaturas de informática son necesarias para aprender Machine Learning e IA ya que mi experiencia es eléctrica?
- ¿Qué especialidad puede construir robots inteligentes?
- ¿Cuáles serían algunos proyectos increíbles basados en IA o ML que utilizan redes neuronales para proyectos de pregrado?
- Teoría de decisiones: ¿Cómo resolvería un cubo de rubix con una planificación de orden parcial (si se puede hacer)?
Si hablamos de conducción autónoma en un entorno con obstáculos dinámicos (como en la terminal del aeropuerto donde el tráfico está bastante organizado), en este caso también podemos usar LQR. Esto debería ser suficiente siempre que la función de costo sea lo suficientemente buena.
El verdadero desafío es el entorno dinámico donde todo se mueve sin ningún sentido (no se puede suponer ningún modelo). Allí tampoco diremos que el aprendizaje por refuerzo se debe utilizar, sino que se puede aplicar un control óptimo. Sin embargo, esta sigue siendo una pregunta abierta.
De todos modos, permítanme llegar a la pregunta principal de si necesita ser aprendizaje de refuerzo, entonces es un NO directo. La conducción autónoma no es solo aprendizaje de refuerzo, sino que consta de múltiples módulos como el módulo de percepción para obtener información sobre el entorno utilizando múltiples sensores. El segundo módulo está planificando dónde, usando la información de percepción, el vehículo hace un plan y el más importante es el módulo controlador que ayuda al vehículo a decidir la próxima acción.
Podemos decir que el aprendizaje por refuerzo es una combinación de planificación y controlador que encontrará una acción ÓPTIMA (no en el controlador convencional) sobre el espacio de estado dado. Podemos aprovechar la acción óptima en el aprendizaje por refuerzo, pero es computacionalmente expansivo. Esto se debe a que los sistemas de aprendizaje profundo pueden razonar o encontrar una acción óptima en un espacio de estado exponencial.
Por ejemplo: lea esto y esto sobre el aprendizaje profundo de Q y cómo los juegos simples han alcanzado la precisión a nivel humano.
Este blog da una explicación bastante buena de cómo el aprendizaje profundo hizo un gran cambio en la IA.