Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados en una entrada de imagen

Simplemente comenzaría con un marco de clasificación por cuadro. Simplemente elija una pérdida de softmax al final de su CNN profunda favorita (quizás AlexNet pre-entrenado); los valores de la clase de entrenamiento pueden ser valores de joystick discretizados. Si esta configuración más simple no funciona, incluso después de adquirir muchas decenas de horas de datos, es posible que desee aumentar el conjunto de entrenamiento.

El problema es que en su mayoría conducirá “correctamente”, y esto no dejaría suficientes datos de entrenamiento para que el modelo aprenda a corregir los errores de manejo. El documento Dave2 de Nvidia, aunque no es muy impresionante per se (solo puede seguir el carril, solo se proporciona una evaluación anecdótica / incompleta), propone algunas ideas para generar datos de entrenamiento aumentados para posiciones de conducción incorrectas. Podrías echar un vistazo a esos.

http://arxiv.org/pdf/1604.07316v…

En la práctica, sé que la memoria es muy útil para la conducción humana, pero por alguna razón, creo que para una máquina lo suficientemente buena, un sistema sin memoria (por lo tanto, una CNN por cuadro) podría ser suficiente [más probable es que no lo he pensado bien]. Una vez que tenga algo que se ejecute, puede intentar extender la arquitectura para incluir un LSTM / GRU vinculado a su CNN de alguna manera.

Otro papel por fotograma (de nuevo solo para conducir en carretera, a partir de una simulación) es el siguiente. Aquí solo estiman una serie de variables de estado, sobre la posición del automóvil en relación con la carretera y sobre qué automóviles están inmediatamente delante de nuestro automóvil. Y luego use un enfoque codificado / basado en reglas para diseñar instrucciones de control. En esta configuración, no podrá explotar las señales del joystick, pero la formulación de CNN podría valer la pena.

DeepDriving

Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados ​​en una entrada de imagen

Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados en una entrada de imagen