Dado que en realidad no ha compartido ningún caso de falla, adivinaría y sugeriría estar abierto a la posibilidad de que, sin importar cómo entrene, simplemente no podrá distinguir entre las clases: bicicletas y sillas de ruedas, porque a menudo son indistinguibles en las imágenes (incluso cuando las etiquetas de entrenamiento son correctas). Por ejemplo, puede haber muchas imágenes de bicicletas donde solo se ve una rueda y es imposible discernir que no es una silla de ruedas.
Una forma de abordar el problema es observar de cerca los casos de falla. ¿Hay un patrón que ves? ¿Podría intentar el reentrenamiento con solo ejemplos de bicicletas y sillas de ruedas no ocluidas (totalmente visibles)? ¿Y luego probar solo en bicicletas totalmente visibles y ejemplos de sillas de ruedas? Quizás para su caso de uso, ¿los ejemplos ocluidos no importan tanto? Solo volver a entrenar o cambiar a un modelo diferente no te llevará muy lejos, si no pasas un tiempo analizando el problema.
Finalmente, los detectores de objetos de hoy no son perfectos. Y los más rápidos como YOLO intercambian explícitamente algunos puntos porcentuales en la precisión promedio promedio (mAP) para lograr su velocidad. Incluso la versión más optimizada de YOLO tiene menos del 80% de mAP de acuerdo con lo siguiente. Por lo tanto, es posible que incluso tenga que investigar y encontrar soluciones radicalmente diferentes si las ideas obvias no funcionan.
- Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit
- ¿Hay alguna diferencia entre los codificadores automáticos y el codificador-decodificador en el aprendizaje profundo?
- ¿Por qué se utiliza un descenso gradiente iterativo para redes neuronales y no inmediato?
- ¿Qué es una explicación intuitiva del parámetro gamma en SVM?
- ¿Cómo podemos minimizar el tiempo de inactividad de la GPU cuando utilizamos TensorFlow?
YOLO: detección de objetos en tiempo real