En primer lugar, me encantaría recordarle el concepto de rendimientos decrecientes, simplemente aumentar el conjunto de datos no reducirá las tasas de error de reconocimiento de objetos. Es cierto que aumentar el tamaño de los datos de entrenamiento mejorará el rendimiento de reconocimiento, esto se debe a que los modelos de aprendizaje actuales son más parecidos a las curvas en matemáticas.
Cuantos más datos estén disponibles, mejor se ajustará la curva, eso es todo. En algún momento, la curva no se ajustará mejor, por lo tanto, los rendimientos disminuirán. Pero hay más en el reconocimiento de objetos que el ajuste de curvas o los incrementos de tamaño del conjunto de datos. Es absolutamente necesario desarrollar sistemas complejos de reconocimiento de objetos para un mejor rendimiento porque.
- Los objetos sufren transformaciones : por ejemplo, un automóvil visto desde ángulos oscuros o una cara en una pose peculiar. Se puede implementar un algoritmo de detección que debería detectar rostros en todas las poses posibles mediante la recolección de muestras de rostros en todas las condiciones de visualización posibles. Pero esto es engorroso, un mejor enfoque es modelar algunas caras de entrenamiento en 3D. El reconocimiento de objetos invariantes de transformación no necesita ser aprendido, debe estar codificado o conectado al sistema de reconocimiento.
- El reconocimiento es un problema de abajo hacia arriba / de arriba hacia abajo : el proceso de reconocimiento de objetos es complejo y comienza con un rápido proceso de reconocimiento de abajo hacia arriba aproximado utilizando visión periférica. Luego sigue un proceso de reconocimiento descendente más lento utilizando la visión foveal. Esto no es algo que se pueda aprender de los datos de capacitación, debe implementarse y cablearse cuidadosamente o codificarse en el sistema de antemano.
- El conocimiento / las características deben compartirse : el concepto de transferencia / intercambio de conocimiento también es algo que es difícil de obtener solo del aprendizaje y se implementa libremente en las canalizaciones de reconocimiento de objetos actuales. La transferencia de conocimientos / funciones ayuda a acelerar el aprendizaje en futuros intentos.
- El reconocimiento de objetos necesita información de contexto : la precisión del reconocimiento puede mejorarse dramáticamente teniendo en cuenta el contexto. Y nuevamente, esto es algo que debe codificarse en la tubería de reconocimiento.
- El reconocimiento de objetos utiliza la discriminación figura-fondo : la mente humana también tiene ciertas reglas generales sobre qué es una figura y qué antecedentes, aprender esas reglas de los datos de entrenamiento puede ser una tarea desalentadora.
La implementación cuidadosa de los puntos anteriores da como resultado un sistema de reconocimiento más sofisticado, pero puede mejorar drásticamente la precisión del reconocimiento o reducir las tasas de error. Por lo tanto, los algoritmos de representación y aprendizaje mejorados proporcionarán la mayor ganancia en el reconocimiento de objetos.
- Soy Editor de Adquisiciones y para obtener conocimiento y autoaprendizaje de análisis de datos y habilidades de aprendizaje automático. ¿Alguien podría ayudarme a trazar un plan?
- ¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?
- He implementado con éxito el Descenso de gradiente estocástico y el Descenso de gradiente más pronunciado en C ++. ¿Qué puedo hacer a continuación?
- ¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?
- ¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?
Un modelo simple ampliado no hará frente simplemente a la complejidad de las variaciones de objetos del mundo real. La comparación exhaustiva con una base de datos de millones de ejemplares no es suficiente, el mundo real es demasiado complejo.
Espero que esto ayude 🙂