¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?

Prácticamente, un par de millones. Consideremos un detector de gatos, porque este es el que se encuentra en Internet. Todas las imágenes tendrán que ser “verificadas”, imágenes que se sabe que tienen gatos (o no gatos) con la ubicación del gato conocida. Las imágenes incluirán todas las variedades de gatos (diferentes colores, diferentes razas, diferentes edades, diferentes tamaños) en diferentes condiciones de iluminación, con diferentes niveles de ruido y distorsión óptica y algo de desenfoque. Gatos en primer plano y gatos en el fondo. No todas las imágenes contendrán gatos, algunas contendrán no gatos: perros más pequeños, conejos, zorros, mapaches, estatuas de gatos, dibujos de gatos, imágenes ocupadas sin animales. De los aproximadamente dos millones de imágenes, un millón se considerará el conjunto de entrenamiento y el otro millón el conjunto de prueba. Cada uno debe contener tipos similares de imágenes pero no las mismas imágenes; no puedes probar efectivamente en tu conjunto de entrenamiento. Si lo intentas, obtendrás una puntuación alta falsa. Con muchos años de esfuerzo (al menos dos, probablemente 8), debería poder obtener el puntaje en los 90 altos en el nivel de confianza. Parte de esto depende de su objetivo y qué error es peor: ¿es peor no identificar un gato real (falso negativo) o es peor identificar un gato que no es un gato (falso positivo)? Esto depende de su aplicación, y puede ajustar sus algoritmos en consecuencia. Esto es para software comercialmente viable. Como prueba de concepto, puede usar algunas decenas de miles de imágenes y pasar algunas semanas entrenando software comercial o de dominio público.

Esto es muy específico del problema

Recientemente hemos creado un clasificador que puede clasificar ‘imágenes’ de series de tiempo utilizando una cantidad muy pequeña de imágenes por categoría. Esto está usando un SVM tradicional con una base de tipo wavelet

Los éxitos se basan en el hecho de que no necesitamos lidiar con distorsiones, rotaciones, etc., que aparecerían en una imagen natural. Las imágenes son solo una serie temporal, y son básicamente un montón de píxeles en blanco y negro, alineados en un eje, con algunas características conocidas.

Hemos tenido otros clientes que vienen a nosotros con problemas más difíciles, pero aún no tan difícil como lo que se puede resolver hoy usando el aprendizaje profundo a gran escala.