¿Cuántos selfies debe leer un Machine Learning antes de poder discernir el origen étnico?

¿Cuántos? Mucho depende de cuán divinas sean las fotos y cuán diferentes se vean las personas. Son estas tomas de cabeza y hombros contra un fondo limpio donde los sujetos están vestidos con algún tipo de ropa distintiva o simplemente instantáneas al azar desde cualquier ángulo con cualquier fondo. También qué tan bien etiquetadas están las imágenes. ¿Se revisa cuidadosamente el etiquetado de varios humanos? La calidad del conjunto de datos de entrenamiento es MUCHO.

La cantidad de fotos que necesita depende del trabajo que desea hacer. Hagámoslo fácil. Digamos que queremos crear un sistema que clasifique las tomas de la cabeza y los hombros con buena iluminación de los sujetos que están mirando a la cámara. (como en las fotos de la licencia de conducir) en tres clases: europeo, africano y chino. Es posible que pueda hacer esto con un par de miles de fotos de cada clase.

El caso más difícil son las instantáneas aleatorias e incluso más si tiene más de una persona en la foto y desea manejar diferentes tipos de tomas desde todo el cuerpo hasta primeros planos de la cara e incluso más difícil si el sujeto puede desplazarse hacia un lado . En muchos casos la tarea será imposible.

En resumen, primero defina la tarea de modo que sea algo que realmente se pueda hacer. El estado actual de la técnica solo puede manejar casos que son extremadamente fáciles incluso para niños. Como ordenar fotos de perros de fotos de gatos. Una razón por la cual el aprendizaje automático es tan exitoso es porque las personas eligen bien las tareas u otras palabras que ajustan el alcance del proyecto para que coincida con la capacidad de la tecnología actual. Luego, suponiendo que solo va a tener de 3 a 6 clases, diría que un ejemplo de “unos pocos miles” de cada clase es lo suficientemente bueno.

Pero has elegido un proyecto realmente difícil. Haz uno que clasifique primero la raza de perro.

Realmente depende del modelo. Creo que un millón puede ser un buen número. Probablemente pueda hacerlo con menos … Solo después de ejecutar el conjunto de datos podrá saber si es lo suficientemente preciso.