¿Cómo construye Apple su red neuronal para el nuevo iPhone X Face ID? Los usuarios solo registran sus caras una vez cuando configuran el teléfono inicialmente, entonces, ¿cómo podría esa foto de los usuarios ser un conjunto de entrenamiento lo suficientemente grande como para entrenar la red neuronal?

Tengo una hipótesis sobre cómo lo hacen.

Las redes neuronales son buenas en esta tarea: dadas dos fotos de retrato, predice si son fotos de la misma persona o de dos personas diferentes. Para obtener más información sobre este tema, consulte este conjunto de datos LFW Face Database: Main, así como los documentos publicados que utilizan sus imágenes.

Sospecho que, bajo el capó, Apple ha recopilado un conjunto de datos mucho más grande como el anterior y ha entrenado un reconocedor decente basado en el aprendizaje profundo. Esto explica la parte sobre capacitación en millones / miles de millones de imágenes mencionadas en el evento de hoy.

Con este modelo bien entrenado, cuando configura Face ID, todo lo que tiene que hacer el teléfono es tomar una imagen de su rostro. Luego, para uso futuro, la cámara del teléfono puede tomar una nueva foto tuya y compararla con la versión guardada para ver si es la imagen de la misma persona.

Por supuesto, puedes volverte más elegante, y sospecho firmemente que Apple lo ha hecho. Por ejemplo, el iPhone X puede tomar múltiples imágenes desde múltiples ángulos cuando configura Face ID, luego hacer múltiples predicciones y usar un conjunto. Se sabe que esta técnica mejora significativamente la precisión.

Dicho todo esto, dado que todos los desastres ocurrieron con los reconocedores de imágenes basados ​​en el aprendizaje profundo utilizados en la industria, me mantendría atento y esperaría para ver si los usuarios se quejan de la calidad de reconocimiento de Face ID. Es una espera emocionante.

Probablemente usaron incrustaciones faciales (consulte: Una incrustación unificada para el reconocimiento facial y la agrupación para más detalles). La idea es mapear la imagen de la cara en una variedad de dimensiones inferiores donde las caras se pueden comparar usando una distancia euclidiana simple. Para reconocer una nueva cara, todo lo que tienen que hacer es calcular la incrustación de la cara o “huella digital” a través de una red pre-entrenada y usarla como plantilla. Se pueden usar múltiples poses y ángulos para generar una plantilla promediando todas esas huellas digitales. Luego se compara una nueva cara con esta plantilla a través de un producto de puntos y se considera una coincidencia cuando se alcanza un cierto umbral.

Por supuesto, esto no evita que las personas falsifiquen el sistema usando imágenes. Ahí es donde viene el sistema de detección de profundidad. Tiene que ser un objeto 3D. La comparación de dos nubes de puntos en 3D se puede hacer usando álgebra lineal simple.

No hay demasiados detalles sobre cómo funciona exactamente la red neuronal Face ID de Apple para el iPhone X.

Durante la presentación, Phil Schiller dijo que Apple entrenó a la red con más de mil millones de caras durante el desarrollo.

Dadas las preocupaciones de privacidad y la falta de detalles, no sé cómo o si Apple tiene la intención de utilizar nuevos registros FaceID para mejorar la red neuronal.

Puede haber una opción de exclusión de la misma manera que Siri usa su voz para construir continuamente su red neuronal.

En las próximas semanas y meses, debería haber más información disponible para los consumidores sobre cómo se utilizan los datos para entrenar la red neuronal, a través de acuerdos de privacidad, etc.