¿Cómo sabe el nuevo “cerebro” de Google X qué es un “rostro humano”?

Considere el clásico problema del cóctel [1] donde hay varias personas en una sala hablando simultáneamente. La tarea es separar los diferentes altavoces. El análisis de componentes independientes (ICA) es el método típico utilizado y funciona bien cuando las suposiciones acerca de que las fuentes son estadísticamente independientes, no gaussianas y aditivas son ciertas. Además, puede realizar esta tarea sin ninguna información etiquetada (por ejemplo, tema del discurso, género, etc.) de los datos en sí, aparte del número de fuentes. Simplemente le proporciona las señales independientes que presumiblemente serían la voz de cada individuo en la sala. Asociar una voz con la persona A y otra voz con la persona B requeriría un análisis adicional (es decir, comparar los componentes de frecuencia de cada hablante con la voz extraída por ICA).

Ahora abstraiga este problema más allá de la tarea de separar objetos. La red profunda descrita en el documento [2] es capaz de separar conceptos de otros conceptos. Los investigadores sospecharon que uno de los conceptos a los que la red probablemente sería sensible son las caras. Hicieron más análisis y eligieron la neurona en la red que era más sensible a las caras (según los datos de la prueba) y mostraron que era más sensible a una entrada que se parece mucho a una cara. Para la red, la cara es solo una característica abstracta extraída de los datos (al igual que las caras de gato y los cuerpos humanos).

Curiosamente, se cree que existe una relación muy estrecha entre ICA y estas redes profundas. Pero estas redes profundas parecen ser capaces de separar mucha información de nivel superior de los datos que ICA (como se muestra en este trabajo).

[1] http://en.wikipedia.org/wiki/Sou…
[2] http://arxiv.org/pdf/1112.6209v3…

Realmente no sabe qué es un “gato” o un “rostro humano”. Según tengo entendido, básicamente el agente aprende a clasificar diferentes objetos sin nombrar / saber cuál es el objeto. Para ser más específico, el agente clasificará cada imagen en algunas categorías X, Y, Z, sabe (o espera) que los objetos en la misma categoría serán el mismo objeto. El objeto en sí no tiene sentido para el agente.

Es un problema de aprendizaje supervisado. El detector facial debe ser entrenado primero. Uno de los algoritmos modernos más robustos es Viola-Jones. http://en.wikipedia.org/wiki/Vio