¿Cómo podrían usarse las expresiones faciales para medir los niveles de amenaza usando redes neuronales?

Hay varios desafíos interesantes que veo con el diseño de un sistema para correlacionar las expresiones faciales con los niveles de amenaza.

En los niveles superiores de diseño, existe el problema de segmentar y simbolizar las expresiones faciales. Supongo que la entrada sería video 2D de una sola cámara. Eso plantearía el desafío de normalizar la entrada debido a cambios en la perspectiva y el ángulo de las imágenes debido a cambios de movimiento y posición. Si eso se abordara, entonces existe el desafío de segmentar las imágenes en secciones separadas de una cara desde la cual representar en términos de combinaciones de relaciones de segmento y, por lo tanto, clasificaciones de expresión. Esto significa definir un “alfabeto” visual / espacial a partir del cual entrenar la red neuronal [NN], así como la “gramática” desde la cual el NN usaría para mapear expresiones faciales.

Los humanos hacen esto inherentemente, pero aún necesitamos todos estos componentes funcionales para hacerlo. La tecnología actual y el estudio de esto nos han hecho capaces de observar esto dentro de nuestros cerebros. Hemos aprendido que nuestros cerebros segmentan muchas dimensiones o facetas diferentes de entrada visual en ubicaciones muy específicas y separadas. Sospecho que esto se hace incluso en varias semánticas diferentes (o sintaxis, como formatos de datos) también. Procesamos el color de un objeto en un lugar y forma, la forma en otro, su movimiento en otro, e incluso la clasificación del mismo como un objeto en otro. Luego usamos estos diversos segmentos y clasificaciones para hacer correlaciones, llegando así a nuestra percepción de su identificación.

Sospecho que los enfoques específicos que nuestros cerebros adoptan inherentemente para segmentar lo que hace en las formas específicas en que lo hacen son de importancia crítica tanto para la forma en que clasificamos las cosas como para la precisión y exactitud con que lo hacemos. Podríamos aprender y programar un “alfabeto” y una “gramática” de expresiones faciales observando e imitando el cerebro humano, pero creo que tendríamos que ser creativos y llegar a un diseño factible a través de pruebas y evaluaciones, ya que actualmente no lo hacemos. tener una buena comprensión de las sintaxis específicas de esa información procesada.

Otro desafío en el nivel superior de diseño sería presentar a la NN para que sea entrenada con clasificaciones precisas y precisas de amenazas que se expresen visualmente. Si se le da el audio del idioma que se habla, es posible que podamos mapear las palabras pronunciadas a las clasificaciones de amenazas, pero aún requeriríamos que se ingrese simultáneamente un nivel de amenaza a priori con las expresiones faciales para que sean correlacionadas y aprendidas por el NN. Tendríamos que de alguna manera, como parte de los datos de entrenamiento, ingresar (o determinar en un sistema separado) cuál es el nivel de amenaza apropiado que se expresa junto con la cara asociada con él. Esto presenta luchas semánticas similares con las que luchar. Sugiero que hay varias categorías / tipos diferentes de amenazas, quizás compuestas de su propio “lenguaje” único, desde el cual se podría asignar una métrica de amenaza de nivel más abstracto. Hay amenazas cognitivas de tipo “juegos mentales”, amenazas físicas de acción violenta y amenazas sociales de tipo verbal-abusivo, entre otras.

Todos los problemas de diseño de nivel inferior serían difíciles con seguridad, pero creo que son estos enfoques de nivel superior, más abstractos y filosóficos, los grandes desafíos para abordar esto.