¿Qué tipo de algoritmos de reconocimiento de imagen existen?

Hay muchos algoritmos de reconocimiento de imágenes por ahí. Algunos son propietarios, algunos son de código abierto. Pero generalmente difieren en la forma en que se calculan las características.

Existen métodos basados ​​en características que detectan características como esquinas y blobs. Los vectores descriptivos se extraen alrededor del vecindario de esos puntos. Estos vectores se denominan descriptores y generalmente se indexan en una estructura de árbol para una coincidencia aproximada rápida.

Luego están los enfoques de aprendizaje automático mediante los cuales las características se aprenden de los datos de entrenamiento. Las imágenes RGB sin procesar se envían al sistema y depende de los algoritmos de aprendizaje aprender características relevantes. Un buen ejemplo de dicho sistema es una red neuronal convolucional en el aprendizaje profundo.

Hay una ventaja en los enfoques de aprendizaje automático sobre las características artesanales. Es más rápido tener un sistema de reconocimiento en funcionamiento dentro de semanas o meses cuando se utiliza el aprendizaje automático, a diferencia de la artesanía, que llevaría años.

Para la detección de rostros, el método eficiente actual todavía se basa en las características del cabello, pero no es el más preciso. Otros se basan en la detección de puntos de referencia faciales, como la nariz, los ojos y la boca. La cara se detecta positivamente si los puntos de referencia son geométricamente consistentes con una cara humana.

No estoy actualizado con la detección automática de contenido obsceno en videos. Apuesto a que el aprendizaje profundo puede funcionar lo suficientemente bien aquí. Se trata de implementar un sistema y observar cómo funciona y mejorarlo.

Espero que esto ayude.

Gran respuesta de Chomba.

Para hablar específicamente del lado de la detección de pornografía, muchas API parecen seguir confiando en la detección del tono de la piel a pesar de ser poco confiable. Algunas compañías han intentado mejorar la precisión de este enfoque integrando aspectos del reconocimiento facial: para identificar una cara, la nariz en la cara y luego el área en la base de la nariz (donde se ve la piel sombreada) en un intento para identificar con mayor precisión el rango aplicable de tonos de piel para esa imagen. Sin embargo, este enfoque pierde su ventaja en imágenes donde hay varias personas presentes o donde no se ve ninguna cara.

La identificación de características, la detección de manchas y patrones y el análisis de texturas son otras técnicas que pueden tenerse en cuenta para lograr una respuesta más precisa, y se consideran factores contribuyentes en soluciones como Nude Detect de NetSpark (demostración de tecnología de clasificación de Netspark | Documentación de API de Nude Detect) donde La detección de desnudos en las imágenes ha logrado un 97% de precisión con solo un 1% de tasa de falsos positivos: una mejora significativa sobre las tasas de falsos positivos de ~ 30% de los enfoques dependientes del tono de la piel, como lo que ves aquí https://medium.com/@ miradortech / …