¿Cuáles son los principales inconvenientes de los algoritmos actuales de segmentación de imágenes?

Existen varios enfoques para la segmentación de imágenes: agrupación, ajuste de contorno, umbrales simples y también se están desarrollando nuevos.

Esbozaré y discutiré alguna segmentación por métodos de agrupamiento. Si bien no puedo decir si estos son actuales en la industria o no, son actuales en los planes de estudios de visión por computadora de nivel de posgrado, por lo que deberían tener alguna relevancia para usted.

Agrupación jerárquica aglomerativa (HAC)
Algoritmo:
1) Encuentra puntos en el espacio de características.
2) Inicialice cada punto como un centro de clúster.
3) Encuentre los dos centros de clúster con la distancia más pequeña en el espacio de características.
4) Fusiona los dos grupos y calcula el nuevo centro.
5) Repita hasta que k se agrupen los centros a la izquierda, o hasta que la distancia sea mayor que d.

Inconvenientes:
– Necesita conocimiento previo de la imagen, ya sea el número esperado de grupos k, o la distancia umbral máxima entre grupos d.

Agrupamiento de medias K
Algoritmo:
1) Encuentra puntos en el espacio de características.
2) Inicialice k centros de clúster y asígneles puntos.
– Puede ser aleatorio o codicioso
3) Calcule el centro del grupo y la suma de las distancias al cuadrado entre cada centro del grupo y sus puntos asignados.
4 a) Calcular asignaciones: actualice las asignaciones para que cada punto se asigne al centro más cercano.
4 b) Calcular centros: actualice los centros de clúster para que cada centro sea la media de sus nuevas asignaciones.
5) Repita el paso 4) hasta la convergencia.

Inconvenientes:
– Necesita conocimiento previo de la imagen, el número esperado de grupos k.
– Fuertemente afectado por los valores atípicos.
– Puede establecerse en mínimos locales y no en el mínimo global.
– Escalado deficiente (lento) con dimensionalidad, O (d).

Agrupación media de turnos
Algoritmo:
1) Encuentra puntos en el espacio de características.
2) Inicialice el punto de semilla aleatorio p_seed en el espacio de características con una ventana de tamaño W.
3 a) Calcule el centro de gravedad basado en todos los puntos dentro de la ventana.
3 b) Establezca el centro de gravedad como el nuevo centro de la ventana, desplazando la ventana.
4) Repita el paso 3 hasta la convergencia.

Inconvenientes:
– Complejidad computacional: muchas ventanas, muchos cambios, muchos cálculos.
– Escalado deficiente (lento) con alta dimensionalidad y grandes espacios de características, O (pd).
– No es obvio cómo seleccionar el tamaño de ventana óptimo (prueba y error).

El principal inconveniente es la falta de una definición clara de segmentación. Hay muchos algoritmos diferentes, cada uno con una definición diferente. Mientras algunos grupos se agrupan en contornos cerrados, otros agrupan píxeles en superpíxeles. Al final del día, todos hacen un trabajo de descenso.

La razón principal de la ausencia de algoritmos de segmentación de las tuberías de visión por computadora para, por ejemplo, el reconocimiento de objetos es que los algoritmos CV de alto nivel no pueden aprovechar la información de forma en los límites de las regiones detectadas por un método de segmentación. Hay algunos descriptores de forma exitosos, a saber, Contexto de forma, pero tampoco son robustos para la oclusión y el ruido en la forma; algo que siempre está ahí en una escena, excepto que puede estar en conjuntos de datos de investigación. Otro gran problema con la mayoría de los algoritmos de segmentación es la falta de repetibilidad en presencia de incluso un ligero cambio en el contenido visual. Si cambia la escala de la escena mientras mantiene el contenido más o menos igual, notaremos una segmentación excesiva o insuficiente, dependiendo de si se acerca o se aleja, respectivamente.

Para colmo, el objetivo principal de la mayoría de las tareas de visión por computadora hoy en día es asignar una etiqueta semántica amplia a una cuadrícula de píxeles, también conocida como imagen. Para tales tareas, la segmentación sigue siendo poco atractiva debido a su alto costo computacional sin ningún beneficio claro. Pero a medida que el enfoque de la investigación de la visión por computadora avanza hacia la explicación y comprensión de las escenas, una condición importante para cualquier análisis de contenido robusto, especialmente en robótica, es probable que la resolución del problema de segmentación vuelva a ser una prioridad. Después de todo, la segmentación proporciona algunas entidades visuales compactas con límites bien delineados que capturan la forma de un objeto, que es, quizás, la característica visual más importante. Un algoritmo de segmentación bien definido probablemente desempeñará un papel fundamental para hacer que las soluciones de visión por computadora sean manejables y robustas.

El principal inconveniente de los algoritmos de segmentación es la falta de contexto. Para segmentar un objeto fuera del entorno complejo, es importante comprender el contexto en el que se encuentran los objetos.

Tal uso del contexto en la segmentación solo puede hacerse a través de señales de retroalimentación de alto nivel provenientes de un proceso de reconocimiento. La segmentación del significado es un subproducto del reconocimiento, pero lo que queda por descubrir es cómo se entrelaza en la tubería de reconocimiento.

Creo que el aprendizaje automático facilitará esto con el tiempo.

Espero que esto ayude.

Durante bastante tiempo, los investigadores en visión pensaron que la forma de comprender automáticamente la imagen era segmentar primero la imagen, y luego el reconocimiento de objetos se simplificaría enormemente.

Sin embargo, ahora estamos viendo enfoques exitosos que usan características de ingeniería manual o características aprendidas para realizar el reconocimiento de objetos sin la etapa de segmentación de nivel medio.

En mi opinión, demasiados investigadores han gastado valiosos ciclos cerebrales tratando de sacar demasiado provecho de la segmentación de imágenes. Si desea que sus “segmentos” se correspondan con los objetos, entonces esto no puede hacerse de la manera tradicional de “analizar vecindarios de píxeles”.

Es probable que veamos que los algoritmos de segmentación regresen, utilizando grandes conjuntos de entrenamiento y un enfoque de aprendizaje automático mucho más contemporáneo.

No hay algoritmos de segmentación bien definidos porque es difícil definir los bordes de los objetos. Un umbral puede funcionar en un caso pero no en todos. Este es un inconveniente que dificulta la segmentación de la imagen en general.