¿Podría una IA creadora de arte beneficiarse de apuntar una cámara a su propio monitor para ver realmente su trabajo en progreso?

Dejando a un lado la mecánica de cómo una computadora “ve” una imagen por el momento, la idea del “artista” retrocediendo para ver la totalidad de la obra de arte es un aspecto necesario de la creación artística.

Este cambio de perspectiva es crítico. Hay varias formas en que la computadora podría “ver” la imagen para obtener esta perspectiva. Como la imagen en sí ya está digitalizada, no hay necesidad de una cámara externa. El programa podría simplemente volver a muestrear los datos para ver la imagen completa a una resolución más baja. Esta reducción en la resolución es una forma de generalización, que luego permite que la obra de arte en evolución se compare con obras consideradas admirables en forma de una base de datos histórica. En esencia, estaría realizando una clasificación en una obra de arte en evolución y dejaría de “pintar” cuando la tasa de error sea lo suficientemente baja.

En nuestro trabajo, descubrimos que el “retroceso” o una visión holística del estado de ambos modelos de crédito y la expresión génica mejora significativamente la precisión de la clasificación.

[Por beneficio, supongo que quiere decir que conducirá a mejores resultados de clasificación empírica: no tenemos sistemas generales de IA, por lo que “beneficio” debe definirse con precisión]

De hecho, depende de sus criterios de evaluación y de lo que haga con las imágenes de su cámara por entrenamiento.

Una información adicional de la imagen de la cámara es solo eso: una fuente adicional de vectores de entrada. Los vectores de la cámara y los vectores del conjunto de datos de entrenamiento principal son básicamente los mismos al menos a nivel de entrada (los sistemas NN de última generación “crean” características complejas gracias a la arquitectura de entrada, no gracias a la diversidad fundamental de entrada).

Básicamente su pregunta es “¿Agregar funciones adicionales ayudará a mi clasificación”? Podría (digamos que está recibiendo una asignación de color diferente en las imágenes fijas de su cámara y podría ayudar con casos más ambiguos) o puede que no.

Ah, y su sistema no visualiza nada: es un aproximador de funciones basado en datos, nada más.

¡Tal vez sí!

Por supuesto, la cámara no le da mágicamente un cerebro humano, por lo que adquiere un sentido humano de la estética (que se desarrolla principalmente a partir del entorno en el que vivimos, incluso lo que llamamos “surrealismo” es en realidad solo un giro buena vieja realidad).

Lo que hace la cámara es alterar la resolución y agregar ruido. Por supuesto, puede hacer esas cosas sin la cámara (de hecho, la cámara es una forma bastante redonda de hacerlo, solo son un par de líneas de código sin ella).

Acerca de cómo el ruido podría ser útil, estoy pensando en Denoising Autoencoders: les haces intentar reconstruir su entrada dándoles una versión corrupta, de esta manera haciéndolos aprender a generalizar.

Sobre las computadoras que ven cosas píxel por píxel, esto es simplemente incorrecto. Puede ser cierto a nivel de hardware, pero no tiene que ser así en el nivel real, conceptual. Por ejemplo, si revisa la respuesta de Vladislav Zorov a ¿Cómo funciona el hash de imagen perceptiva y cómo lo implementa ?, hay una línea que dice:

mean = ImageStat.Stat (gris) .mean [0]

Esto toma el brillo promedio de la imagen, una operación que es imposible si solo tiene acceso a un píxel a la vez (ya que es una operación global). Una vez más, a nivel de hardware, podría estar accediendo a ellos uno a la vez (aunque podría haber una optimización, si usa las unidades vectoriales en la CPU), pero la operación en sí misma es global.

Me atrevería a decir que la respuesta es sí.

Cualquier sistema se beneficia de un ciclo de retroalimentación. La máquina AlphaGo jugó millones de juegos Go consigo misma antes de vencer al campeón mundial Go. Entonces, no veo ninguna otra conclusión posible.

Un hecho interesante: a los elefantes se les puede enseñar a pintar, y siempre pintan trabajos originales, no solo copias de la misma escena.

Si y no.

Sí, si define un estándar de belleza, deje que la IA pinte al azar y compruebe su pintura con el estándar.

No, si define un estándar de belleza y lo deja dibujar de acuerdo con ese estándar.

Eso no es lo que se dijo en el debate. El debate se refiere a si una IA puede o no producir mejor una imagen cuando se ve externamente en lugar de crearla solo internamente, lo que implica que la imagen se crea dentro de sí misma, se ve externamente y se produce con mayor precisión.

Mi razonamiento es que la vista externa le permite determinar mejor exactamente qué hay en la pantalla y utilicé la imagen de Google DeepDream como ejemplo, donde la imagen producida estaba llena de caras de perros. Si se utilizó una cámara externa para ver, la IA, a través del uso de la cámara, habría mirado la imagen y visto la imagen del perro extendida y corregida. Tal como estaba, con solo visión interna, la IA ni siquiera reconoció que el perro estaba allí y aceptó la imagen tal como fue producida.

La cámara externa + reconocimiento de imagen produce “vista” que la IA no tiene cuando se crea internamente sin un punto de vista externo.

No. Solo tener una cámara no cambia mágicamente cómo analiza los datos. Todavía va a ser píxel por píxel. Cargará la imagen y tendrá una matriz de RGB y datos similares.

Esos datos se pueden analizar de cualquier manera (por ejemplo, ejecutarlos a través de un ANN como clasificador).

Pregunta interesante, pero en última instancia basada en un malentendido de cómo funciona la visión por computadora.

Confianza: 0,75