¿Cuántas imágenes se requieren para las redes adversas generativas (GAN)?

Comencemos con los conjuntos de datos que se usaron en I. Artículo de Goodfellow sobre GAN https://arxiv.org/pdf/1406.2661.pdf:

Donde: a) MNIST , b) TFD , c) CIFAR-10 (modelo totalmente conectado) yd) CIFAR-10 (discriminador convolucional y generador “deconvolucional”).

  • La base de datos MNIST de dígitos escritos a mano, disponible en esta página, tiene un conjunto de capacitación de 60,000 ejemplos y un conjunto de prueba de 10,000 ejemplos.
  • Toronto Facial Dataset (TFD) es un conjunto de datos de 32 × 32 imágenes en escala de grises (probablemente contiene 2.925 imágenes etiquetadas para capacitación y validación). No es tarea fácil obtener acceso a este conjunto de datos, ya que puede contener datos privados o algo así.
  • El conjunto de datos CIFAR-10 consta de 60,000 imágenes en color 32 × 32 en 10 clases, con 6,000 imágenes por clase. Hay 50,000 imágenes de entrenamiento y 10,000 imágenes de prueba.

También hay un artículo sobre “Síntesis generativa de texto adverso a imagen” https://arxiv.org/pdf/1605.05396…:

Utilizaron los siguientes conjuntos de datos:

  • Caltech-UCSD Birds es un conjunto de datos de imágenes con fotos de 200 especies de aves. El número total de imágenes es 6.033 .
  • Conjunto de datos Oxford-102 Flowers consta de 102 categorías de flores con un número entre 40 y 258 imágenes por categoría.

Espero que ayude a descubrir la cantidad de imágenes para entrenar bien sus GAN s

La forma de responder a lo que está buscando saber es estableciendo puntos de referencia, en lugar de intentar darle un número específico porque hay muchos conjuntos de datos y formulaciones GAN. La gente ha lanzado un código en línea fácil de usar, por lo que es bastante sencillo establecer estos puntos de referencia usted mismo si tiene una GPU o unos pocos dólares para alquilar un servicio en la nube. Tenía una curiosidad similar a la suya y usé el código al que me vinculé para entrenar una GAN con hiperparámetros predeterminados durante 25 épocas en el conjunto de entrenamiento COCO. Termina generando imágenes como esta:

Por lo tanto, decenas de miles de imágenes naturales tomadas manualmente por los fotógrafos son suficientes para entrenar un modelo que puede hacer un comedor reconocible pero trippy (coordenada [1,0] en la cuadrícula), la hierba aparece en lugares razonables en escenas aparentemente al aire libre a lo largo con algunos artefactos manchados, una visualización bastante impresionante de la luz que ingresa a una habitación oscura a través de puertas ligeramente abiertas (coordenada [2,0] en la cuadrícula), y muchas cosas que no son reconociblemente similares a nada en el mundo real.

Curiosamente, no hay personas ocurriendo aquí a pesar de que son muy comunes en el conjunto de datos COCO. Supongo que eso significa que el discriminador gana en la batalla de las personas con este conjunto de datos y la formulación GAN.

More Interesting

¿Puede el aprendizaje automático ayudar en la detección de malware? ¿Cuáles son los cuellos de botella en tal implementación de ML?

Aprendí algo de teoría de la probabilidad, pero aún me cuesta leer el aprendizaje automático: una perspectiva probabilística. ¿Qué libro de texto de teoría de probabilidad me recomiendan para estudiar el aprendizaje automático?

¿Puede una sola red neuronal de capa oculta aprender a jugar Atari Pong desde píxeles sin formato de un solo cuadro?

Procesamiento del lenguaje natural: ¿De qué maneras puedo probar el error de aplicar un modelo de tema a los tweets, dado que no hay un corpus conocido de etiquetas de temas?

¿Cuál es el mejor modelo de predicción de la siguiente palabra en R?

¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

¿Qué modo de Anaconda se debe usar para los algoritmos de aprendizaje automático?

¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?

¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?

¿Pueden los algoritmos de aprendizaje profundo predecir los resultados de los partidos deportivos?

¿Qué recursos debo usar para comenzar a aprender Machine Learning durante el verano con mi educación actual?

Cómo explicar intuitivamente los tensores

¿Qué tipos de carreras hay para los ingenieros informáticos que se concentran en la inteligencia artificial y la máquina?

¿Cuál es el propósito de usar más de una capa convolucional en una red neuronal convolucional?

¿De qué manera la empresa promedio utilizará tecnologías de visión por computadora dentro de 20 años?