¿Importa el número de imágenes para cada categoría mientras se entrena para una red neuronal convolucional?

La respuesta corta suele ser sí. En mi experiencia, es uno de los parámetros más influyentes en el rendimiento de su algoritmo. A menudo, más que tener la última y mejor arquitectura de red.

Cuantas más imágenes tenga, más precisos serán sus pesos al generalizar para esta categoría. Hay algunas advertencias:

  1. Si el dominio de interés es similar a un conjunto de datos existente donde puede encontrar una red previamente capacitada, necesitará significativamente menos datos. Debería mirar el aprendizaje de transferencia, también conocido como ajuste fino para eso.
  2. Si la clase de objetos que está buscando tiene una gran variabilidad, necesitará más datos, si es una clase de objeto simple, menos datos.
  3. Si desea saber en su proyecto actual si necesita ‘más datos’, ‘modelo más profundo’, etc. Le sugiero que mire el curso de Andrew en Coursera, es un tema favorito suyo, que considero que debe saber.

Sí, lo hace y conduce al problema de desequilibrio de clase.

Esto hace que la red neuronal aprenda principalmente de las características de las clases sobrerrepresentadas, por lo tanto, se desempeña mejor en esa clase que la clase subrepresentada.

Existen varias técnicas para resolver esto, como el submuestreo o el sobremuestreo.

  • Submuestreo : reduzca el número de ejemplos / imágenes en la clase sobrerrepresentada para que coincida con la de la clase subrepresentada.
  • Sobremuestreo : aumente el número de ejemplos / imágenes en la clase subrepresentada para que coincida con el de la clase sobrerrepresentada.

Esto se puede lograr mediante el aumento de datos.

More Interesting

¿Qué es una comprensión intuitiva del análisis factorial?

¿Es la tasa de falso rechazo (FRR) similar a la tasa de falsos positivos (FPR)? Entonces, si es similar, ¿por qué hay disponibles diferentes definiciones para cada una de ellas?

¿En qué año la publicidad de AI / Machine Learning se pondrá al día con la realidad?

¿Un descenso de gradiente funciona en Big Data?

¿Qué te emociona del futuro del aprendizaje automático?

¿Cómo funcionan los aceleradores de procesador?

¿Por qué Quora eligió a HackerRank como plataforma para organizar sus competiciones de ML en lugar de algún sitio más familiar como Kaggle?

¿Alguien ha usado ML para hacer un diseño * no trivial * de algoritmos CS de bajo nivel (ver comentarios)?

Además de las redes neuronales profundas, ¿existen antecedentes para cálculos largos con una inferencia máxima a posteriori eficiente?

Cómo aplicar mis conocimientos de aprendizaje automático para invertir en el mercado de valores indio

¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

¿Tiene sentido tener un conjunto de validación y realizar una validación cruzada al construir modelos?

¿Cuál es una explicación intuitiva del algoritmo wake-sleep?

¿Por qué la regresión logística es generalmente resistente al sobreajuste en el aprendizaje automático?