Cómo comparar el rendimiento de mis modelos de Deep Learning con puntos de referencia estándar cuando se utiliza el aumento de conjunto de datos

Comenzaste con la misma materia prima (datos de entrenamiento originales) y estás evaluando en el mismo conjunto de pruebas, no veo por qué la comparación no será legítima.

Consideraría que el aumento configurado es parte del método que se está comparando. El “método” no es solo su arquitectura de red. El aumento no requiere nuevos datos de entrenamiento. Para el caso, el mismo aumento podría haberse realizado “dentro” del algoritmo de aprendizaje automático: ¿lo consideraría entonces permisible?

Por otro lado, si está comparando explícitamente las fortalezas de dos arquitecturas de red, entonces probablemente ambas deberían * explotar el tren en el mismo conjunto de imágenes (conjunto de entrenamiento + aumento). De lo contrario, es difícil decir si la diferencia en el rendimiento proviene de las diferencias de arquitectura o de los datos de entrenamiento.

* En realidad, incluso entonces, es (raro pero) posible que un modelo solo tenga un rendimiento peor debido (!) Al aumento, en cuyo caso lo más correcto sería usar la configuración para cada modelo que produzca el mejor rendimiento. ¡Efectivamente, trate el aumento como un hiperparámetro!

Aprendizaje automáticoAprendizaje profundoRedes neuronales artificiales

Cómo crear una representación jerárquica de un conjunto de objetos usando una red neuronal

¿Cuáles son los algoritmos principales detrás de Google Translate?

¿Qué es mejor: un tema fundamental de doctorado de ML o uno aplicado?

¿Cómo decidimos la clase de clústeres generados a través del clúster k-means?

¿Qué dice el profesor Yaser Abu-Mostafa en su conferencia sobre la viabilidad del aprendizaje?

¿Cuál es mejor, el modelo de regresión o ecuación estructural, y por qué?

Por lo que he visto, parece que las personas generalmente no son lo suficientemente pedantes como para que los resultados en algunos conjuntos de datos se consideren incomparables cuando se usan pequeños trucos de ingeniería como el aumento de datos. Quizás el caso más famoso que uno puede señalar es el experimento descrito en Clasificación de Imagenet con redes neuronales convolucionales profundas. Utilizó el aumento de datos, pero se considera que ganó bastante el concurso imagenet 2012 y su rendimiento se cita sin asteriscos o renuncias de responsabilidad. Simplemente no es gran cosa; La única razón por la que los fanáticos de la visión por computadora como yo incluso recordamos sus trucos de ingeniería es porque ese papel es tan importante.

Erdem Gökgezer

ya tienes tu respuesta pero déjame que sea breve: