Cómo comparar el rendimiento de mis modelos de Deep Learning con puntos de referencia estándar cuando se utiliza el aumento de conjunto de datos

Comenzaste con la misma materia prima (datos de entrenamiento originales) y estás evaluando en el mismo conjunto de pruebas, no veo por qué la comparación no será legítima.

Consideraría que el aumento configurado es parte del método que se está comparando. El “método” no es solo su arquitectura de red. El aumento no requiere nuevos datos de entrenamiento. Para el caso, el mismo aumento podría haberse realizado “dentro” del algoritmo de aprendizaje automático: ¿lo consideraría entonces permisible?

Por otro lado, si está comparando explícitamente las fortalezas de dos arquitecturas de red, entonces probablemente ambas deberían * explotar el tren en el mismo conjunto de imágenes (conjunto de entrenamiento + aumento). De lo contrario, es difícil decir si la diferencia en el rendimiento proviene de las diferencias de arquitectura o de los datos de entrenamiento.

* En realidad, incluso entonces, es (raro pero) posible que un modelo solo tenga un rendimiento peor debido (!) Al aumento, en cuyo caso lo más correcto sería usar la configuración para cada modelo que produzca el mejor rendimiento. ¡Efectivamente, trate el aumento como un hiperparámetro!

Por lo que he visto, parece que las personas generalmente no son lo suficientemente pedantes como para que los resultados en algunos conjuntos de datos se consideren incomparables cuando se usan pequeños trucos de ingeniería como el aumento de datos. Quizás el caso más famoso que uno puede señalar es el experimento descrito en Clasificación de Imagenet con redes neuronales convolucionales profundas. Utilizó el aumento de datos, pero se considera que ganó bastante el concurso imagenet 2012 y su rendimiento se cita sin asteriscos o renuncias de responsabilidad. Simplemente no es gran cosa; La única razón por la que los fanáticos de la visión por computadora como yo incluso recordamos sus trucos de ingeniería es porque ese papel es tan importante.

ya tienes tu respuesta pero déjame que sea breve:

  1. Para la evaluación comparativa, solo los conjuntos de prueba deben ser iguales.
  2. el aumento de datos es algo que haces en el conjunto de entrenamiento.

eso es bonito en realidad.

More Interesting

¿Cuáles son los mejores métodos para el reconocimiento robusto de caracteres en MATLAB u OPENCV?

En la Bayes Net dada, ¿existe un caso de explicación del fenómeno?

¿Cómo aprendiste Machine Lerning?

¿Cuáles son las aplicaciones industriales del algoritmo vecino K más cercano?

¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?

Para un problema de clasificación supervisada, primero busque grupos a través de un algoritmo de aprendizaje no supervisado, y para los miembros en el mismo grupo, asigne la misma etiqueta según un voto mayoritario. ¿Funciona bien?

¿Cuáles son los documentos más importantes en el aprendizaje activo?

Cómo construir un sistema de aprendizaje automático para la revisión automática de código

¿Qué trabajo se ha hecho para aplicar la detección de nuevos eventos a eventos sociales en los que los usuarios estarían interesados ​​(es decir, conciertos)?

¿Son los métodos de aprendizaje automático una especie de interpolación, mientras que los métodos de series temporales actúan como métodos de extrapolación?

¿Cuáles son los inconvenientes de usar RL con funciones de aproximación en altas dimensiones? ¿Cómo aprender la función de recompensa 0-1 (regresión logística)?

¿Cuál es la importancia del lenguaje de programación Erlang para el aprendizaje automático?

¿Se pueden usar los modelos ocultos de Markov como clasificadores binarios? Si es así, ¿cómo?

¿Qué intentos hay para crear redes neuronales más similares al cerebro biológico?

¿Qué pasa si el universo está aprendiendo y cambiando sus teorías fundamentales? ¿Puede haber una teoría unificada entonces?