¿Cuál es la forma estándar de configurar la capacitación de una red neuronal para un trabajo de investigación?

Creo que debería usar la configuración que funciona para sus datos. Si va a utilizar técnicas estándar, arquitecturas, etc., no habrá problemas con la publicación; por estándar me refiero a las cosas NN que puede citar fácilmente. Entonces, por ejemplo, ha utilizado la activación de ReLU y está funcionando bien para usted, por lo que está bien, porque puede citar fácilmente el artículo donde se presentó ReLU. Puede haber un problema cuando se te ocurre alguna nueva función de activación (por ejemplo) y la usas con tu problema sin presentar pruebas, puntos de referencia y teoría de cómo funciona.

Entonces, por “estándar” entiendo todas las técnicas de NN que se publicaron.

Y, por ejemplo, si va a entrenar a NN durante 50 épocas y utilizará un tamaño de lote de 1024, simplemente escriba esto en su artículo. Lo ideal sería si tiene alguna explicación de por qué usó 50 épocas, por ejemplo: “Observamos que el entrenamiento con 50 épocas y 1024 tamaños de lote es suficiente para que NN converja” y trace el entrenamiento de la red en su artículo.

Para obtener más detalles sobre los “estándares”, puede consultar el artículo de Y.Bengio https://arxiv.org/pdf/1206.5533v…

¡Buena suerte!

No existe tal estándar.

El número de épocas que necesita puede ser 50 o 5000. El tamaño del lote puede ser 16 o 4096. Una u otra inicialización puede funcionar o no, o puede ser que no importa en absoluto. La normalización por lotes puede empeorar el rendimiento o mejorar.

Todo esto depende de su problema, conjunto de datos y de lo que desea discutir en el documento. Siempre y cuando pueda explicar la justificación de sus decisiones, puede usar cualquier configuración.

Pero si desea comparar directamente su método con otro método publicado, con el mismo conjunto de datos (o similar), puede usar la configuración utilizada por ese estudio.

More Interesting

¿Cómo beneficiará la inteligencia artificial al mundo de los profesionales de TI en Sudáfrica en el futuro?

¿Qué tan lejos estamos de poder programar una computadora para distinguir buena música de mala música o ruido, de forma similar a como lo hace un humano?

¿Cuántas cosas más podrían hacer económicamente los robots?

¿Por qué la arquitectura ARM no es adecuada para el aprendizaje automático?

¿Qué significa que LSTM sea multicapa?

¿Qué algoritmos de aprendizaje automático se pueden considerar entre los mejores?

¿Dónde debo comenzar a desarrollar Chatbot desde el principio?

¿Es mejor aprender IA sobre ML, en caso de que ML se vuelva obsoleto?

¿Es posible, utilizando la tecnología actual de drones, robótica y IA, diseñar y fabricar pequeños mini robots humanoides controlados a distancia que puedan correr, volar, penetrar en áreas seguras y llevar a cabo espionaje, asesinato y guerra?

¿Qué pasaría con el dinero y la economía si en el futuro los robots y la Inteligencia Artificial vuelven obsoletos la mayoría (si no todos) los trabajos?

¿Son las computadoras reales idénticas a las máquinas de Turing?

¿Cuáles son los mayores defectos en la IA de Age of Empires II?

¿Qué trabajos no pueden ser reemplazados por robots?

Escribí un artículo que mejora la complejidad del tiempo (cúbico a cuadrático en el número de dimensiones de entrada) de una técnica de modelo de mezcla Gaussiana incremental. ¿Qué revista sería apropiada para publicar?

¿El aprendizaje automático es parte de la inteligencia artificial?