¿Por qué hay diferencias en el rendimiento entre modelos idénticos de aprendizaje profundo implementados en diferentes marcos?

Primero, debe estar 100% seguro de que sus diferentes implementaciones son correctas y equivalentes. Sin eso, perderá mucho tiempo buscando las razones.

Los modelos neuronales no son solo sobre los modelos. Los hiperparámetros y las sutiles diferencias en la implementación de optimizadores pueden desempeñar un papel igualmente importante. ¿Utiliza los mismos hiperparámetros, los optimizadores son exactamente iguales?

Es posible que deba optimizar nuevamente para hiperparámetros. Algunas de las implementaciones del optimizador pueden tener diferencias sutiles (por ejemplo, la implementación del impulso de Nesterov en PyTorch es la misma que en el documento, pero Tensorflow usa una especie de pirateo para hacerlo más estable). Quizás no pueda usar los mismos parámetros que en la literatura.

También puede pensar que re-implementó todo con precisión, pero algunas de las cosas que hizo no se comportaron como esperaba. Por ejemplo, en PyTorch “a * b” aplica la multiplicación por elementos, mientras que ” [correo electrónico protegido] ” aplica la multiplicación matricial.

More Interesting

Cómo imaginar la inteligencia artificial dentro de 10,000 años

¿Cómo puede ser útil la IA para responder al problema "difícil" de la conciencia?

¿Cuál es el mejor programa con la mejor IA disponible para interactuar?

¿Cuáles son las posibilidades de que profesiones como abogados y médicos sean reemplazadas por IA para 2067?

Si una IA creara una 'obra de arte', ¿podría considerarse como arte? ¿La computadora o la persona que programó la IA se consideraría como el 'artista'?

¿Cuál es la principal diferencia entre el aprendizaje por refuerzo y el proceso de decisión de Markov?

¿Puedo replicar el auto sin conductor de Google como un proyecto de pasatiempo?

Inteligencia artificial en juegos: ¿cuán complejas son las IA más básicas en los juegos?

¿Se puede reprogramar una red neuronal entrenada como un programa secuencial clásico?

¿Cuán importante ha sido la neurociencia para avanzar en el estado del aprendizaje automático / aprendizaje profundo?

¿Cuál es el estado actual de la investigación de inteligencia artificial?

¿Cuán informativo / útil es usar la extrapolación de hardware para predecir cuándo realmente surgirá un AGI?

Visión por computadora: ¿Cuáles son los trabajos más interesantes de CVPR 2012?

¿Los humanos solo están viviendo computadoras que ejecutan código genético en forma de ADN, y nuestro comportamiento puede explicarse como la interacción entre programas en ejecución en sus contenedores a base de carbono?

¿Qué tan común es que las personas que estudian IA pasen a diseñar IA de videojuegos?