¿Por qué los marcos de aprendizaje automático convergen con diferentes resultados de precisión al comparar entre diferentes procesadores?

En primer lugar, quiero decir que la convergencia de las redes neuronales es bastante inexacta . Si bien a menudo utilizamos la precisión del entrenamiento o la precisión de la validación como criterio de detención, no se garantiza que el resultado sea el óptimo matemático. Estrictamente en la optimización numérica consideraremos si el gradiente es lo suficientemente pequeño, si la función en sí es convexa y podríamos investigar su matriz de gradiente de 2 órdenes. Además, las optimizaciones en las redes neuronales contienen demasiadas cosas inexactas, como la tasa de aprendizaje, el tamaño de lote estocástico, los datos que utilizamos, etc. Por eso a menudo decimos que el proceso de capacitación de las redes neuronales no se ha entendido bien .

Regrabando la publicación de su enlace, he leído el resultado de la página de github, pero no puedo encontrar la metodología utilizada por el autor. Si se utiliza el método de descenso de gradiente estocástico, entonces el resultado no tendría sentido. Sin embargo, si el autor utilizó datos completos para realizar el descenso de gradiente y usar una longitud de paso fija y el mismo optimizador, entonces podría haber algunas otras explicaciones. Una explicación podría ser la precisión entre diferentes dispositivos.

Realmente no deberían. Mirando el ejemplo que observa, parece que la persona que ejecuta estos puntos de referencia solo informa sobre el ruido. Todo en el tercer o cuarto decimal. Casi cualquier elemento de estocasticidad en su modelo causará cambios en este orden de magnitud.

Técnicamente, podría deberse a un código de máquina muy sutilmente diferente que se ejecuta en el backend, por ejemplo, alguien que agrega un poco más / menos precisión a los flotadores que usan debajo de su capó.

Sin embargo, lo importante es que esos puntos de referencia NO reflejan la realidad. Es totalmente inexacto decir que un marco es inherentemente más preciso que otro. Cualquier hallazgo a ese efecto será totalmente intrascendente (como en los puntos de referencia que ha presentado) y variará enormemente tanto entre las tareas como entre las ejecuciones.

More Interesting

¿Qué hacen las compañías de inteligencia artificial en estos días?

¿Por qué la gente me llama gay si soy heterosexual?

¿Las 'muñecas inteligentes' tienen personas que escuchan lo que dicen los niños para ajustar las respuestas de la muñeca?

¿Pueden los modelos supervisados ​​de aprendizaje automático aprender características de los datos de entrenamiento?

¿Deberíamos tener leyes que limiten los tipos de trabajos que la IA reemplazaría? Si es así, ¿qué trabajos serían?

¿Alguna vez ha habido una situación en la que la IA no funcionó correctamente e hizo algo para lo que no estaba programada?

Mark Zuckerberg de Facebook es un ávido defensor del ingreso básico universal (UBI) ya que la IA pronto reemplazará a la mayoría de los trabajadores (incluso los médicos). A partir de ahí, ¿nos volveremos más pobres?

¿Cómo se enseña la Inteligencia Artificial (IA) y el Aprendizaje automático (ML) en las universidades de 2/3 niveles en la India?

¿Qué piensan los informáticos sobre los comentarios de Sam Harris sobre IA?

¿Cómo debería un principiante comenzar a aprender 'comercio algorítmico' si se siente cómodo y confiado sobre los conceptos y habilidades de aprendizaje automático?

Cómo programar un software básico de estacionamiento autónomo

¿Podemos esperar que Autodesk presente algún tipo de ayuda de IA para AutoCad como Cortana o Siri?

¿Qué piensan los neurocientíficos de las redes neuronales computacionales y el aprendizaje profundo?

¿Por qué el Servicio Meteorológico Nacional no usa inteligencia artificial para predecir el clima?

Si los humanos y las máquinas se unieran algún día, ¿qué forma superior podríamos trascender al siguiente?