En primer lugar, quiero decir que la convergencia de las redes neuronales es bastante inexacta . Si bien a menudo utilizamos la precisión del entrenamiento o la precisión de la validación como criterio de detención, no se garantiza que el resultado sea el óptimo matemático. Estrictamente en la optimización numérica consideraremos si el gradiente es lo suficientemente pequeño, si la función en sí es convexa y podríamos investigar su matriz de gradiente de 2 órdenes. Además, las optimizaciones en las redes neuronales contienen demasiadas cosas inexactas, como la tasa de aprendizaje, el tamaño de lote estocástico, los datos que utilizamos, etc. Por eso a menudo decimos que el proceso de capacitación de las redes neuronales no se ha entendido bien .
Regrabando la publicación de su enlace, he leído el resultado de la página de github, pero no puedo encontrar la metodología utilizada por el autor. Si se utiliza el método de descenso de gradiente estocástico, entonces el resultado no tendría sentido. Sin embargo, si el autor utilizó datos completos para realizar el descenso de gradiente y usar una longitud de paso fija y el mismo optimizador, entonces podría haber algunas otras explicaciones. Una explicación podría ser la precisión entre diferentes dispositivos.
- ¿Tinder utiliza el aprendizaje automático para priorizar las tarjetas?
- ¿Los chatbots se arruinarán y perderán tracción?
- ¿Podrían usarse las redes neuronales para criar un perro al estilo de un campeón?
- ¿Cómo hacen empresas como Microsoft para hacer inteligencia artificial, y se crea a partir de software prefabricado como Visual Studio u otra cosa?
- ¿Qué son buenos robots que hablan en 2016?