La definición de una gran red neuronal es demasiado abstracta. De hecho, no hay nada llamado una gran red neuronal. Las redes neuronales o nnets dependen de la tarea, por ejemplo, una red neuronal de avance (o más comúnmente un perceptrón multicapa), con 3 capas ocultas y una función de transferencia no lineal debería poder funcionar bien en un problema de clasificación no lineal. Los últimos MLPS profundos (unos con más de 3 capas ocultas) se han utilizado con éxito en el reconocimiento de dígitos MNIST [Ciresan, Schmidhueber], lo que arroja precisiones de reconocimiento muy altas. En el caso de secuencias en las que desearía explotar dependencias temporales, las redes neuronales recurrentes han demostrado ser muy útiles. Todo depende del tipo de enunciado del problema que tenga, y como ya señaló Lucian Sasu, debe conectar y jugar con diferentes combinaciones de parámetros de red como velocidad de aprendizaje, impulso, cantidad de neuronas ocultas. (El sitio web de Deep Learning tiene información sobre cuál debería ser el número de nodos ocultos que utiliza). Además, algunas técnicas de preprocesamiento como el Análisis de componentes de Prinicipal resultan útiles si los datos tienen demasiadas características altamente correlacionadas, antes de pasar los vectores de características a la red neuronal.
Para responder a su pregunta, la mejor manera de comenzar es escuchar las conferencias del curso de aprendizaje automático del profesor Andrew Ng o las conferencias del profesor Hinton en redes (los videos se archivan en el curso). Aparte de eso, debe leer los conceptos básicos de álgebra lineal y estadísticas. Junto con esto, algunos conocimientos de algoritmos de optimización estándar (más específicamente algoritmos de descenso de gradiente) son de gran ayuda. Existen bibliotecas estándar para agregar rápidamente módulos de algoritmos de aprendizaje para habilitar su clasificador de redes neuronales.
El punto más importante, como dije antes, es entender qué tarea desea que haga su red neuronal. Por ejemplo, no querría que una red neuronal profunda aprendiera algo que un perceptrón podría hacer fácilmente.
- ¿Cuál es la mejor manera (habitual) de combinar los puntajes tf-idf para cada documento que un usuario ha visto al crear un perfil para este usuario?
- ¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT?
- ¿Qué habilidades de programación / habilidades informáticas debo aprender si quiero especializarme en visión por computadora y aprendizaje automático?
- ¿Dónde se usa la función de pérdida con clases verdaderas desconocidas?
- ¿Siri es una forma de aprendizaje automático?