¿Cuál es la mejor manera de crear un conjunto de redes neuronales?

La deserción es una técnica de regularización para evitar el sobreajuste en grandes redes neuronales. Es algo análogo a un conjunto, pero realmente está entrenando a un modelo único. Usaría el abandono además de un método de aprendizaje de conjunto real.

Para aprender un conjunto, recomendaría la opción # 3: crear un conjunto de modelos con diferentes estructuras o configuraciones de parámetros. Desea que estos modelos tengan sesgos algo diferentes para que cometan errores diferentes y puedan corregirse entre sí. El premio de Netflix se ganó con un conjunto de muchos tipos diferentes de modelos.

El refuerzo está diseñado para estudiantes débiles, y las redes neuronales (especialmente las profundas) son muy poderosas. Si una sola red neuronal puede obtener una precisión perfecta en los datos de entrenamiento, entonces no queda nada por impulsar.

El empaquetamiento podría ayudar a algunos, pero creo que obtendría más millaje al variar la estructura de la red que al variar sus datos de entrenamiento.

Pero, ¿por qué no probar varios de estos enfoques y compararlos con datos de validación retenidos? La respuesta correcta podría depender del conjunto de datos e incluso podría ser una combinación de varios métodos.

Mi sugerencia súper hacky: probablemente podría crear un conjunto de redes neuronales con diferentes parámetros para medir salidas contra valores razonables y elegir la correcta (la que mejor se ajuste) a través de un modelo de marca oculta.

More Interesting

¿Las GPU seguirán dominando la inteligencia artificial y el aprendizaje automático, aumentando el valor de compañías como Nvidia y AMD, o los chips especializados como los de Graphcore se harán cargo?

¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?

¿Cuál es la medida cuantitativa sofisticada de la similitud de textos además de usar la similitud de coseno?

¿Cuáles son los principales desafíos en el aprendizaje semi-supervisado?

¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?

Intuitivamente, ¿cómo funcionan los multiplicadores de Lagrange en SVM?

¿En qué se diferencia una empresa financiera cuantitativa de un fondo de cobertura típico?

¿Puedo ser un ingeniero de aprendizaje automático con habilidades en desarrollo web y móvil?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Un doctorado en aprendizaje automático centrado en un tema que no sea el aprendizaje profundo seguirá siendo comercializable (en la industria) en 2020?

¿Cuáles son algunas historias de éxito para Dirichlet Process Clustering?

¿Debería centrarme en conseguir un trabajo o aprender ciencia de datos?

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

¿Cuál es la diferencia entre neurociencia, neurobiología, neuroingeniería y neuropsicología?

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?