La complejidad de una red neuronal se puede expresar a través del número de parámetros. En el caso de las redes neuronales profundas, este número puede estar en el rango de millones, decenas de millones y, en algunos casos, incluso cientos de millones. Llamemos a este número P.
Sontag (1998) muestra las dimensiones de VC como funciones de P para diferentes tipos de redes y diferentes funciones de activación, si necesita un límite matemático estricto.
En la práctica, una buena cantidad de datos necesarios para entrenar un modelo profundo es más , ya que desea estar seguro de la capacidad del modelo para generalizar. Una buena regla general es al menos [matemática] P ^ 2 [/ matemática], pero si tiene 10000 pesos ya es un problema …
- ¿Por qué API AI no es de código abierto?
- Las computadoras se basan principalmente en conjuntos de características relacionadas con los cálculos, ¿por qué no se construyen con un nivel de interacciones conceptual y orientado al lenguaje?
- Cómo participar en una competencia de Kaggle con una computadora portátil
- ¿Cuál es la diferencia entre skip, mirilla y conexiones residuales en redes neuronales?
- ¿Podríamos crear un software de inteligencia artificial que pueda simular cómo funcionan las tecnologías avanzadas, como viajar en el tiempo, cualquier cosa que podamos imaginar con indiferencia?
El uso de una red neuronal profunda para la clasificación es ciertamente posible incluso si no tiene 10 ^ 12 puntos de datos para el entrenamiento, pero en ese caso no tiene las mismas garantías que con SVM. Esta es una de las razones por las cuales la evaluación de redes profundas sigue siendo un proceso empírico y todo se desarrolla a través de experimentos.
Si es posible, las personas usan todos los datos que pueden obtener, siempre que sigan siendo válidos en general.
Hay varios resultados interesantes, por ejemplo, la comparación entre sigmoide y tanh para la activación y el análisis de modelos secuenciales: http://www.mit.edu/~esontag/FTP_…