¿Cuál debería ser el tamaño apropiado de los datos de entrenamiento mientras se entrena una red neuronal?

La complejidad de una red neuronal depende del número de parámetros sobre los que se entrena. Si tiene n capas, incluidas las capas de entrada y salida, y la capa i-ésima tiene X (i) número de nodos, entonces el número de parámetros para una red neuronal de avance es Sum ((X (i) +1) * X (i + 1)) para todas las capas excepto la salida ya que no continúa.
Ahora, en general, el número es enorme y debería requerir una gran cantidad de datos (algunas personas dicen que al menos el cuadrado (P) donde P es el número de parámetros . Pero, ha habido muchos experimentos que encuentran un giro interesante sobre este problema.

Las capas más profundas de una red neuronal se entrenan muy lentamente y las características que extraen estas capas funcionan como clasificadores débiles que las capas superiores refinan y utilizan para dar una predicción mucho mejor mediante el uso de la sabiduría colectiva. Entonces, en realidad, una red neuronal converge a un mínimo mucho más rápido entrenando solo la última capa usando las salidas de la última capa oculta como clasificadores débiles y hace el mejor uso de ellas y lentamente se hace aún mejor al entrenar estas capas también para obtener características más significativas en el capas ocultas anteriores.

En la práctica, incluso un pequeño conjunto de datos puede proporcionar un buen rendimiento si utiliza las mejores prácticas, como la regularización y el abandono.

Entrené solo el 3% de los datos elegidos al azar de la traducción al inglés de Mahabharat (An Indian Epic) en el modelo skipgram de word2vec que involucraba una red neuronal de tamaño 10000 * 1024 * 10000 (número de parámetros = 10000 * 1024 + 1024 * 10000 = 20480000) con un conjunto de datos de 3221078 (2% de los cuales son solo 96k) y los resultados fueron bastante sorprendentes.

Fue capaz de obtener los significados sintácticos correctos de las palabras, las predicciones fueron gramaticalmente correctas y las salidas del vector de palabras se agruparon correctamente de acuerdo con la similitud de significado y contextos. Por ejemplo, de la palabra “krishna” las palabras más cercanas fueron “keshava”, “janardana” y “madhusudana” (en minúscula todo el documento antes de entrenar).
Entonces, prácticamente dependiendo de la cantidad de nodos de la capa de salida, incluso una cantidad considerablemente pequeña de datos puede entrenar las redes neuronales para que funcione con una precisión significativa.

More Interesting

¿Por qué la comunidad de IA, incluso las principales empresas líderes, cree en la inteligencia artificial por el cerebro / neurociencia?

¿Qué piensas sobre el auge del aprendizaje automático?

¿Qué tan difícil sería escribir una IA para jugar el juego móvil Clash Royale?

¿Cuáles son algunos artículos disponibles sobre conexiones entre IA y cálculo lambda / teoría de tipos o razonamiento automatizado?

¿Por qué los subtítulos generados automáticamente en YouTube son tan malos?

Si la IA tiene la capacidad de dominar el mundo, ¿por qué la estamos desarrollando?

¿Cuándo reemplazará la inteligencia artificial a los teléfonos inteligentes?

¿Cómo se aplica la inteligencia artificial a los sistemas de transmisión automática en automóviles?

Escribí un artículo que mejora la complejidad del tiempo (cúbico a cuadrático en el número de dimensiones de entrada) de una técnica de modelo de mezcla Gaussiana incremental. ¿Qué revista sería apropiada para publicar?

¿Es el aprendizaje profundo un puente entre la lógica inductiva y deductiva?

¿Es posible crear una IA que no solo pueda hacer sino comprender ART?

¿Por qué Estados Unidos no reemplaza a los inmigrantes con inteligencia artificial?

¿Cuál es la diferencia entre un sistema basado en el conocimiento y un sistema experto?

¿Podría la inteligencia artificial crear los primeros cuatrillonarios?

¿Cómo debo comenzar el aprendizaje automático? ¿Cuáles son los requisitos previos?