Al entrenar un modelo de Deep Learning, ¿importa la secuencia o el orden de las muestras en los datos de entrenamiento? La tecnología cambia la vida futura

Hablando estrictamente, el impacto que las variaciones en la secuencia de datos de entrenamiento pueden tener en un modelo de red neuronal depende completamente del paradigma de aprendizaje que haya implementado. Debido a que no sé qué tan familiarizado está con el campo y también debido a la posibilidad de que los legos encuentren esta respuesta, intentaré explicar esto en un lenguaje no técnico:

Neuroplasticidad en el aprendizaje

Ya sea que lo sepan o no, la mayoría de las personas están familiarizadas con el concepto de neuroplasticidad: las redes neuronales cambian y se adaptan en respuesta a pares de entradas y resultados del mundo real. Además, está bien documentado que la plasticidad es grande o pequeña dependiendo de la familiaridad de un sujeto con estos emparejamientos estímulo-resultado. Para ser específicos, si has visto una moneda voltearse suficientes veces, gradualmente construyes un modelo mental de la probabilidad de que la moneda caiga en cara o cruz. A medida que aumenta el número de vueltas que observa, aumenta su certeza de la probabilidad y hay un cierto retorno decreciente de cada observación adicional. Si nunca ha visto una moneda o no ha pensado en la probabilidad del resultado de lanzarla, podría beneficiarse más al observar algunos lanzamientos en relación con alguien que ya había ajustado su modelo mental de este juego de probabilidades.

Entrenamiento temprano vs. tardío

Para construir sobre la idea de cambios en la neuroplasticidad con la familiaridad de la tarea, proporciono un ejemplo adicional de rehabilitación auditiva temprana versus tardía con implantes cocleares. Las habilidades del lenguaje, incluida la entonación, la pronunciación y la comprensión, son mejores para quienes recibieron implantes dentro de ventanas críticas del neurodesarrollo que para quienes no lo recibieron [1]. Estas ventanas de desarrollo críticas, relacionadas con la plasticidad cerebral, se definen como “el tiempo durante el desarrollo cuando una manipulación o experiencia específica cambia la trayectoria de desarrollo de un sistema” [2]

Trayectorias del desarrollo

Los mecanismos sinápticos y neuronales a microescala que emergen como plasticidad cognitiva son mucho más complejos que las reglas de aprendizaje utilizadas actualmente para el aprendizaje automático; Predigo que esto cambiará con el tiempo a medida que los modeladores se den cuenta de las ventajas que tiene este realismo biológico sobre el estado actual de la técnica. Recordando el ejemplo de la trayectoria de aprendizaje que señalé anteriormente, puede ver cómo un cambio en la trayectoria temprana o tardía en la capacitación de un modelo podría tener resultados dramáticamente diferentes. Para vincular esto con nuestro ejemplo inicial de lanzamiento de monedas, un apostador experimentado no abandonaría su modelo mental de probabilidades de 1 en 2 para caras, incluso si veía una moneda caer sobre las cabezas diez veces seguidas, mientras que un novato podría ser más fácilmente convencido (para su gran detrimento) que una moneda que cae sobre su cabeza diez veces seguidas aprovecha su propia física especial para hacerlo.

Volver al aprendizaje profundo

Al entrenar un modelo, si tiene una regla de aprendizaje que cambia con el tiempo (es decir, más o menos flexible con las iteraciones), entonces el modelo se ve influenciado positivamente por el orden de emparejamiento estímulo-resultado al que se introduce [3]. Si tiene un sistema de este tipo, experimente con esto agrupando sus entradas por función de una manera ordenada y luego compare su modelo ajustado con uno en el que estas entradas sean aleatorias.

¡Espero que esto haya sido útil!

Notas al pie

[1] http: // Tomblin, JB, Barker, B …

[2] http: // Bruer, J. (2001). Una crítica …

[3] http: // Weber, C., Elshaw, M., Nosotros …

análisisAnálisis de datosAprendizaje automáticoAprendizaje profundoCiencia de datosInteligencia Artificialmodelado predictivopredictivoRedes neuronales artificialesTendencias tecnológicas