Estoy de acuerdo con la predicción del Dr. Goodfellow de alejarse de una visión centrada en la optimización. Después de todo, gran parte del aprendizaje humano no parece tener el carácter de optimización. Más bien, gran parte de lo que aprendemos, es decir, gran parte de lo que termina en nuestra memoria a largo plazo es altamente específico, idiosincrásico, y obviamente no está relacionado con ninguna tarea práctica, por ejemplo, la clasificación. Este tipo de memoria, es decir, memoria detallada de experiencias específicas basadas en ocurrencias únicas (ensayos individuales, una sola vez), se llama memoria episódica y se contrasta con la memoria semántica , que es el conocimiento general de las clases, las reglas (incluidas las reglas probabilísticas) , etc., en otras palabras, el conocimiento de la estructura estadística del mundo, que el cerebro de alguna manera destila del flujo continuo de experiencias individuales.
Creo que el próximo gran avance en el aprendizaje automático (ML) será un cambio de paradigma en cómo se representa la información, específicamente una apreciación / realización por parte de la comunidad de ML de que el cerebro representa información con representaciones distribuidas dispersas (SDR) [que no es lo mismo como “codificación dispersa” (cf. Olshausen & Field)] en lugar de representaciones densas / totalmente distribuidas (FDR) o representaciones localistas (LR). En términos generales, GOFAI usó LR, los NN de los 80 usaron DDR, los modelos de probabilidad gráfica (GPM) de los 90, por ejemplo, Bayes Nets, volvieron en gran medida a LR, el aprendizaje profundo (DL) regresó en gran medida a DDR (aunque el abandono y el cálculo condicional son visibles como parciales se mueve hacia SDR), y los enfoques recientes de Neural Turing Machine (NTM) y Memory Network (MN), agregan un componente LR (el almacén de memoria) a las redes DL (que, nuevamente, esencialmente usan DDR). Sin embargo, se ha ido acumulando evidencia neuronal de que el cerebro representa información utilizando SDR, es decir, pequeños subconjuntos de neuronas elegidas de campos de codificación mucho más grandes representan conceptos. SDR es esencialmente sinónimo de “ensamblaje celular” de Hebb, o como los llama Rafael Yuste, “conjuntos”.
La razón más convincente por la que SDR se destacará es la eficiencia computacional. Específicamente, SDR admite un algoritmo para el cual la cantidad de pasos necesarios para almacenar un nuevo elemento y recuperar el elemento más cercano se mantiene fija a medida que crece la cantidad de elementos almacenados, lo que yo denomino complejidad de tiempo fijo (que se muestra en Rinkus 1996, 2010 , 2014, 2017). Hasta el momento, no se ha demostrado que ningún modelo DL, ni ninguna otra clase de modelo, incluidos los modelos de hash, por ejemplo, hashing sensible a la localidad, hashing semántico, hashing adaptativo, posean una complejidad de tiempo constante tanto para el almacenamiento (aprendizaje) como para la recuperación de coincidencias más cercanas . Con la creciente necesidad y oportunidad de extraer conjuntos de datos cada vez más grandes, la complejidad del tiempo computacional finalmente anula todas las demás consideraciones. Con este fin, mi enfoque de investigación actual es demostrar que explotar esta eficiencia de tiempo fijo de SDR junto con la composición jerárquica (recursiva) produce una verdadera complejidad de tiempo constante tanto para el almacenamiento como para la recuperación de coincidencias más cercanas, no solo para patrones puramente espaciales sino también para secuencias también, y con muy alta capacidad de almacenamiento. Ver la respuesta relacionada de Quora.
- ¿Cómo se relacionan los modelos gráficos probabilísticos (PGM) con el aprendizaje automático?
- ¿Tomarías órdenes de un robot AI?
- ¿Cómo se codifica algo como AlphaGo de Google DeepMind? ¿Cuántas líneas de código se utilizan para construir un programa tan avanzado?
- ¿Puede una inteligencia artificial creer algo?
- Si hay un modelo perfecto para predecir el precio de una acción, ¿qué efectos se producirían en el precio en función del número de comerciantes que obtuvieron este modelo?
Claramente, DL ha estado derribando los puntos de referencia de clasificación ML y avanzando a pasos agigantados aprendiendo modelos generativos, como lo demuestra el éxito en los juegos, por ejemplo, AlphaGo y la traducción automática. Sin embargo, parece que todas las soluciones DL de última generación (SOA) requieren un paralelismo masivo de la máquina y, por lo tanto, mucha potencia. Por lo tanto, sugeriría que Kaggle aumente sus métricas de precisión de clase existentes con una métrica de eficiencia, por ejemplo, uso de energía total o tiempo de ejecución total de una sola CPU. La generalización a una métrica combinada de {precisión, eficiencia} serviría para enfocar a la comunidad de investigación hacia representaciones y algoritmos centrales, y creo que acentúa rápidamente las ventajas y el poder potencial de SDR.