¿Es posible que el modelo de espacio vectorial que utilizamos para entrenar algoritmos de aprendizaje automático sea inadecuado para la representación del aprendizaje humano?

Voy a ir un poco en contra del lote actual de respuestas (y estoy seguro de que seguirán muchas similares) y diré que es bastante posible que el modelo de espacio vectorial sea adecuado, hasta cierto punto . Si intenta pensar en cada valor dentro de su representación vectorial de bajo nivel como un “sensor” (estoy extrayendo de mi comprensión rudimentaria de la jerga robótica) y tal vez cada valor en la salida como un “actuador”, entonces es posible que estamos modelando el fenómeno de, al menos, la percepción humana a un alto nivel. La representación vectorial es realmente más sobre cómo decidir “modelar” nuestros datos / entorno en la simulación (o más bien, cómo presentamos los datos a un modelo), mientras que el aprendizaje está “modelado” por los procedimientos de optimización que utilizamos para estimar los parámetros de nuestro modelo ( s) (es decir, la adaptación de estos modelos a los datos que tenemos). Tenga en cuenta que mi respuesta se centra directamente en la parte del “espacio vectorial” de su pregunta, ya que honestamente creo que su pregunta (y las respuestas actuales) están más relacionadas con la forma en que modelamos el entorno en lugar del aprendizaje. Si desea hablar sobre el aprendizaje, creo que la pregunta sería más sobre desafiar los algoritmos de optimización (y los fundamentos teóricos que motivan a algunos de ellos) que usamos para ajustar modelos, que es lo que diría que está tratando de modelar el proceso de “aprendizaje”.

Creo que la mejor evidencia para mi (sin admitir que es extrema) contrademanda es la visión artificial: cada elemento en el vector de entrada (o cuadrícula, dependiendo de cómo procese sus imágenes) es un valor de píxel (agitemos manualmente el procesamiento de estos valores, como normalización / estandarización), lo que podría argumentar es como un alfiler / haz de luz que ingresa a una de las neuronas sensoriales de la capa más externa / más frontal del ojo (podríamos ir más lejos y comenzar a extraer ideas del modelo HMax, sí, es un poco viejo, lo sé, para el reconocimiento de objetos). Quizás la única diferencia es que la mayoría de las representaciones vectoriales de bajo nivel que se usan actualmente no usan la redundancia (o duplicación de sensores) de los sistemas de percepción reales (humanos). Dada la forma en que actualmente hacemos la visión por computadora, ¿cuánto “más bajo” puede obtener para una representación de entrada? Yo diría que los píxeles tienen el nivel correcto (suponiendo que usemos nuestros sistemas informáticos actuales … no me aventuraré en sistemas computacionales ópticos adecuados o similares) si estamos hablando de modelos computacionales / matemáticos (que al final, cuando simulamos algo más fino) -granidos en cualquier cosa que no sea el más impresionante de los sistemas de supercomputadora, nos estamos abstrayendo un poco de cómo los sistemas naturales hacen las cosas, además de todos los procesos biológicos / químicos / físicos reales que ocurren en organismos complejos).

Además, nuestra forma actual de representar datos (al menos en la mayoría de los casos) usando vectores es ideal para el álgebra lineal bajo el capó de casi cualquier algoritmo de aprendizaje automático cuando se trata de la optimización. Si tomamos las arquitecturas neuronales como ejemplo, modelar todo como matrices es una de las mejores formas en que podemos aprovechar el hardware para simular (en un grado mucho menor que en humanos) el procesamiento distribuido en paralelo =]
Ahora, ciertamente podemos ser más inteligentes o más fieles a la naturaleza si podemos pensar en representaciones de nivel más bajo (o más representaciones “en bruto”) de los datos que alimentamos en sistemas inteligentes, y este es ciertamente el caso del lenguaje. Pero incluso entonces, uno podría argumentar que estamos abstrayendo lo que sería la salida de algún otro sistema, solo así, al final, podemos centrarnos en modelar / estudiar la pieza de inteligencia que nos interesa.

Entonces, sí, uno podría argumentar fácilmente que los humanos no son simplemente sistemas de “vectores dentro-vectores-fuera”, sino que debemos recordar que la investigación actual de Inteligencia Artificial (con respecto a las sub-ramas que dependen del aprendizaje automático) es matemáticamente / modelando computacionalmente las cosas que actualmente conocemos de la manera más manejable y razonable posible (ciertamente estoy falsificando un poco las cosas aquí, pero espero que esto transmita la idea principal: también noto que ML no necesariamente tiene que ser sobre modelando cómo los organismos naturales hacen las cosas, existe toda la inteligencia de Super Intelligence en IA, donde podría ser que encontremos una forma diferente de construir un sistema inteligente, tal vez uno que sea “más inteligente” que los humanos / organismos del mundo real).

Absolutamente (y probablemente lo sea).

El problema aquí es doble: en primer lugar, todavía hay tanto que no sabemos acerca de cómo aprenden los humanos, que es difícil mirar a cualquier otro sistema y decir algo sobre el grado en que es (o no es) similar. Estamos comenzando a entender mucho más sobre cómo funcionan los grupos individuales y pequeños de neuronas, y constantemente estamos aprendiendo más (aunque de manera lenta y no terriblemente sistemática) sobre cómo funcionan los cerebros humanos y humanos en general, pero la brecha entre dos es vasto

En segundo lugar, todavía hay muchas cosas que no sabemos acerca de cómo funcionan los enfoques de ML más complejos (en particular los enfoques de aprendizaje profundo). Entendemos los fundamentos de las “neuronas” individuales en una capa, y podemos caracterizar el comportamiento de una red neuronal en su conjunto, pero el medio es (efectivamente, dado su tamaño) impenetrable.

La mayoría de las diferencias que podemos identificar, por lo tanto, provienen de los extremos: lo que el ML / humano requiere como entrada y lo que producen como salida. Tienes razón en que el tamaño del conjunto de entrenamiento requerido es sustancialmente mayor para ML que para humanos. Sin embargo, se está haciendo un progreso real en esta área, por ejemplo, al agregar memoria a largo plazo a los enfoques algorítmicos. Es probable que otras áreas en las que existan diferencias sean objetivos atractivos para los investigadores y desarrolladores, y son aquellas en las que se debe estar atento para avanzar.

Finalmente, vale la pena señalar que las diferencias entre el aprendizaje automático y el aprendizaje humano pueden ser informativas. Hasta hace relativamente poco, los investigadores que estudiaban el cerebro tenían poco para comparar sus ideas, en cuanto a cómo funcionaba el cerebro. Los enfoques de ML proporcionan tal punto de referencia, y pueden ayudarnos a establecer y comprender mejor y de manera más sistemática las formas en que funciona el cerebro humano, así como las formas en que se “rompe”.

Los vectores de características que alimentamos a los algoritmos de aprendizaje automático tienen un alcance extremadamente limitado en comparación con la información sensorial que recibimos como humanos. Cada segundo de cada hora de vigilia vemos el mundo tridimensional en todo su esplendor, escuchamos una composición compleja de sonidos, respiramos diferentes olores y sentimos con todo nuestro cuerpo. Alimentamos constantemente toda esa información en una red compleja de aproximadamente 100 mil millones de nodos. Arranque con codificación genética construida a partir de miles de millones de años de evolución, capacítelo durante unos años y tendrá un aprendizaje a nivel humano.

Los llamados grandes datos que alimentamos a nuestros algoritmos de aprendizaje profundo representan una parte muy pequeña de la realidad. No es necesariamente el modelo lo que está mal.