¿Qué significa el siguiente pasaje de un documento de aprendizaje profundo sobre aprendizaje automático sobre representaciones distribuidas frente a representaciones no distribuidas?

Parte de esta respuesta de Bengio responde a su pregunta: la respuesta de Yoshua Bengio a la Inteligencia Artificial: ¿en qué se diferencian profundamente las redes de creencias profundas de la agrupación?

Puede pensar que está dividiendo su espacio de entrada en regiones significativas. En un enfoque de agrupamiento, con los grupos [math] k [/ math], puede dividir el espacio en regiones [math] k [/ math]. Esto se debe a que solo el centroide de clúster más cercano se “dispara” para una entrada dada, y ninguno de los otros clústeres. Si piensa en las asignaciones de conglomerados como un vector único de dimensiones [matemáticas] k [/ matemáticas], esto le da a [matemáticas] k [/ matemáticas] número de posibles representaciones ocultas.

En un enfoque distribuido, cada hiperplano de división (es decir, cada unidad en una capa oculta) divide el espacio de entrada en dos, lo que significa que la adición de otra unidad multiplica el número de regiones por 2, lo que le da un total de [matemáticas] 2 ^ k [ / matemáticas] regiones. Si concatena estas decisiones binarias en un vector dimensional [matemático] k [/ matemático], tiene un número [matemático] 2 ^ k [/ matemático] de posibles representaciones ocultas.

Esencialmente, puede “codificar” mucho más con el mismo número de parámetros (tenga en cuenta que ambos enfoques requieren un solo vector para cada “unidad oculta” con la dimensionalidad de entrada).

Sin embargo, esta discusión se basa puramente en el poder de representación y no considera la capacidad de aprendizaje. Es posible que, aunque el enfoque distribuido tenga más poder de representación, sea difícil aprender de los datos, y este poder de representación podría estar subutilizado. Creo que podemos decir que los enfoques distribuidos han demostrado ser mejores que los enfoques locales en muchas tareas empíricamente, por lo que los resultados experimentales en la literatura aún le dan algo de peso a este argumento (pero su pregunta no aborda esto, por lo que está bien).