Parte de esta respuesta de Bengio responde a su pregunta: la respuesta de Yoshua Bengio a la Inteligencia Artificial: ¿en qué se diferencian profundamente las redes de creencias profundas de la agrupación?
Puede pensar que está dividiendo su espacio de entrada en regiones significativas. En un enfoque de agrupamiento, con los grupos [math] k [/ math], puede dividir el espacio en regiones [math] k [/ math]. Esto se debe a que solo el centroide de clúster más cercano se “dispara” para una entrada dada, y ninguno de los otros clústeres. Si piensa en las asignaciones de conglomerados como un vector único de dimensiones [matemáticas] k [/ matemáticas], esto le da a [matemáticas] k [/ matemáticas] número de posibles representaciones ocultas.
En un enfoque distribuido, cada hiperplano de división (es decir, cada unidad en una capa oculta) divide el espacio de entrada en dos, lo que significa que la adición de otra unidad multiplica el número de regiones por 2, lo que le da un total de [matemáticas] 2 ^ k [ / matemáticas] regiones. Si concatena estas decisiones binarias en un vector dimensional [matemático] k [/ matemático], tiene un número [matemático] 2 ^ k [/ matemático] de posibles representaciones ocultas.
- ¿Cuáles son las similitudes y diferencias entre los campos aleatorios condicionales (CRF) y las redes de Markov de margen máximo (M3N)?
- ¿Cuáles son algunos proyectos paralelos de Machine Learning que puedo implementar en mi tiempo libre?
- ¿Cuáles son los pros y los contras de Spark MLlib vs. H2O?
- ¿Qué técnicas de aprendizaje automático se utilizan en la industria?
- ¿Cuál es el papel de la función de activación en una red neuronal? ¿Cómo funciona esto en un sistema de red neuronal humana?
Esencialmente, puede “codificar” mucho más con el mismo número de parámetros (tenga en cuenta que ambos enfoques requieren un solo vector para cada “unidad oculta” con la dimensionalidad de entrada).
Sin embargo, esta discusión se basa puramente en el poder de representación y no considera la capacidad de aprendizaje. Es posible que, aunque el enfoque distribuido tenga más poder de representación, sea difícil aprender de los datos, y este poder de representación podría estar subutilizado. Creo que podemos decir que los enfoques distribuidos han demostrado ser mejores que los enfoques locales en muchas tareas empíricamente, por lo que los resultados experimentales en la literatura aún le dan algo de peso a este argumento (pero su pregunta no aborda esto, por lo que está bien).