¿Qué significa el siguiente pasaje de un documento de aprendizaje profundo sobre aprendizaje automático sobre representaciones distribuidas frente a representaciones no distribuidas?

Parte de esta respuesta de Bengio responde a su pregunta: la respuesta de Yoshua Bengio a la Inteligencia Artificial: ¿en qué se diferencian profundamente las redes de creencias profundas de la agrupación?

Puede pensar que está dividiendo su espacio de entrada en regiones significativas. En un enfoque de agrupamiento, con los grupos [math] k [/ math], puede dividir el espacio en regiones [math] k [/ math]. Esto se debe a que solo el centroide de clúster más cercano se “dispara” para una entrada dada, y ninguno de los otros clústeres. Si piensa en las asignaciones de conglomerados como un vector único de dimensiones [matemáticas] k [/ matemáticas], esto le da a [matemáticas] k [/ matemáticas] número de posibles representaciones ocultas.

En un enfoque distribuido, cada hiperplano de división (es decir, cada unidad en una capa oculta) divide el espacio de entrada en dos, lo que significa que la adición de otra unidad multiplica el número de regiones por 2, lo que le da un total de [matemáticas] 2 ^ k [ / matemáticas] regiones. Si concatena estas decisiones binarias en un vector dimensional [matemático] k [/ matemático], tiene un número [matemático] 2 ^ k [/ matemático] de posibles representaciones ocultas.

Esencialmente, puede “codificar” mucho más con el mismo número de parámetros (tenga en cuenta que ambos enfoques requieren un solo vector para cada “unidad oculta” con la dimensionalidad de entrada).

Sin embargo, esta discusión se basa puramente en el poder de representación y no considera la capacidad de aprendizaje. Es posible que, aunque el enfoque distribuido tenga más poder de representación, sea difícil aprender de los datos, y este poder de representación podría estar subutilizado. Creo que podemos decir que los enfoques distribuidos han demostrado ser mejores que los enfoques locales en muchas tareas empíricamente, por lo que los resultados experimentales en la literatura aún le dan algo de peso a este argumento (pero su pregunta no aborda esto, por lo que está bien).

More Interesting

¿Qué son los vectores de características basados ​​en cuadros (como se usan en el reconocimiento de voz)?

¿Puedo tomar el curso de aprendizaje automático de Andrew Ng siendo un estudiante de secundaria con algo de experiencia en programación y sin conocimientos avanzados de matemáticas?

¿Cómo funciona Delta TF-IDF?

¿Es aconsejable crear una aplicación basada en el aprendizaje automático y el procesamiento de imágenes sin comprender el concepto matemático subyacente?

¿Cuáles son algunas aplicaciones interesantes de salud personalizada?

¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?

¿Es más fácil conseguir un trabajo de aprendizaje automático con maestros de una buena universidad que si solo eres autodidacta?

¿Cuáles son las diferencias entre Apache Spark y el Tensor Flow de Google?

¿Por qué decimos que las redes neuronales simples no pueden manejar la entrada de longitud variable?

¿Cuál es la diferencia entre alineación y deformación en visión artificial?

Cómo ejecutar una sesión de tensorflow en un solo proceso y núcleo

¿Cuál es el mejor software de reconocimiento facial en el mercado?

¿Cuál es una buena manera de entender esta optimización mediante el uso de un multiplicador lagrangiano?

¿Qué lenguajes de programación son mejores para procesar el sonido y darlo como entrada a una red neuronal artificial?

¿Hay algún proyecto / investigación de Machine Learning interesante en el que pueda trabajar de forma independiente?