¿Cuáles son las ventajas de usar una representación escasa en el aprendizaje automático, especialmente en los modelos de aprendizaje profundo?

Está bien, lo intentaré (existe la posibilidad de que haya olvidado mencionar algo importante, así que siéntase libre de agregar más)

1) Consideraciones computacionales:
a) Puede almacenar matrices dispersas de manera eficiente, y para algunos métodos debe tener toda su matriz de datos en la memoria activa)
b) Dado que implica que hay muchas multiplicaciones por cero, disminuye la cantidad de cálculos que tiene que realizar (ya que multiplicar por cero es un cero de todos modos)

2) Consideraciones relacionadas con los resultados:

a) Todo se correlaciona con todo debido al ruido, dependencias distantes, etc. Estas dependencias molestas, suponiendo que haya muchas de ellas, pueden abrumar las dependencias verdaderas y tendrán una influencia indebida en el resultado. – Puede pensar en las restricciones de escasez como una forma de seleccionar funciones para sus ejemplos.

PD: No siempre significa que las representaciones dispersas son intrínsecamente mejores que las no dispersas. De hecho, he visto un artículo reciente sobre representaciones complejas útiles

Al construir una representación de una oración o una imagen, es importante tener una forma de representación distribuida. Por un lado, hay tantas combinaciones diferentes de escenas u oraciones que simplemente no puede usar representaciones basadas en conglomerados. Por otro lado, una representación distribuida muy densa puede ser difícil de aprender. Su representación debe imitar la topología de la variedad subyacente, y cuanto más densa sea su representación, menos grados de libertad tendrá cuando construya su mapa y más no lineal será la relación. Una representación dispersa proporciona una forma intermedia entre una representación pura basada en clúster o de una sola vez, y entre una representación puramente distribuida.

Hay otro aspecto en el que una representación escasa es superior. No todas las escenas u oraciones contienen la misma cantidad de información. Una imagen de una puesta de sol, o una imagen de gato contiene poca información, ya que estas imágenes son muy comunes y muy similares entre sí. Una imagen de un automóvil amarillo con lunares azules aplastados por un asteroide y rodeados por una manada de caballos del tamaño de un pato contiene mucha información, ya que es muy poco común y requiere una descripción extensa. Una representación dispersa puede adaptarse a diferentes niveles de información. Las entradas más comunes producirán representaciones más dispersas que las más extrañas. Sin un previo escaso, está tratando de aprender una representación única para todas las representaciones que puede ser inadecuada para la variedad de información que pueda encontrar.