¿Cuáles son las ventajas de usar una representación escasa en el aprendizaje automático, especialmente en los modelos de aprendizaje profundo?

Está bien, lo intentaré (existe la posibilidad de que haya olvidado mencionar algo importante, así que siéntase libre de agregar más)

1) Consideraciones computacionales:
a) Puede almacenar matrices dispersas de manera eficiente, y para algunos métodos debe tener toda su matriz de datos en la memoria activa)
b) Dado que implica que hay muchas multiplicaciones por cero, disminuye la cantidad de cálculos que tiene que realizar (ya que multiplicar por cero es un cero de todos modos)

2) Consideraciones relacionadas con los resultados:

a) Todo se correlaciona con todo debido al ruido, dependencias distantes, etc. Estas dependencias molestas, suponiendo que haya muchas de ellas, pueden abrumar las dependencias verdaderas y tendrán una influencia indebida en el resultado. – Puede pensar en las restricciones de escasez como una forma de seleccionar funciones para sus ejemplos.

PD: No siempre significa que las representaciones dispersas son intrínsecamente mejores que las no dispersas. De hecho, he visto un artículo reciente sobre representaciones complejas útiles

Deep LearningMachine Learning

¿Qué clases de modelos se pueden usar para predecir distribuciones de series de tiempo?

Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados en una entrada de imagen

¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?

¿Qué tan cerca estamos del punto donde los radiólogos serán reemplazados por software de reconocimiento de imágenes / redes neuronales / IA?

Encontré un desafío de IA en línea organizado por estudiantes de PICT en Pune. ¿Qué se requiere para organizar tales eventos? ¿De qué podría estar hecho su backend?

¿Qué creen los principales expertos en tecnología que es el mayor obstáculo para el progreso de la inteligencia artificial?

Al construir una representación de una oración o una imagen, es importante tener una forma de representación distribuida. Por un lado, hay tantas combinaciones diferentes de escenas u oraciones que simplemente no puede usar representaciones basadas en conglomerados. Por otro lado, una representación distribuida muy densa puede ser difícil de aprender. Su representación debe imitar la topología de la variedad subyacente, y cuanto más densa sea su representación, menos grados de libertad tendrá cuando construya su mapa y más no lineal será la relación. Una representación dispersa proporciona una forma intermedia entre una representación pura basada en clúster o de una sola vez, y entre una representación puramente distribuida.

Hay otro aspecto en el que una representación escasa es superior. No todas las escenas u oraciones contienen la misma cantidad de información. Una imagen de una puesta de sol, o una imagen de gato contiene poca información, ya que estas imágenes son muy comunes y muy similares entre sí. Una imagen de un automóvil amarillo con lunares azules aplastados por un asteroide y rodeados por una manada de caballos del tamaño de un pato contiene mucha información, ya que es muy poco común y requiere una descripción extensa. Una representación dispersa puede adaptarse a diferentes niveles de información. Las entradas más comunes producirán representaciones más dispersas que las más extrañas. Sin un previo escaso, está tratando de aprender una representación única para todas las representaciones que puede ser inadecuada para la variedad de información que pueda encontrar.

Elena Sergeev

More Interesting

¿Cómo podemos usar la herramienta Weka para crear un sistema de recomendación?

¿Cómo puedo diseñar una gran red neuronal?

¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?

Dadas las variables / parámetros continuos, ¿cuál es la diferencia entre el aprendizaje automático y la interpolación?

¿Se puede utilizar el aprendizaje automático para generar mapas de forma orgánica con solo usar datos de satélite de Google?

¿Por qué el clasificador Bayes Network funciona tan bien como SVM con menos funciones que las que se usan con SVM?

¿Cómo se deriva la fórmula lagrangiana para resolver la máquina de vectores de soporte?

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Qué es $ delta en la validación cruzada?

¿Es posible realizar el aprendizaje en conjunto mediante el apilamiento si solo tengo dos modelos?