Angli y Moustafa ya han cubierto los principales problemas. Agregando algunos ejemplos
- El tamaño de la representación crece con el cuerpo. Por lo tanto, no se escala para, por ejemplo, representar una palabra en un corpus grande ( por ejemplo, cada vector de palabra para un corpus de 50 millones será de 50 millones de valores flotantes, todos menos uno son cero )
- Cada vector es equidistante de cualquier otro vector en una codificación activa. Si bien esto puede ser ideal en algunos escenarios en los que cada película está representada por un vector en un modelo de sistema de recomendación en igualdad de condiciones, para las tareas de PNL una representación distribuida puede capturar más información sobre una palabra ( suponiendo que los entrenemos utilizando un modelo no supervisado como word2vec , texto rápido, etc. ) y sería una mejor representación de una palabra para tareas posteriores como etiquetado, reconocimiento de entidades, etc.
- Una codificación en caliente es un vector de características diseñado a mano ( decidimos qué ranura contiene el 1) en comparación con una representación distribuida donde normalmente la generación no está supervisada ( normalmente comienzan de forma aleatoria y el modelo genera el vector como parte del entrenamiento ) y se elige que la dimensión sea mucho menor que el tamaño del corpus ( para una mayoría de tareas sería suficiente un corpus de 50 millones de palabras únicas que represente cada palabra en 300 valores)
- En comparación con una representación perturbada, un vector caliente solo tiene información sobre la palabra / concepto que representa en el solitario 1 de la matriz; el resto son todos ceros. Por otro lado, en una representación perturbada, cada ranura en la matriz participa en la representación de ese concepto / palabra, así como toda la similitud / diferencia de todas las otras palabras en el corpus y esta representación puede generarse de manera no supervisada como se mencionó anteriormente. Esta es la razón por la cual un vector caliente es inferior a una representación distribuida para muchas tareas de PNL.
Además, nuestros cerebros tal vez codifican conceptos como una representación distribuida donde la dimensión no está fija como en nuestros modelos de aprendizaje automático, pero cada neurona participa en la captura de muchos conceptos disparando por muchos conceptos relacionados donde los enlaces entre neuronas están codificados por experiencia / coincidencia de disparo .
- ¿Cómo almacena un sistema de aprendizaje automático su memoria aprendida?
- ¿Cómo decidimos entre usar la factorización a priori o matriz para el filtrado colaborativo?
- ¿Cómo se glorifican los métodos del kernel en la coincidencia de plantillas?
- ¿Qué es una red cortical recurrente?
- ¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?