¿Cuáles son los principales problemas con el uso de la codificación one-hot?

Angli y Moustafa ya han cubierto los principales problemas. Agregando algunos ejemplos

  • El tamaño de la representación crece con el cuerpo. Por lo tanto, no se escala para, por ejemplo, representar una palabra en un corpus grande ( por ejemplo, cada vector de palabra para un corpus de 50 millones será de 50 millones de valores flotantes, todos menos uno son cero )
  • Cada vector es equidistante de cualquier otro vector en una codificación activa. Si bien esto puede ser ideal en algunos escenarios en los que cada película está representada por un vector en un modelo de sistema de recomendación en igualdad de condiciones, para las tareas de PNL una representación distribuida puede capturar más información sobre una palabra ( suponiendo que los entrenemos utilizando un modelo no supervisado como word2vec , texto rápido, etc. ) y sería una mejor representación de una palabra para tareas posteriores como etiquetado, reconocimiento de entidades, etc.
  • Una codificación en caliente es un vector de características diseñado a mano ( decidimos qué ranura contiene el 1) en comparación con una representación distribuida donde normalmente la generación no está supervisada ( normalmente comienzan de forma aleatoria y el modelo genera el vector como parte del entrenamiento ) y se elige que la dimensión sea mucho menor que el tamaño del corpus ( para una mayoría de tareas sería suficiente un corpus de 50 millones de palabras únicas que represente cada palabra en 300 valores)
  • En comparación con una representación perturbada, un vector caliente solo tiene información sobre la palabra / concepto que representa en el solitario 1 de la matriz; el resto son todos ceros. Por otro lado, en una representación perturbada, cada ranura en la matriz participa en la representación de ese concepto / palabra, así como toda la similitud / diferencia de todas las otras palabras en el corpus y esta representación puede generarse de manera no supervisada como se mencionó anteriormente. Esta es la razón por la cual un vector caliente es inferior a una representación distribuida para muchas tareas de PNL.

Además, nuestros cerebros tal vez codifican conceptos como una representación distribuida donde la dimensión no está fija como en nuestros modelos de aprendizaje automático, pero cada neurona participa en la captura de muchos conceptos disparando por muchos conceptos relacionados donde los enlaces entre neuronas están codificados por experiencia / coincidencia de disparo .

No escala bien, cuando el número de etiquetas de salida es grande. Por ejemplo, en el modelado de idiomas, el número de etiquetas de salida = tamaño de vocabulario. Esto significa que cada característica de entrada (palabra) se representará como un gran vector.

1. Demasiado escaso dado un gran corpus → computacionalmente demasiado costoso

2. No hay información contextual / semántica incrustada en vectores únicos → no es adecuada para tareas como etiquetado POS, reconocimiento de entidades con nombre, etc.

More Interesting

Cómo interpretar los resultados de agrupación de k-means

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Qué es mejor para el aprendizaje profundo: TensorFlow o Chainer?

¿Cómo representa doc2vec el vector de características de un documento? ¿Alguien puede explicar matemáticamente cómo se realiza el proceso?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

Cómo lidiar con un trabajo de investigación cuando contiene muchos materiales de fondo que no has estudiado

¿Necesitamos aplicar una prueba de significación estadística en el aprendizaje automático?

¿Qué necesito, como principiante, para comprender y construir un modelo generativo como WaveNet?

¿Los algoritmos subyacentes permiten a Shazam identificar una canción y Amazon Flow para identificar una imagen básicamente igual?

¿Qué curso se sugiere para el aprendizaje automático que sea más un curso basado en proyectos?

¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?

Procesamiento de lenguaje natural: ¿Cuál es la mejor manera de calcular la similitud de cadenas?

¿Cuándo es un bosque aleatorio una mala elección en relación con otros algoritmos?

¿Existen trabajos de Ciencia de datos y Aprendizaje automático para estudiantes de primer año en India?

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático