Puedo distinguir 2 técnicas diferentes que dependen en gran medida de las representaciones semánticas de las palabras mediante la inclusión de palabras y frases.
Suponga que tiene un ensayo que contiene muchas oraciones, y desea calificar este ensayo basándose en otro ensayo perfecto.
La técnica general en la que puedo pensar en tal problema es convertir todo el ensayo en un modelo de espacio vectorial utilizando un modelo de incrustación de oraciones, como Sent2vec, para que el ensayo de prueba esté representado por un vector de tamaño fijo de valores numéricos flotantes.
- ¿Cuáles son los propósitos de ganchos y andamios en TensorFlow?
- ¿Se utiliza R en la minería de datos a gran escala en grandes compañías de software como Facebook y LinkedIn?
- Cómo poner un programa de IA en un dispositivo
- ¿Podemos usar el modelo oculto de Markov para inferir las variables ocultas del universo?
- Cómo usar el procesamiento del lenguaje natural (PNL) para resumir un documento en una serie de ideas principales
Ahora, tenemos la representación del vector de ensayo y la representación del vector de ensayo perfecto. Tenemos 2 opciones:
- Medida de similitud
Puede usar cualquier métrica de similitud para verificar la similitud entre los 2 vectores, puede usar la similitud de coseno o la distancia euclidiana para dicha tarea. Según el valor de similitud, puede establecer la calificación del ensayo en función de un umbral que establezca de acuerdo con el valor de similitud.
2. Autoencoders
Puede usar Autoencoder para verificar si los 2 vectores son similares o no. La capa de entrada del Autoencoder sería el vector de ensayo de prueba y la capa de salida sería el vector de ensayo perfecto. Ahora, alimenta la red con los valores de ensayo y obtiene el error entre los valores reconstruidos de la capa de salida y el vector de ensayo perfecto