¿Cuáles son las diferentes técnicas para el procesamiento del lenguaje natural para resolver un ensayo de clasificación automática?

Puedo distinguir 2 técnicas diferentes que dependen en gran medida de las representaciones semánticas de las palabras mediante la inclusión de palabras y frases.

Suponga que tiene un ensayo que contiene muchas oraciones, y desea calificar este ensayo basándose en otro ensayo perfecto.

La técnica general en la que puedo pensar en tal problema es convertir todo el ensayo en un modelo de espacio vectorial utilizando un modelo de incrustación de oraciones, como Sent2vec, para que el ensayo de prueba esté representado por un vector de tamaño fijo de valores numéricos flotantes.

Ahora, tenemos la representación del vector de ensayo y la representación del vector de ensayo perfecto. Tenemos 2 opciones:

  1. Medida de similitud

Puede usar cualquier métrica de similitud para verificar la similitud entre los 2 vectores, puede usar la similitud de coseno o la distancia euclidiana para dicha tarea. Según el valor de similitud, puede establecer la calificación del ensayo en función de un umbral que establezca de acuerdo con el valor de similitud.

2. Autoencoders

Puede usar Autoencoder para verificar si los 2 vectores son similares o no. La capa de entrada del Autoencoder sería el vector de ensayo de prueba y la capa de salida sería el vector de ensayo perfecto. Ahora, alimenta la red con los valores de ensayo y obtiene el error entre los valores reconstruidos de la capa de salida y el vector de ensayo perfecto

More Interesting

Cómo mejorar mi escritura para pasante de aprendizaje automático

¿Qué tan difícil es aprender TensorFlow?

¿Qué algoritmo de aprendizaje automático usarías para analizar los datos de los alumnos?

¿Los bancos de inversión como Goldman Sachs o JP Morgan utilizan el aprendizaje automático? ¿Contratan a un ingeniero de IA?

¿Qué campo es el mejor, big data o machine learning?

Muchas empresas hablan de 'big data' y 'aprendizaje profundo', y siempre ponen estas etiquetas en sus productos. ¿Cuál es el verdadero significado detrás de esto?

¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?

Procesamiento del lenguaje natural: ¿Cuáles son algunos métodos efectivos para detectar / calificar cadenas que pueden contener palabras profanas / ofensivas?

¿Qué deparará el futuro para los desarrolladores en la era del aprendizaje profundo y la IA? ¿Cuáles serán las tendencias y cómo sobrevivirán los desarrolladores?

¿Es GitHub o GitLab más adecuado para una empresa de ciencia de datos / ML?

Ciencias de la computación: ¿Cuáles son los pros y los contras de utilizar el modelado de procesos gaussianos para la regresión?

¿Los LSTM tienen significativamente más parámetros que los RNN estándar?

Además de tratar de reconstruir la entrada (como en Autoencoder), ¿qué otras tareas podrían resultar útiles para el aprendizaje no supervisado de redes profundas?

¿Dónde puedo obtener más información sobre los métodos y algoritmos informáticos que coinciden y resumen diferentes partes del texto?

¿Cuál es la diferencia entre el análisis factorial y las técnicas de selección de características, como el análisis de componentes principales y la asignación de dirichlet latente?