Debe vectorizar el documento de entrada y luego posiblemente construir un modelo supervisado sobre dichos vectores con la operación como una clase de salida.
Normalización de entrada
También hay detalles más finos relacionados con la normalización (eliminación de palabras vacías, derivación, lematización) para que su vector de entrada sea menos ruidoso.
- ¿Cómo combinaría Apache Spark y CUDA para implementar un marco de aprendizaje profundo?
- ¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?
- ¿Los métodos de aprendizaje automático son generales en comparación con los métodos de series temporales que se pueden llamar especializados?
- ¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?
- ¿Por qué la mayoría de las declaraciones de investigación de aprendizaje automático suenan a mierda?
Vectorización
Puede haber múltiples formas de vectorizar la entrada, a saber, modelo de bolsa de palabras, modelo tf-idf, word2vec, etc. Para las palabras, puede considerar unigramas, bigrams, trigrams (generalmente conocidos como n-gramas). Puede buscar en Google cada uno de ellos para saber más al respecto.
Entrenamiento modelo
Según los vectores del documento de entrada y la etiqueta de salida, debe elegir un modelo para entrenar. Los algoritmos pueden ser cualquiera entre ingenuos bayes, bosque aleatorio, regresión logística, etc. (Todos tienen sus pros y sus contras y mucho depende de los detalles del problema, pero estos son algunos ejemplos)
Modelo de validación
Deberá verificar algunos datos no vistos durante la fase de entrenamiento o hacer una validación cruzada para tener una buena estimación del error de prueba
Selección de características
Si los resultados no son demasiado precisos, si el modelo no se carga en la memoria o si la velocidad de etiquetado es lenta, también deberá utilizar alguna selección de características para eliminar características / palabras y mejorar la generalización del algoritmo. Este proceso también se puede hacer sin entrenar al modelo. Algunas métricas crudas pueden tomar las 20,000 palabras principales de las 1,00,000 palabras posibles.
Estos pasos son una simplificación excesiva de toda la cartera de tareas y puede haber algunas palabras clave técnicas que no le resulten claras. Debes buscarlos en Google para obtener información más detallada.