Cómo entrenar a cualquier clasificador basado en características de texto en un documento EMR

Debe vectorizar el documento de entrada y luego posiblemente construir un modelo supervisado sobre dichos vectores con la operación como una clase de salida.

Normalización de entrada

También hay detalles más finos relacionados con la normalización (eliminación de palabras vacías, derivación, lematización) para que su vector de entrada sea menos ruidoso.

Vectorización

Puede haber múltiples formas de vectorizar la entrada, a saber, modelo de bolsa de palabras, modelo tf-idf, word2vec, etc. Para las palabras, puede considerar unigramas, bigrams, trigrams (generalmente conocidos como n-gramas). Puede buscar en Google cada uno de ellos para saber más al respecto.

Entrenamiento modelo

Según los vectores del documento de entrada y la etiqueta de salida, debe elegir un modelo para entrenar. Los algoritmos pueden ser cualquiera entre ingenuos bayes, bosque aleatorio, regresión logística, etc. (Todos tienen sus pros y sus contras y mucho depende de los detalles del problema, pero estos son algunos ejemplos)

Modelo de validación

Deberá verificar algunos datos no vistos durante la fase de entrenamiento o hacer una validación cruzada para tener una buena estimación del error de prueba

Selección de características

Si los resultados no son demasiado precisos, si el modelo no se carga en la memoria o si la velocidad de etiquetado es lenta, también deberá utilizar alguna selección de características para eliminar características / palabras y mejorar la generalización del algoritmo. Este proceso también se puede hacer sin entrenar al modelo. Algunas métricas crudas pueden tomar las 20,000 palabras principales de las 1,00,000 palabras posibles.

Estos pasos son una simplificación excesiva de toda la cartera de tareas y puede haber algunas palabras clave técnicas que no le resulten claras. Debes buscarlos en Google para obtener información más detallada.