¿Cómo se pueden aprender las características del corpus en bruto mediante el aprendizaje automático / aprendizaje profundo?

Las características pueden depender del tipo de problema con el que está lidiando. Puede ser

-Cuenta simple de palabras (bolsa de palabras)

-Uni Grams, Bi Grams, Tri Grams cuenta

-Matriz de documentos a plazo

-Partes del discurso de las palabras también son características

-Frases nominales en oración

Si su problema es el reconocimiento de entidades con nombre, le sugiero que mire el algoritmo CRF (campo aleatorio condicional)

Aquí puede crear características personalizadas para entrenar al modelo

Las características de ejemplo pueden ser

[Palabra,

Palabra anterior,

Etiqueta de POS de Word anterior,

Siguiente palabra,

Etiqueta de POS de la siguiente palabra,

IsWordCaps,

FirstWordCaps,

WordStartsWith

Word termina con

Primeras tres letras de la palabra

Últimas tres letras de la palabra

]

Puede agregar tantas funciones como desee.

Hay un enlace de python para CRF (“python-crfsuite”), puede seguir el ejemplo en la documentación

Si desea aprender las características, mire automáticamente el modelado de temas / LDA. Esto funciona basado en clustering suave. La salida le mostrará la distribución de frecuencia de las palabras en cada grupo

hay un genismo de implementación de python para modelar temas