Las características pueden depender del tipo de problema con el que está lidiando. Puede ser
-Cuenta simple de palabras (bolsa de palabras)
-Uni Grams, Bi Grams, Tri Grams cuenta
- ¿Podría la IA eventualmente resolver un problema sin resolver del Premio del Milenio?
- Cómo verificar si los asistentes en línea con los que estoy interactuando son humanos o robots
- ¿Existe algún requisito previo para el aprendizaje automático y el aprendizaje profundo? ¿Has trabajado en eso?
- ¿Cuál es el futuro de la ingeniería robótica?
- ¿Hay algún podcast sobre el aprendizaje automático?
-Matriz de documentos a plazo
-Partes del discurso de las palabras también son características
-Frases nominales en oración
Si su problema es el reconocimiento de entidades con nombre, le sugiero que mire el algoritmo CRF (campo aleatorio condicional)
Aquí puede crear características personalizadas para entrenar al modelo
Las características de ejemplo pueden ser
[Palabra,
Palabra anterior,
Etiqueta de POS de Word anterior,
Siguiente palabra,
Etiqueta de POS de la siguiente palabra,
IsWordCaps,
FirstWordCaps,
WordStartsWith
Word termina con
Primeras tres letras de la palabra
Últimas tres letras de la palabra
]
Puede agregar tantas funciones como desee.
Hay un enlace de python para CRF (“python-crfsuite”), puede seguir el ejemplo en la documentación
Si desea aprender las características, mire automáticamente el modelado de temas / LDA. Esto funciona basado en clustering suave. La salida le mostrará la distribución de frecuencia de las palabras en cada grupo
hay un genismo de implementación de python para modelar temas