En un sentido amplio, puede decir que los mejores algoritmos a partir de ahora, dependiendo del tamaño / tipo de conjunto de datos que tenga, serán uno de los tres: derivados RNN, DeepForests o NBSVM.
Si tiene un conjunto de datos pequeño y está muy lejos del inglés cotidiano (por lo tanto, no puede usar word2vecs previamente entrenados, etc.), NBSVM es un algoritmo simple y efectivo. http://www.aclweb.org/anthology/…
Los bosques profundos hacia una alternativa a las redes neuronales profundas afirman ser mejores que incluso las redes neuronales profundas que solo usan vectores tfidf. Si se combinan con incrustaciones, estos modelos pueden funcionar realmente bien.
- ¿Cuán específicamente la memoria de la clase de almacenamiento cambiará las arquitecturas, los ecosistemas (incluidas las opciones de lenguaje de programación) y los algoritmos para big data?
- ¿Existe algún algoritmo o método para identificar patrones en una secuencia de filas / eventos?
- ¿Qué idioma es mejor para los algoritmos de búsqueda: Java o Python? ¿Por qué?
- ¿Qué debe saber todo programador sobre tablas hash y funciones hash?
- Cómo encontrar diferentes permutaciones de pila
Los derivados RNN (como LSTM o GRU) son actualmente los mejores modelos que obtienen altas precisiones y se generalizan bien.
En ParallelDots, los primeros modelos de opinión eran Convnets en texto (implementado en puro theano en 2014, parecido al papel de Yoon Kim, cuyo código ahora puede encontrar en las demos de Keras), que luego cambiamos a LSTM (que puede ver actualmente en nuestro sitio web) y ahora estamos combinando algunas nuevas técnicas LSTM (auto atención y aprendizaje multitarea (MTL)) para mejorarlas aún más si las revisa en las próximas semanas. La mayoría de los puntos de referencia de la PNL actuales se están superando lentamente mediante el uso de una de una combinación de estas técnicas. (atención para predicción de secuencia, auto atención o MTL). Para obtener más detalles, puede consultar Salesforce Research o Sebastian Ruder.
La atención de Google [1706.03762] es todo lo que necesita es un documento muy emocionante, que podría reemplazar todos los derivados RNN de una vez por todas y parece un competidor muy fuerte para el futuro.
Curiosamente, estoy trabajando para compilar una publicación de blog detallada sobre esto por algún tiempo. Publicaré la publicación aquí cuando esté completa.