Recientemente tuve que hacer esto mediante el cual tuve que llamar a tres algoritmos de aprendizaje automático en código Java para clasificar las frecuencias de palabras clave en corpus de texto. Sin embargo, no estoy familiarizado con los algoritmos utilizados de manera significativa.
Entonces, algunos consejos para tratar de responder a su pregunta:
- Utilice una herramienta de aprendizaje automático preexistente y reconocida. No intentes “reinventar la rueda”.
- Tenga una comprensión básica de cómo funciona cada algoritmo, porque es posible que tenga que documentar esto más adelante.
- Sepa qué requieren los algoritmos que debe usar en términos de datos y el formato de esos datos, por ejemplo, archivos .arff para el producto Weka en Java.
- Comprender los resultados producidos por los algoritmos.
- Sepa cómo llamar a los algoritmos desde el código de su programa, por ejemplo, para Weka, mire esta página.
- ¿Por qué se le da tanta atención a xgboost que al aprendizaje profundo a pesar de su ubicuidad en ganar soluciones de Kaggle?
- Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton
- Durante la limpieza de datos cuando tiene un número decimal que representa el número de personas, ¿debe redondear hacia arriba o hacia abajo? Además, ¿qué sucede si el número total de todos los números redondeados no coincide con el número total de personas, es un error?
- ¿Cuáles son algunos libros sobrevalorados en aprendizaje automático, estadísticas y aprendizaje profundo?
- ¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?