Algoritmos
Hay algunos algoritmos de ML para algunos tipos de conjuntos de datos.
Por ejemplo, CNN para la clasificación de imágenes y FTRL / FFM para la predicción de CTR.
- ¿Qué está impulsando la prisa de la industria financiera para adoptar Big Data?
- ¿Cuáles son ejemplos de big data en fabricación?
- ¿Cuáles son los proyectos relacionados con big data y análisis de datos que un individuo puede hacer en su graduación?
- ¿Realmente hace una diferencia entre los programas de EM de uno y dos años en los Estados Unidos, con respecto al campo de la ciencia de datos en términos de conseguir un trabajo también?
- ¿Qué es una potencial tesis maestra de minería de datos?
Aparte de esos, es común probar muchos algoritmos, ver cuáles funcionan mejor y seleccionarlos y / o combinarlos.
Por lo general, pruebo la máquina de aumento de gradiente, redes neuronales, máquinas de factorización, bosques aleatorios, árboles extra aleatorios, FTRL, regresión logística y KNN. Luego uso conjuntos de apilamiento con predicciones de modelos individuales.
Validación
Para comparar los rendimientos de diferentes modelos, se utiliza la validación cruzada n veces para conjuntos de datos invariables en el tiempo y la validación fuera de tiempo para conjuntos de datos con variantes temporales.
Hay una frase en Kaggle que dice “en CV confiamos”, que enfatiza la importancia de la validación cruzada. Al seleccionar las presentaciones finales, es mejor confiar en sus puntajes internos de CV que en los puntajes de la tabla de clasificación pública.
Implementación
Cualquier implementación que funcione bien y sea fácil de usar. Estoy usando:
- XGBoost, LightGBM para GBM
- Keras para NN
- Vowpal Wabbit para FTRL, Regresión logística, retroalimentación NN
- Scikit-Learn para regresión logística, bosques aleatorios, árboles extra aleatorizados, KNN
- LibFM, LibFFM para máquinas factorizadas
- Kaggler para clasificación binaria en línea con conjuntos de datos dispersos.