Elegir el algoritmo en sí no es un problema real. El verdadero problema es que cuando tienes datos reales, luchas por
- Obtenga todos los datos en un formato unificado
- Comprender qué es útil y qué no
- Limpiar los datos
- Determine si con estos datos puede proceder
Ok, supongamos que limpiamos los datos y todo es perfecto, sin valores faltantes, sin valores atípicos, se realizó un análisis exploratorio de datos e incluso obtuvimos algo de eso.
Primero empiezo con modelos lineales simples. Porque no hay necesidad de esperar varias horas para que converja RBM profunda si todo lo que tenemos allí es una dependencia lineal.
Bien, la regresión lineal falló. Luego voy por KNN, solo porque los datos pueden contener grupos, y es poco probable que sepa cuántos exactamente. Intento varios números de vecinos, luego, si no funciona, es hora de un enfoque un poco más sofisticado.
Modelos de árboles simples, como CART. Compare su rendimiento en el conjunto de entrenamiento y validación y vea si hay alguna diferencia. Algunas pruebas BS, como comparar con predicciones aleatorias, también son buenas.
Si los modelos de árbol no funcionan, hay 3 armas poderosas que casi nunca me fallan.
- ¿Cómo es el programa de MS de ciencia de datos, big data y análisis de datos en Aegis School of Business, Data Science and Telecommunication, Mumbai?
- En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?
- ¿Cuál es el mejor curso de especialización en ciencias de datos en línea?
- ¿Qué controles / auto revisión aplica para la visualización de datos?
- ¿Qué trabajo se da a los estudiantes de primer año en el análisis de datos?
- GBM
- Bosque al azar
- SVM
Todos estos algoritmos pueden realizar regresión y clasificación, por lo que no hay mucha diferencia, especialmente, si crea un prototipo de su modelo en R como yo.
Puede probarlos en este orden o en el que desee, pero en RI le gusta GBM por su construcción automática de curvas de ajuste.
Y solo si estos algoritmos fallaron o no lograron dar el resultado deseado, voy por Redes Neuronales. Varios nodos ocultos, conjunto de redes con inicialización aleatoria: las cosas se ponen difíciles al instante y consumen mucho tiempo.
Entonces, la próxima vez que necesite simplificar su proceso de elección del algoritmo, intente seguir esta lista.
¡Mucha suerte en tus esfuerzos!