¿Qué algoritmo de aprendizaje automático debo usar cuando tengo 5-6 valores categóricos independientes y 1 variable continua dependiente?

Si está interesado en un algoritmo de aprendizaje automático, no necesariamente obtendrá una “ecuación” interpretable. La ventaja habitual del aprendizaje automático es evitar hacer suposiciones paramétricas (por ejemplo, linealidad, falta de interacciones, no usar términos de orden superior, etc.)

Los datos que tiene parecen muy ricos en términos de observaciones, pero no de covariables.

Tres buenos lugares para comenzar, que no son particularmente difíciles de usar (hay paquetes R, entre otros lenguajes), son los bosques aleatorios (una técnica básica de aprendizaje automático), los modelos lineales generalizados (que son paramétricos) y quizás el Hastie- El marco de modelos aditivos generalizados de Tibshirani, que se ubica entre los dos en términos de cuán “no paramétrico” es. Y, por supuesto, está todo el campo de la inferencia no paramétrica, que proporciona un conjunto de herramientas formales para resolver problemas como el suyo, pero puede ser complicado para los nuevos en él.

Quizás primero decida si desea que una ECUACIÓN real salga del esfuerzo, una que pueda interpretar. Si es así, cosas como el aprendizaje profundo / redes neuronales, si bien corresponden a ecuaciones, proporcionan aquellas que solo un extraterrestre podría amar.

Te voy a dar una respuesta simple. En primer lugar, ¿cómo tiene 6 variables de identificación? Si todas sus variables (IV y DV) son numéricas, entonces puede usar la regresión lineal. Asegúrese de que se cumplan los supuestos estándar. Si tiene datos categóricos en su IV y su DV es numérico, puede intentar agrupar su DV en los cubos apropiados observando su distribución y luego usar algún tipo de Árbol (C.45, CART, CHAID, bosques, etc. .) algoritmo de aprendizaje. Para el último escenario (DV numérico de clase IV) también puede intentar probar algún tipo de esquema de reemplazo, como la codificación ficticia o la codificación de efectos para los IV antes de pasarlo a su algoritmo GLM.

Para observar la importancia de la predicción variable, puede verificar su estadística de chi cuadrado, índice de Gini, índice de ganancia de información, etc.

Si estoy asumiendo correctamente lo que quiere decir con la variable Id (rango 1–150) tenga cuidado de definirlos como tipo de datos nominales cuando cargue sus datos, ¡no cometa el error de definirlos como enteros! Eso HUGELY impactará su modelo / fomula hasta el punto de darle algo absolutamente incorrecto.

Por último, si quieres jugar con cosas avanzadas, prueba las redes neuronales y otros algoritmos de aprendizaje profundo.

Por último, para 150 millones de registros, asegúrese de tener la potencia informática adecuada para hacerlo sin dañar su computadora. O implementarlo en alguna nube.

Con la cantidad de datos que tiene, lo más fácil sería usar una codificación de 1 en caliente de cada ID, concatenados juntos, y una regresión lineal vainilla.

O si los 6 identificadores significan lo mismo (como id1 = 77 significa exactamente lo mismo que id5 = 77) sume los vectores en lugar de concatenarlos.

Si tienes tiempo libre, prueba una máquina de factorización.

Puede probar el análisis discriminante lineal o el análisis discriminante cuadrático de sklearn. También me imagino que si la respuesta es continua, también se pueden probar modelos de regresión. Imagine un escenario para identificar el número de estudiantes que tomaron una disciplina particular como una corriente principal uno (Artes, Ciencia o Comercio). Aquí la respuesta es continua pero el predictor es categórico. La regresión puede muy bien ser probada.

More Interesting

¿Cuál es la mejor manera de aprender el aprendizaje automático, en línea o sin conexión?

¿Cuál es una variedad de problemas y problemas que pueden resolverse mediante la minería de datos y el aprendizaje automático? ¿Qué tipo de algoritmo se utiliza para qué tipo de problema?

¿Qué tipo de problemas han funcionado bien con Bayesian Networks?

¿Cómo debo representar las características para la clasificación de texto?

¿El aprendizaje por refuerzo es escalable?

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

¿Por qué la mayoría de las declaraciones de investigación de aprendizaje automático suenan a mierda?

Cómo discriminar una señal del ruido en la última investigación y desarrollo de AI / ML

¿Cuál es el objetivo de la detección de fraude con tarjeta de crédito?

¿Las PGM son esenciales para el aprendizaje profundo?

¿Cuántas clases diferentes podemos tener prácticamente dentro de un conjunto de entrenamiento, mientras usamos el algoritmo KNN?

¿Cómo funciona una red neuronal?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?