Ciertamente podemos usar la regresión logística para grandes conjuntos de datos de características. Lo que no podemos hacer (por lo general) es simplemente configurar la regresión logística a ciegas para que funcione en un conjunto de datos que tiene un montón de variables. La regla general habitual es que desea 10 apariciones del resultado más raro para cada variable. Y los métodos de selección automática de variables, como paso a paso, hacia adelante, hacia atrás y todos los subconjuntos, son demostrablemente incorrectos. Usar un método penalizado como LASSO o LAR o una red elástica puede funcionar (y esto se ha hecho).
Otros métodos pueden funcionar mejor en casos específicos. Por ejemplo, si espera patrones interesantes de interacción, entonces un método de árbol puede ser bueno. Si no le importa la explicación, entonces los métodos como las redes neuronales pueden funcionar bien. También hay muchos otros métodos.
- Cómo probar la profundidad del fondo del procesamiento del lenguaje natural de alguien en una entrevista
- El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?
- ¿Cuáles son las diferencias entre la red neuronal artificial (informática) y la red neuronal biológica?
- ¿Cuál es tu algoritmo de aprendizaje automático favorito?
- Cómo entrenar un modelo word2vec como GoogleNews-vectors-negative300.bin para francés