¿Por qué no utilizamos la regresión logística para grandes conjuntos de datos de características?

Ciertamente podemos usar la regresión logística para grandes conjuntos de datos de características. Lo que no podemos hacer (por lo general) es simplemente configurar la regresión logística a ciegas para que funcione en un conjunto de datos que tiene un montón de variables. La regla general habitual es que desea 10 apariciones del resultado más raro para cada variable. Y los métodos de selección automática de variables, como paso a paso, hacia adelante, hacia atrás y todos los subconjuntos, son demostrablemente incorrectos. Usar un método penalizado como LASSO o LAR o una red elástica puede funcionar (y esto se ha hecho).

Otros métodos pueden funcionar mejor en casos específicos. Por ejemplo, si espera patrones interesantes de interacción, entonces un método de árbol puede ser bueno. Si no le importa la explicación, entonces los métodos como las redes neuronales pueden funcionar bien. También hay muchos otros métodos.

More Interesting

¿Cuándo y por qué un clasificador Bayes ingenuo es una opción mejor / peor que un clasificador forestal aleatorio?

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados ​​en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?

¿Cuáles son los puntos importantes de comparación entre Mahout y otras bibliotecas Java ML como Lingpipe o Weka?

¿Son las redes neuronales artificiales la única forma de establecer un aprendizaje profundo?

¿Qué significa el término de procesamiento del lenguaje natural 'modelo de lenguaje' en términos simples?

Cómo elegir el número de árboles en el aprendizaje automático

¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Dónde puedo encontrar conjuntos de datos para aprender autocorrección o corrección ortográfica?

¿Cuáles son los mejores usos de Deep Learning para la clasificación de relevancia de búsqueda?

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

¿Cuál es la maldición de la dimensionalidad?

¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?

¿Hay alguna universidad en la India que ofrezca cursos a corto plazo sobre aprendizaje automático / ciencia de datos?