Cómo atacar un problema de aprendizaje automático con una gran cantidad de funciones

Shehroz Khan dio una gran respuesta, pero tiendo a pensar en esta pregunta en términos más simples.

¿Tienes la intuición de que muchas de estas variables son importantes?

En caso afirmativo , utilice una técnica de extracción de características para proyectarlos en un espacio de dimensiones más bajas para una mejor eficiencia de entrenamiento.

¿Qué le sucede a la IA cuando se le asigna una tarea imposible o una en la que ambas opciones violan su programación?
¿Es posible escribir código que pueda codificarse y mejorarse a sí mismo? En caso afirmativo, proporcione un ejemplo.
¿El auto automatizado de Google utiliza refuerzo o aprendizaje supervisado?
¿Cuáles son los algoritmos clásicos de aprendizaje automático similares a los modelos de secuencia a secuencia?
Si alguna vez inventamos Robots inteligentes como humanos, ¿cuestionarán nuestra capacidad de crear algo inteligente mientras cuestionamos la existencia y el poder de Dios?

Las técnicas de extracción de características tienen diferentes fortalezas y debilidades. Aquí hay un resumen que di en una charla reciente:

Si no (es decir, tiene la intuición de que no son importantes muchas variables), no realice la extracción de características.

En este caso, la extracción de características daría como resultado que la señal en las variables importantes se diluya con el ruido de las variables sin importancia. Así que simplemente alimente todas las variables originales en una técnica de selección. Tenga en cuenta que los métodos como la regresión paso a paso o LASSO requerirán mucho tiempo para una gran cantidad de variables. Para una gran cantidad de variables, sugeriría una simple correlación de Pearson o una detección de chi-cuadrado de cada variable de entrada original contra el objetivo (variable dependiente). Para otro método de detección realmente ingenioso, vea la opción PANTALLA aquí:
https://support.sas.com/document…

Si no tiene una intuición de ninguna manera , debe probar ambos enfoques y ver cuál ofrece el mejor modelo en datos de reserva.

¿Quieres las ventajas de ambos enfoques? Use un enfoque de correlación o de detección de chi-cuadrado para seleccionar las variables originales con la relación más obvia con el objetivo (variable dependiente), luego use una técnica de extracción de características en las variables originales restantes. Combine las variables originales obviamente importantes seleccionadas con las características extraídas para crear el nuevo conjunto de variables de entrada para su modelo.

Aprendizaje automáticoCiencia de datosdatosExtracción de característicasinformáticaInteligencia ArtificialMinería de