Supongo que el problema que describe es el de la siguiente configuración predictiva:
Las características dadas [matemáticas] (x_1, x_2,…, x_n) [/ matemáticas] que corresponden a una respuesta [matemáticas] y [/ matemáticas], y un tamaño de muestra de n. La configuración es ‘n >> p’ (es decir, muchos más ejemplos que características).
Por lo general, en tal caso, no querrá reducir el número de predictores e ir con un enfoque de descenso de gradiente estocástico utilizando algoritmos como Pegasos o GURLS. Dichos algoritmos pueden converger sin tener que evaluar cada muestra, reduciendo así el desafío que plantea un tamaño de muestra masivo.
También los enfoques duales tienden a realizar una especie de selección de muestra. De este modo, abordar el problema no como una cuestión de reducción de características, sino de reducir el número de muestras a las que se consideran más importantes.
- ¿Cuál es el mejor algoritmo para descubrir todos los nodos de la red y mantener esa red en tiempo real?
- Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?
- ¿Se utiliza XGBoost en productos?
- ¿Cuál es el mejor sitio web de aprendizaje automático?
- ¿Qué es Distill y cuál es su importancia para la investigación de Machine Learning?
Reducir el número de muestras sería mi primer y más importante consejo.
Dicho esto, si aún desea reducir el número de predictores, hay algunas maneras de hacerlo. Guyon et. Alabama. escribió un gran artículo en 2003 (ver aquí) sobre la cantidad de formas de abordar esto, generalmente hay tres sabores:
- Las envolturas utilizan un método de aprendizaje automático de elección para calificar subconjuntos de características de acuerdo con su poder predictivo.
- Filtra , filtrando subconjuntos de características como una forma de preprocesamiento.
- Métodos integrados , realizar selección de funciones en el proceso de capacitación
La regresión logística, el lazo y la red elástica son métodos integrados típicos.
Mi consejo en el caso de un enfoque de selección de características sería elegir un método integrado y analizar los resultados de estos métodos en segmentos más pequeños aleatorizados utilizando la Selección de estabilidad. El principal beneficio con este método sería que está seleccionando las características más predictivas en función de la pregunta que está tratando de responder con estos datos.