Una de las cosas que es deseable en un modelo de aprendizaje automático es que el modelo debe tener una varianza baja , es decir, no debe ajustarse demasiado a los datos de entrenamiento y perder la capacidad de generalizar a datos invisibles. Una de las formas en que esto podría hacerse es minimizar la cantidad de características que usa el modelo para usar solo las características más informativas. En el caso de un modelo de regresión, esto generalmente se conoce como selección de subconjunto, es decir , seleccionar un conjunto de variables de entrada casi óptimo que minimizaría la varianza y maximizaría la generalización del modelo. Hay dos formas de realizar una selección de subconjuntos:
- Métodos de filtro: en tales métodos, el procedimiento de selección de subconjuntos es independiente del algoritmo de aprendizaje y generalmente es un paso de preprocesamiento. Obviamente, esto conduce a un proceso de aprendizaje más rápido, pero es posible que el criterio utilizado en el paso de preprocesamiento dé como resultado un subconjunto que puede no funcionar muy bien en el algoritmo de aprendizaje.
- Métodos de envoltura: en estos métodos, la selección del subconjunto se realiza en función del algoritmo de aprendizaje utilizado para entrenar el modelo en sí. En términos generales, cada subconjunto propuesto por la medida de selección de subconjunto se evalúa en el contexto del algoritmo de aprendizaje. Obviamente, esto significa que no se pueden utilizar algoritmos de aprendizaje computacionalmente intensivos.
[1] proporciona una exploración empírica decente de los dos métodos para problemas de regresión; La figura 1 en particular es bastante útil. Si desea una explicación más detallada y motivada teóricamente en el contexto de los clasificadores de árbol de decisión, lea el clásico artículo ICML [2].
Referencias
[1] Comparación entre un filtro y un enfoque envoltorio para la selección de subconjuntos variables en problemas de regresión. 2000. Ivan Kojadinovic y Thomas Wottka. Actas del Simposio europeo sobre técnicas inteligentes.
[2] Características irrelevantes y el problema de selección de subconjunto. 1994. John et al. Actas de la Conferencia Internacional sobre Aprendizaje Automático.
- PCA, 2DPCA vs PCA multilineal: ¿Por qué las imágenes se vectorizan antes de realizar PCA, ICA o LDA, etc.? ¿Por qué no simplemente concatenar imágenes 2D en una matriz?
- ¿Son las redes neuronales artificiales la única forma de establecer un aprendizaje profundo?
- ¿Cuáles son los principales niveles de clasificación de reclusos?
- Cómo evaluar los mejores resultados posibles para un clasificador SVM
- ¿Qué tan fuerte es la Universidad de Washington en Machine Learning?