Este es uno de los desafíos clásicos en el aprendizaje automático. Uno de los grandes
Los documentos en esta área son: Una introducción a la selección de variables y características
Proporciona una gran experiencia en la selección de funciones y algunos de los algoritmos clásicos, pero está un poco anticuado y no presta mucha atención a la técnica más moderna de “regularización” que se cubre en los últimos libros de aprendizaje estadístico como: datos minería, inferencia y predicción. 2da edición.
Una de las mejores formas de descubrir características ‘útiles’ es usar la “regularización” en el algoritmo de aprendizaje. El método “Lasso” que Boris B. menciona es un ejemplo de un algoritmo de aprendizaje “regularizado”.
- ¿Cómo debo representar las características para la clasificación de texto?
- Cómo determinar la distribución que sigue un conjunto de datos
- ¿Existe alguna justificación para usar características explícitas de usuario / elemento en la recomendación de MF?
- ¿Hay alguna prueba de que no hay una solución algebraica para ajustar las redes neuronales con una (o más) capa (s) oculta (s)?
- Proyectos para el procesamiento del lenguaje natural y herramientas de lenguaje para un lenguaje índico
Intuitivamente, la regularización es una restricción que obliga al algoritmo de aprendizaje a limitar la contribución que cada característica hace a la predicción final. Cuando se ejecuta el algoritmo de aprendizaje, un parámetro de regularización (a menudo llamado parámetro de ajuste) controla la cantidad de restricción. Con una restricción estricta, el algoritmo se ve obligado a elegir un pequeño número de características en su predicción. Una vez que se ha dado el paso de aprendizaje, se pueden ver los pesos. Las características altamente ponderadas son aquellas que son más importantes en la predicción.
Aprender a utilizar mejor las restricciones de regularización es una habilidad crítica en el aprendizaje automático, y puede marcar la diferencia al crear un algoritmo que funcione bien, a partir de uno que bombardee totalmente, incluso con los mismos datos de entrenamiento.
El lazo, mencionado en otras publicaciones, es un algoritmo de regulación que utiliza una restricción de la norma L1.
Otro tipo de algoritmo es la restricción L2, a veces llamada regresión de cresta.
La restricción L2 es diferente de la restricción L1 Lasso en que ese algoritmo generalmente asignará un peso distinto de cero a cada característica. No obtendrá las características limpias de ponderación cero que el Lazo le dará. Pero a menudo no importa: de todas formas, solo tienes que mirar las características altamente ponderadas.
Hay conjuntos de datos que funcionarán mejor con L2 y otros que funcionarán mejor con restricciones de L1. A menudo depende de cuán independientes sean las características (por ejemplo, cuánta correlación hay entre las características).
Pero en mi experiencia, las restricciones L2 a menudo funcionan igual de bien en la predicción, pero son significativamente más fáciles de entrenar, y definitivamente lo que hay que probar primero. Dado que las restricciones L2 son fácilmente diferenciables, los algoritmos de entrenamiento (como la regresión de cresta) pueden proporcionar soluciones exactas sin utilizar métodos de gradiente / descenso coordinado. Todo esto significa que el paso de entrenamiento puede ser significativamente más rápido.
Hay otros grandes beneficios computacionales de los modelos L2:
1) puede hacer algunos trucos de matriz para que solo necesite hacer una costosa inversión de matriz incluso cuando pruebe múltiples parámetros de “ajuste” de regularización
2) puede averiguar rápidamente el puntaje de la prueba de dejar uno afuera sin hacerlo realmente (otro truco de la matriz)
3) Si las características superan significativamente los ejemplos de entrenamiento, puede kernalizar el algoritmo para obtener un beneficio de cálculo
Estos son temas más avanzados cubiertos en el libro de Hastie Tibshirani y también los documentos de Michael Jordan (en Berkeley).
Pero simplemente, comenzaría así:
1) Aprenda a entrenar y usar modelos como la regresión de crestas y la regresión logística regularizada L2
2) Experimente con entrenamiento usando diferentes parámetros de ajuste para ver cómo impacta los pesos aprendidos.
3) No olvides la importancia de normalizar los vectores de características de entrenamiento cuando combinas múltiples características en un solo vector. Si las escalas relativas son diferentes, esto puede arruinar totalmente el proceso de aprendizaje si no se normaliza.
Cuando se sienta cómodo con estas cosas, entonces experimentaría con técnicas más avanzadas como el Lazo (L1) y vería cómo funciona en sus datos.
Descubrirá que las técnicas L1 son muy populares en la literatura, a menudo porque tiene buenas propiedades matemáticas que permiten a los investigadores probar las garantías sobre el rendimiento del algoritmo dado muchos supuestos.
En realidad, las suposiciones rara vez se mantienen con datos reales, y el paso de normalización y la elección del parámetro de ajuste correcto tendrán un efecto mucho mayor que la técnica particular que elija (L1 vs L2).
Espero que esto ayude.