Hay tantos … primero, vamos a dividirlo en “selección de características” y “extracción de características”
Algunos ejemplos de selección de funciones:
– Regularización L1 (p. Ej., Regresión logística) y dispersión
– umbrales de varianza
– Eliminación de características recursivas basada en los pesos de los modelos lineales.
– bosques aleatorios / árboles adicionales y características importantes (calculadas como ganancia de información promedio)
– selección secuencial hacia adelante / hacia atrás (un artículo sobre los que he escrito hace algún tiempo: Algoritmos de selección de características secuenciales en Python)
– algoritmos genéticos
– búsqueda exhaustiva
Algunos ejemplos de extracción de características:
– El análisis de componentes principales (PCA), sin supervisión, devuelve ejes de varianza máxima dada la restricción de que esos ejes son ortogonales entre sí (también, un artículo que escribí hace algún tiempo: PCA en 3 pasos)
– El análisis discriminante lineal (LDA; no debe confundirse con la asignación de Dirichlett latente), supervisado, devuelve ejes que maximizan la separabilidad de clase (misma restricción que los ejes también son ortogonales); y otro artículo: Análisis discriminante lineal poco a poco
– Kernel PCA: utiliza el truco del kernel para transformar los datos no lineales en un espacio de características donde las muestras pueden ser linealmente separables (en contraste, LDA y PCA son técnicas de transformación lineal (el último de mis artículos que vincularé aquí 😉 Kernel PCA)
– PCA supervisada
– y muchas más técnicas de transformación no lineal, que puede encontrar muy bien resumidas aquí: reducción de dimensionalidad no lineal
- De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?
- ¿Qué significa el espacio de hipótesis en Machine Learning?
- ¿Debo aprender Blockchain (Ethereum) o aprendizaje automático este verano?
- ¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?
- ¿Qué cantidad de sistemas de recomendación se trata solo de usar el algoritmo correcto?
Editar:
Entonces, ¿qué técnica debemos usar?
Esto también sigue el principio del “Teorema de no almorzar” en algún sentido: no existe un método que sea siempre superior; Depende de su conjunto de datos. Intuitivamente, LDA tendría más sentido que PCA si tiene una tarea de clasificación lineal, pero los estudios empíricos demostraron que no siempre es así. Aunque la PCA del núcleo puede separar los círculos concéntricos, por ejemplo, no se despliega el rollo suizo: aquí sería más apropiado la inserción localmente lineal (LLE).
En pocas palabras, debe probarlo en su conjunto de datos real y evaluar y comparar los resultados.
Personalmente, rara vez uso técnicas de reducción tenue ya que la eficiencia computacional generalmente no es un problema para mí. No necesito hacer predicciones en “tiempo real” y los conjuntos de datos con los que estoy trabajando también suelen tener un tamaño moderado. Si no, tengo acceso a una supercomputadora donde puedo ejecutar esas cosas con ram “ilimitado” y número de núcleos. Para abordar “la maldición de la dimensionalidad”, prefiero modelos regulares o técnicas de conjunto