Sí, las personas pueden y usan los coeficientes para medir la importancia variable para seleccionar características. Hay algunas cosas a tener en cuenta al hacer esto.
- Si hace esto, debe estandarizar sus variables (media cero, 1 desviación estándar) para que sus coeficientes no sean sensibles a la escala. Aquí te importa la importancia, no la escala.
- Las variables altamente colineales introducen una situación subdefinida: puede asignar a la primera variable un coeficiente positivo realmente grande y a la segunda un coeficiente negativo realmente grande, lo que crea una regresión válida pero coeficientes terribles para la interpretación. Es por eso que se recomienda usar cierta regularización, que le dice al algoritmo de optimización que intente minimizar el coeficiente que asigna. Por lo general, recomiendo cierta regularización de L1 para que uno de los coeficientes colineales se ponga a cero, que generalmente es lo que desea si selecciona variables. Si está tratando de interpretar los coeficientes de importancia, aquí no hay una única solución correcta de principios.
- Si está utilizando modelos lineales para seleccionar variables para luego construir un modelo no lineal, puede estar eliminando una variable que tenga un fuerte valor de interacción pero que no sea útil por sí sola. No recomiendo usar modelos lineales para esto.
Una nota final: en mi opinión, la selección manual de funciones ha dejado de ser útil en muchos dominios porque puede simplemente lanzar la regularización L1 al problema (como se discutió en el n. ° 2) y dejar que las variables se reduzcan a cero. Lo he hecho en la práctica para pasar de miles de variables a docenas, manteniendo un modelo útil.
- ¿Hay algún sitio web donde pueda encontrar ideas para mi tesis de licenciatura en Informática? (Estoy interesado en algoritmos y aprendizaje automático).
- ¿Qué significa 'Bagging reduce la varianza mientras se conserva el sesgo'?
- ¿Por qué la agrupación de datos del panel reduce los errores estándar?
- ¿Cuál es la función [math] \ Psi [/ math] en esta diapositiva?
- ¿Cómo explicaría la desigualdad de Hoeffding y, como consecuencia natural, la dimensión Vapnik Chervonenkis a un niño de diez años?