¿Por qué no estamos usando el coeficiente beta como una selección de características?

Sí, las personas pueden y usan los coeficientes para medir la importancia variable para seleccionar características. Hay algunas cosas a tener en cuenta al hacer esto.

Si hace esto, debe estandarizar sus variables (media cero, 1 desviación estándar) para que sus coeficientes no sean sensibles a la escala. Aquí te importa la importancia, no la escala.
Las variables altamente colineales introducen una situación subdefinida: puede asignar a la primera variable un coeficiente positivo realmente grande y a la segunda un coeficiente negativo realmente grande, lo que crea una regresión válida pero coeficientes terribles para la interpretación. Es por eso que se recomienda usar cierta regularización, que le dice al algoritmo de optimización que intente minimizar el coeficiente que asigna. Por lo general, recomiendo cierta regularización de L1 para que uno de los coeficientes colineales se ponga a cero, que generalmente es lo que desea si selecciona variables. Si está tratando de interpretar los coeficientes de importancia, aquí no hay una única solución correcta de principios.
Si está utilizando modelos lineales para seleccionar variables para luego construir un modelo no lineal, puede estar eliminando una variable que tenga un fuerte valor de interacción pero que no sea útil por sí sola. No recomiendo usar modelos lineales para esto.

Una nota final: en mi opinión, la selección manual de funciones ha dejado de ser útil en muchos dominios porque puede simplemente lanzar la regularización L1 al problema (como se discutió en el n. ° 2) y dejar que las variables se reduzcan a cero. Lo he hecho en la práctica para pasar de miles de variables a docenas, manteniendo un modelo útil.

Machine Learning

Related Content

Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

¿Cómo se pueden usar los modelos ocultos de Markov para reconocer la escritura cursiva?

¿Qué significa el aprendizaje automático?

¿Cómo cambiará la TPU de Google el mercado de CPU + GPU? ¿Cómo responderán los fabricantes de chips a este cambio?

¿Cuál es el punto de probar los datos en k-fold cross validation?

¿Cuál es un buen ultrabook por menos de $ 1000 con una tarjeta gráfica NVIDIA, 8-16 GB de RAM y tiene menos de 15 mm de grosor?

¿Cuál es la mejor GPU que se utilizará para Deep Learning con presupuesto (> 400 $)?

El problema con un esquema como este es que el valor numérico de un coeficiente de regresión no es invariante de escala. Si cambia la unidad de una longitud de millas a pulgadas, el coeficiente de regresión cambiará drásticamente, pero las predicciones reales que haga su modelo no se verán afectadas. Como resultado, no tiene sentido mirar el valor del coeficiente para determinar la importancia de la característica.

Existen métodos de selección de características que se basan en pruebas de significación para coeficientes de regresión. Esos no se ven afectados por escalar las características, por lo que no tienen problemas similares. Todavía son sensibles a las suposiciones sobre la distribución de los errores, por lo que solo puede usarlos con sensatez si sus diagnósticos de regresión no muestran problemas.

Yevgeniy Grechka

Yo diría que el principal problema con este esquema es de colinealidad. Si tiene dos características que están altamente correlacionadas, es posible que las regresiones lineales no asignen valores altos a estas características, aunque podrían ser muy importantes para el modelo.

Este problema se mitiga un poco si utiliza un enfoque ambicioso y selecciona características una por una ejecutando regresiones sucesivas y agregando características que mejor ayuden a su modelo. Aunque este método también tiene algunos problemas.

Justin Rising

More Interesting

¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?

¿Por qué los investigadores de IA se centran solo en problemas de regresión y clasificación?

¿Qué funciona mejor: Autoencoder Variacional o Redes Adversarias Generativas?

¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?

¿Cuál es un ejemplo de aplicación en el mundo real de los modelos de mezcla gaussiana?

¿Por qué las RVM no son tan populares como las SVM?

¿Cómo puede ser útil el aprendizaje automático para el diseño de juegos?

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

Soy Editor de Adquisiciones y para obtener conocimiento y autoaprendizaje de análisis de datos y habilidades de aprendizaje automático. ¿Alguien podría ayudarme a trazar un plan?

¿Cuál es el tamaño de equipo típico para un proyecto de aprendizaje automático?

¿Qué tipo de proyectos de aprendizaje automático puedo hacer? ¿Qué libros me recomiendan aprender? Estoy interesado en usar Python.

¿Cuál es tu algoritmo de aprendizaje automático favorito?

¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?

Cómo utilizar una GPU en mis algoritmos de aprendizaje automático de R

Web Analytics