Cómo descubrir las características más importantes en un conjunto de datos con más de 500 predictores

Este problema cae en la categoría de selección de características. Hay varios algoritmos para ello, algunos de ellos son:

1. Algoritmo de búsqueda hacia adelante y búsqueda hacia atrás: según lo explica Sandeep.

2. Use la Regularización en su modelo : Usar la Regularización en su modelo es efectivamente usar un algoritmo de selección de características. La inclusión de la regularización es equivalente a la introducción de un coeficiente gaussiano previo en el modelo que hace que la mayor parte de la contribución de los predictores sea igual a cero (de las propiedades de Gauss). No estoy seguro de si esta es una declaración perfectamente válida o no, pero estoy bastante seguro de ello.

3. Selección de características basadas en árboles: toma prestado su concepto de árboles de conjunto (bosques aleatorios, etc.). En el clasificador basado en árbol en cada nodo, la división se realiza en función de la “ganancia de información” obtenida por una variable y se selecciona la variable que proporciona la máxima ganancia de información, por lo que esta información también se puede utilizar para la selección de características.

4. Utilice la técnica de reducción de dimensionalidad : Dim. Las técnicas de reducción como PCA, Isomp, LLE, etc. escanean los datos y encuentran las dimensiones (predictores) que son relevantes (en términos de información) y descartan características poco interesantes.

Suficientemente fácil. Implementa una regresión paso a paso. Comience con un modelo máximo, es decir, y ~ x1 + x2 +…. Puede representar esto como “y ~”. (si estás usando R). Ahora haga una regresión paso atrás. Solo se retendrán las variables independientes importantes. Alternativamente, comience con un modelo mínimo, es decir, y ~ 0. Ahora haga una regresión de paso adelante.

More Interesting

¿Cómo se sienten los estudiantes de doctorado en aprendizaje automático después del reciente aumento del aprendizaje profundo? ¿Creen que gran parte de su arduo trabajo se desperdiciará?

¿Cuáles son los cursos de matemáticas y estadísticas en línea recomendados para ciencia de datos y aprendizaje automático?

Quiero convertirme en un científico de datos, ¿cómo me convierto en un buen estadístico? ¿Cuáles son buenos libros, conferencias, blogs, etc. que mejorarán mi comprensión de los métodos estadísticos a nivel profesional?

Aprendizaje automático: ¿cómo puedo obtener eventos y acontecimientos en la vida de las personas a partir de sus estados en Facebook o tweets?

¿Cómo se protegen los datos sanitarios de los ciberataques?

¿Cuáles son las perspectivas de empleo si completo el Master de Ciencia de Datos de Código Abierto en http://datasciencemasters.org?

¿Qué debo hacer para convertirme en un científico de datos exitoso si soy de un entorno sin codificación?

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

¿Cómo podemos estar seguros de que podemos confiar en los científicos? ¿Cómo sabemos realmente que los científicos no son los clérigos modernos? Parece que la ciencia toma tanto la fe como la religión.

Soy un administrador de sistemas de Windows de 36 años en una MNC. ¿Cómo puedo construir una carrera en Data Science?

¿Qué es mejor para un conjunto de habilidades Java / J2EE: análisis de big data o middleware de WebSphere?

¿Cómo puede un servicio de coincidencia de datos ayudarlo a obtener una ventaja competitiva?

¿Vale la pena intentar hacer ciencia de datos si uno no tiene experiencia en informática, matemáticas o estadísticas?

¿Cuál es la diferencia entre una maestría en MFE y una maestría en ciencias de datos, especialmente su futura carrera?

¿Cuáles son algunos algoritmos de aprendizaje automático menos conocidos, que no son tan famosos pero potentes?