Puede observar cada característica individual y ver qué tan bien se correlacionan con las clases de forma independiente utilizando alguna métrica de clasificación.
Por ejemplo, una métrica particular podría ser la correlación de Pearson:
[matemáticas] r_ {xy} ^ 2 = (\ frac {cov (x, y)} {\ sqrt {var (x) var (y)}}) ^ 2 [/ matemáticas]
Donde x son los valores que una característica adquiere para múltiples observaciones e y son las clases correspondientes.
- ¿Qué arquitectura / herramientas usan los gigantes tecnológicos como Facebook / Amazon / Apple / Microsoft para el análisis de big data / ML?
- ¿Qué necesitas para hacer aprendizaje automático?
- ¿Cuántas horas le tomaría a un analista de datos profesional revisar los datos simples de la compañía y construir un modelo para predecir el desgaste?
- ¿Los bosques aleatorios son solo un tipo de Monte Carlo?
- ¿Cómo y cuándo morirá la inteligencia de negocios convencional?
1 es alta correlación, 0 es ninguno. Si aplica esta métrica a todas sus funciones, las clasifica y luego puede seleccionar un subconjunto de funciones (es decir, las funciones clasificadas con el 10% más alto) y observar el rendimiento. Puede trazar la precisión de diferentes subconjuntos para encontrar la cantidad ideal de características para mantener. Esto se hace cuando tiene varias características (series de tiempo, ADN)
También podría hacer esta clasificación con el clasificador mismo, ya que encuentra pesos y esos pesos podrían considerarse una clasificación.
Puede crear nuevas características utilizando el análisis de componentes principales (PCA) en su matriz de diseño.