¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?

La ingeniería de características y la selección de características no son mutuamente excluyentes. Los dos son útiles. Sin embargo, diría que la ingeniería de características es más importante, especialmente porque realmente no se puede automatizar.

En el mundo real, mi equipo en Google genera un informe de importancia de la función como el que vinculaste cada vez que entrenamos a nuestro clasificador. Es útil, y complementa la ingeniería de características, ya que proporciona información sobre una nueva característica en comparación con las existentes y también qué tan bien se compara una característica ajustada con la original.

La selección de funciones es útil en sí misma, pero en su mayoría actúa como un filtro, silenciando las funciones que no son útiles además de las funciones existentes. Hacer que un sistema de clasificación del mundo real funcione bien es comprender el dominio del problema y crear creativamente buenas características. La selección de funciones no hace nada por ti allí.

En una nota más técnica y práctica, hemos descubierto que si toma una señal buena pero dispersa (característica de alta precisión / baja recuperación) y agrega ruido aleatorio para completar la dispersión, la medida de importancia variable aleatoria del bosque aumenta. Esta es una mala calidad de la medida.

¿Cómo se calcula la pérdida WARP de la estadística de orden K para aprender a clasificar las recomendaciones?

¿Qué formación matemática se necesita para aprender Deep Learning?

Cómo dominar el aprendizaje automático para poder unirme a Google para puestos relacionados con el aprendizaje automático

En PNL, ¿cómo se crean los corpus anotados?

¿Cuáles son algunos estudios de caso excelentes en el aprendizaje automático?

¿Cómo encuentras la distancia entre dos lugares, sin usar los mapas de Google?

Como se dijo, ambas tareas son importantes y pueden ser bastante independientes.
La selección de características es increíblemente valiosa cuando necesita explicar y comprender su modelo; por ejemplo, en documentos de biología, los métodos de ML que permiten la selección integrada de características son muy, muy útiles. A menudo quiere comprender por qué funciona su modelo, o lo que es importante en absoluto.
En otros dominios, donde hay mucha ingeniería de características (por ejemplo, cuando todas las características se diseñan manualmente), y el dominio se entiende mejor, esto es menos crucial.

En términos de mejorar la “precisión” o el rendimiento de clasificación, la selección a veces puede mejorar, pero la ingeniería de características (buena) siempre mejorará. (p. ej., construcción de metacaracterísticas, uso de nuevos datos, etc.)
Hay una diferencia entre buscar características irrelevantes o débiles y crear / diseñar (o encontrar) características fuertes.

Prashanth Ravindran

La ingeniería de características es un súper conjunto de actividades que incluyen extracción de características, construcción de características y selección de características. Cada uno de los tres son pasos importantes y ninguno debe ser ignorado. Sin embargo, podríamos hacer una generalización de la importancia, desde mi experiencia, la importancia relativa de los pasos sería la construcción de características> extracción de características> selección de características.

Prashanth Ravindran

More Interesting

¿Cuáles son los mejores recursos en línea para mejorar los algoritmos de aprendizaje automático?

¿Cuál es la importancia de las redes residuales profundas?

¿Dónde puede encontrar ejemplos de codificación de TensorFlow no obsoletos?

¿Cuáles son algunos buenos proyectos en los que un principiante de aprendizaje automático puede trabajar?

¿Cómo se manejan las características categóricas en un modelo de mezcla gaussiana / modelo de agrupamiento?

¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?

¿Cuál es la entrada para un clasificador Naive Bayes?

¿Cómo funcionan las redes interbancarias?

¿Qué paradigma / algoritmo de aprendizaje automático puedo usar para seleccionar de un grupo de posibles opciones?

En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?