La respuesta a esta pregunta depende en gran medida de las características de los datos, pero la mayoría de las veces, si su conjunto de funciones es pequeño (20-30 es bastante pequeño), según mi experiencia, rara vez vale la pena realizar cualquier selección de funciones … en al menos como primer análisis de paso.
Pero para responder a sus primeras preguntas, el uso de coeficientes de correlación o regresión (lineal) para identificar predictores significativos para su variable de resultado es una práctica aceptable y común para la selección de características. La principal diferencia entre los dos es que probablemente terminará con más características predictivas utilizando la correlación, ya que estandariza efectivamente sus variables (y, por lo tanto, pierde información). También debe tener en cuenta que si sospecha la interdependencia entre sus características, también debe modelar eso al incluir algunos términos del producto. De hecho, la clasificación variable es el método estándar del siguiente paso para detectar valores atípicos que probablemente no contribuyan lo suficiente a la clasificación. Por otro lado, generalmente es útil realizar eso independientemente, para tener una idea inicial de qué resultados esperar.
Sin embargo, hay algunas críticas para la clasificación de variables, ya que conduce a seleccionar características redundantes y también puede excluir variables individuales que podrían ser contribuyentes útiles a los patrones en la clasificación multivariante. Por lo tanto, puede ser mejor usar un método que pueda seleccionar subconjuntos de variables que juntas tengan un buen poder predictivo en lugar de centrarse en la clasificación del poder predictivo a nivel de variables individuales. Los envoltorios y los métodos integrados son algunos enfoques utilizados para abordar este problema.
- ¿Cuáles son los tipos de problemas que se pueden resolver con las redes neuronales?
- ¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?
- Intuitivamente, ¿cómo funcionan los multiplicadores de Lagrange en SVM?
- Cómo entrenar algoritmos relacionados con IA sin una GPU decente
- ¿Es inútil seguir el aprendizaje automático como segundo año?