¿Qué tan efectivo es usar medidas simples de correlación en la selección de características?

La respuesta a esta pregunta depende en gran medida de las características de los datos, pero la mayoría de las veces, si su conjunto de funciones es pequeño (20-30 es bastante pequeño), según mi experiencia, rara vez vale la pena realizar cualquier selección de funciones … en al menos como primer análisis de paso.

Pero para responder a sus primeras preguntas, el uso de coeficientes de correlación o regresión (lineal) para identificar predictores significativos para su variable de resultado es una práctica aceptable y común para la selección de características. La principal diferencia entre los dos es que probablemente terminará con más características predictivas utilizando la correlación, ya que estandariza efectivamente sus variables (y, por lo tanto, pierde información). También debe tener en cuenta que si sospecha la interdependencia entre sus características, también debe modelar eso al incluir algunos términos del producto. De hecho, la clasificación variable es el método estándar del siguiente paso para detectar valores atípicos que probablemente no contribuyan lo suficiente a la clasificación. Por otro lado, generalmente es útil realizar eso independientemente, para tener una idea inicial de qué resultados esperar.

Sin embargo, hay algunas críticas para la clasificación de variables, ya que conduce a seleccionar características redundantes y también puede excluir variables individuales que podrían ser contribuyentes útiles a los patrones en la clasificación multivariante. Por lo tanto, puede ser mejor usar un método que pueda seleccionar subconjuntos de variables que juntas tengan un buen poder predictivo en lugar de centrarse en la clasificación del poder predictivo a nivel de variables individuales. Los envoltorios y los métodos integrados son algunos enfoques utilizados para abordar este problema.

More Interesting

¿Cuántas muestras de entrenamiento se necesitan para obtener un modelo confiable en ML?

¿Cómo se determina la significación estadística para las curvas ROC y los valores de AUC?

¿Qué se usa en autos sin conductor, aprendizaje automático o aprendizaje profundo?

Cómo codificar TSVM usando bibliotecas SVM

¿No tener datos temporales en el vector de entrada hace que un RNN-LSTM sea inútil en comparación con otros NN si su salida es una secuencia temporal?

¿Cuáles son los principales enfoques de la inteligencia artificial?

¿Cuántas horas le tomaría a un analista de datos profesional revisar los datos simples de la compañía y construir un modelo para predecir el desgaste?

¿Cómo debe comenzar un principiante con la investigación en Machine Learning?

En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

¿Se pueden anotar videos usando el aprendizaje automático?

¿Puedo aprender ML por mi cuenta?

¿Qué es una explicación intuitiva del parámetro gamma en SVM?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿Cuál es la segunda generación de redes neuronales?

¿Qué algoritmos de aprendizaje automático se pueden usar para crear una calculadora matemática de lenguaje natural en Python?