¿Cómo sabemos de antemano qué características funcionarán mejor para la clasificación?

La primera forma de seleccionar características es usar el conocimiento del dominio. Si está trabajando en una predicción de precios de la casa, el tamaño de la casa es probablemente una buena característica, al igual que el número de dormitorios y baños. Esto es intuitivo basado en su conocimiento sobre el dominio. Asumiendo que no es lo que está preguntando, sigamos adelante.

No hay forma de estar seguro de qué características son, de hecho, buenas características. Pero aquí hay algunos indicadores.

Características correlacionadas con la clasificación.

Un subconjunto de características es una representación de interés del conjunto de datos si las características están correlacionadas con el objetivo de clasificación y no están correlacionadas entre sí.

Características seleccionadas por modelos más simples

Si construye un conjunto de bosque aleatorio, puede obtener la importancia individual de las características en función de los árboles construidos por los árboles del conjunto. Las características relevantes generalmente son más altas en el árbol.

Características seleccionadas por regresión logística / regresor lineal

Con el regresor lineal o la regresión logística, puede seleccionar características que tengan una buena correlación y razón de probabilidades.

More Interesting

¿Puede una red neuronal LSTM aprender a reescribir un código C en C ++ sabiendo que lo entrené con un conjunto de datos equivalente a la instrucción C / C ++?

¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?

¿Las redes neuronales artificiales pueden modelar interacciones multiplicativas?

¿Cuáles son algunos de los problemas de desarrollo que enfrenta la inteligencia artificial?

¿Ubuntu es mejor con machine learning que mac?

¿Necesito un título universitario para trabajar en el aprendizaje automático?

¿Es obligatorio aprender el lenguaje R para el aprendizaje automático o Python es suficiente?

¿Cuáles son los libros de texto clásicos y de lectura obligatoria en las estadísticas?

¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?

¿Qué algoritmo de recomendaciones es más efectivo para desarrollar un entorno de crowdsourcing y qué lenguaje de programación sugiere?

Cómo aprender a limpiar datos usando R rápidamente

¿En qué se diferencia la teoría del "cuello de botella de información" del aprendizaje profundo del ejemplo conocido de tener una capa oculta de dimensión reducida en un codificador automático?

¿Cuáles son algunos proyectos paralelos de Machine Learning que puedo implementar en mi tiempo libre?

¿Qué es el análisis de componentes principales en términos de super laicos?

¿Por qué algunos clasificadores no pueden manejar los atributos continuos?