La primera forma de seleccionar características es usar el conocimiento del dominio. Si está trabajando en una predicción de precios de la casa, el tamaño de la casa es probablemente una buena característica, al igual que el número de dormitorios y baños. Esto es intuitivo basado en su conocimiento sobre el dominio. Asumiendo que no es lo que está preguntando, sigamos adelante.
No hay forma de estar seguro de qué características son, de hecho, buenas características. Pero aquí hay algunos indicadores.
Características correlacionadas con la clasificación.
- ¿Qué le gustaría en una aplicación de aprendizaje de idiomas?
- ¿Qué es un uso subestimado del aprendizaje automático?
- ¿Cuál es la diferencia de aprender características latentes usando SVD y usando vectores incrustados en una red profunda?
- ¿Cuáles son algunas aplicaciones del aprendizaje automático en la industria de la geología y la energía?
- ¿Cuál es la diferencia entre segmentación y clasificación en el procesamiento de imágenes?
Un subconjunto de características es una representación de interés del conjunto de datos si las características están correlacionadas con el objetivo de clasificación y no están correlacionadas entre sí.
Características seleccionadas por modelos más simples
Si construye un conjunto de bosque aleatorio, puede obtener la importancia individual de las características en función de los árboles construidos por los árboles del conjunto. Las características relevantes generalmente son más altas en el árbol.
Características seleccionadas por regresión logística / regresor lineal
Con el regresor lineal o la regresión logística, puede seleccionar características que tengan una buena correlación y razón de probabilidades.