¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

Sí, la selección de funciones suele ser útil para comprender algo más sobre la entrada. Es probable que un menor número de características haga un modelo más interpretable, pero también dice algo sobre qué características no importaron mucho y cuáles sí, lo que puede guiar la recopilación de nuevas características.

La selección de características elige un subconjunto de entradas de muchas. La reducción de dimensiones transforma muchas entradas en menos entradas. Para obtener la representación de dimensión reducida, aún necesita todas las muchas entradas, mientras que después de seleccionar las características, ya no son necesarias.

La reducción de dimensiones es más eficiente. Es decir, la selección de 3 de 10 características probablemente pierda más de la ‘señal’ de entrada que la transformación de 10 a 3 a través de un proceso basado en principios como PCA.

Las técnicas de reducción de dimensiones como PCA solo operan en un espacio continuo. La selección de características es una idea genérica que podría aplicarse a valores categóricos.

La selección de características es un tipo de técnica de reducción de dimensionalidad. Cuando selecciona un conjunto más pequeño de características de una gran cantidad de características, está tratando de evaluar si una hipótesis más simple aún puede proporcionar un rendimiento equivalente o mejor. Esto puede resultar en un modelo más simple y, por lo tanto, más interpretable. Esto también puede ayudar a centrarse en ese pequeño conjunto de características para comprender el problema en cuestión, por ejemplo, ¿es esencial la frecuencia cardíaca para detectar la agitación?

El otro tipo de reducción de dimensionalidad es la transformación de características como PCA, proyección aleatoria, características del núcleo, etc. En este tipo de métodos, normalmente transforma el espacio de características y luego selecciona un subconjunto más pequeño de esas características. Un efecto secundario es que puede perder las características en el espacio original; por lo tanto, su interpretación puede ser diferente o muy difícil. Por ejemplo, la frecuencia cardíaca puede convertirse en algo totalmente no interpretable en el nuevo espacio de funciones, pero su clasificador aún puede usar esa información (de ese espacio de funciones) y aún puede construir un modelo eficiente.

Depende de la necesidad.

Cualquier cosa donde la identificación de características pueda ser importante. Por ejemplo: si estamos buscando específicamente características individuales que de alguna manera son causales, bueno, obviamente queremos seguir con las características. Las importancias de las características individuales se incluyen en esto y se pueden usar en casos en los que, por ejemplo, la recopilación de datos es costosa, por lo que queremos minimizar la recopilación futura.

Una noción relacionada, pero sutilmente diferente, es la de identificación en la traducción: cuando hacemos problemas de traducción, tenemos que mantener un registro de cómo tradujimos las características. (Quizás una mejor palabra sería transformación). Por ejemplo, supongamos que aplicamos PCA al conjunto de datos y elegimos las 20 mejores PC. En este caso, necesitamos mantener, de alguna manera, la matriz de media y covarianza que usamos en el PCA original. Si usamos la matriz de media y covarianza de los nuevos datos, es muy posible que obtengamos un conjunto de componentes.

Esos son los dos principales en los que puedo pensar en este momento, aunque para ser honesto, no estoy en mi mejor momento en este momento.

La interpretabilidad es probablemente la razón número uno, pero puede haber otras.

Por ejemplo, puede haber un costo asociado con la producción de muchas funciones computacionalmente u otras y hacer PCA o proyección aleatoria, etc., aún requeriría pagar el costo total.

También hay muchas formas de seleccionar características y muchas formas de reducir la dimensionalidad de otras maneras. Entonces, al igual que una reducción de la dimensionalidad puede mejorar los resultados más que otra, lo mismo podría decirse al comparar los métodos de selección de características y comparar entre la selección y decir PCA. a veces solo dan mejores resultados.

La interpretabilidad a menudo se subestima cuando solo está involucrada una decisión de la computadora, pero puede ser muy útil para el análisis de errores.

También a veces preferimos características que capturan un segmento pequeño y lo explican bien sobre características que influyen ligeramente en la distribución de una gran población. Los métodos de selección de funciones son, en muchos casos, adecuados para encontrarlos.

More Interesting

¿Cuál es la diferencia entre el clasificador Naive Bayes y la máquina Bayes Point?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

¿Qué son las redes de iteración de valor?

¿Qué es el aprendizaje activo?

¿Qué tecnologías que no son de IBM se están utilizando para mejorar el ecosistema de IBM Watson?

¿Qué es Distill y cuál es su importancia para la investigación de Machine Learning?

Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

¿Puede la generación de características de fuerza bruta vencer a la ingeniería de características clásica?

¿Cuál es una explicación intuitiva del algoritmo wake-sleep?

¿Cuál es el propósito de AdaGrad para la formación decente de la red neuronal de gradiente estocástico?

¿Cómo desarrollar una intuición para diseñar nuevos algoritmos?

Soy un hombre de 25 años que estudió CS, aprendizaje automático y minería de datos para mi maestría. Mi verdadera pasión radica en la música y los viajes. He estado sin trabajo durante 7 a 8 meses, solicito un doctorado en ML y música, y mi papá quiere que consiga un trabajo. ¿Qué debo hacer?

¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?

¿Puedo usar la agrupación (k-means, etc.) en un gran conjunto de datos para automatizar el proceso de búsqueda de similitudes y hacer recomendaciones?