¿Es malo tener una gran cantidad de funciones en Machine Learning?

Nota: Esta respuesta considera aquellos problemas de LA que pueden clasificarse como optimización de objetivos múltiples.

Sí, el aumento en el número de características aumentará la dimensión del espacio de búsqueda para el problema. Por lo tanto, un gran número de objetivos / características causará que un problema sufra una maldición de dimensionalidad . Citando wikipedia

En los problemas de aprendizaje automático que implican aprender un “estado de la naturaleza” (tal vez una distribución infinita) a partir de un número finito de muestras de datos en un espacio de características de alta dimensión con cada característica con una serie de valores posibles, una enorme cantidad de entrenamiento se requieren datos para garantizar que haya varias muestras con cada combinación de valores. Con un número fijo de muestras de entrenamiento, el poder predictivo se reduce a medida que aumenta la dimensionalidad, y esto se conoce como el efecto Hughes o fenómeno Hughes (llamado así por Gordon F. Hughes).

La complejidad en tiempo de ejecución de la mayoría de los algoritmos existentes para encontrar las soluciones óptimas a los problemas de optimización multiobjetivo crece exponencialmente con el aumento de la dimensión. Se sugiere eliminar las funciones redundantes para disminuir las dimensiones de búsqueda.

Los problemas multiobjetivos con cuatro o más objetivos a menudo se denominan problemas de muchos objetivos. Cada vez que se aplica un algoritmo de Pareto basado en el dominio [1] EMO (Optimimación multiobjetiva evolutiva) bien conocido y de uso frecuente a un problema tan objetivo, se enfrentan tres dificultades serias.

1. Cuando aumenta el número de objetivos, casi todas las soluciones en cada población quedan sin dominar. Esto debilita severamente la presión de selección basada en el dominio de Pareto hacia el frente de Pareto. Esa es la propiedad de convergencia de los algoritmos EMO está severamente deteriorada.

2. Aumento exponencial en el número de soluciones requeridas para aproximar todo el frente de Pareto. El objetivo de los algoritmos EMO es encontrar un conjunto de soluciones no dominadas que se aproximen bien a todo el frente de Pareto. Dado que el frente de Pareto es una hiper-superficie en el espacio objetivo, el número de soluciones requeridas para su aproximación aumenta exponencialmente con la dimensionalidad del espacio objetivo (es decir, con el número 9 de objetivos). Es decir, es posible que necesitemos miles de soluciones dominadas para aproximar todo el frente de Pareto a un problema de muchos objetivos.

3. Dificultad de visualización de soluciones. Por lo general, se supone que la elección de una solución final de un conjunto de soluciones no dominadas obtenidas la realiza un responsable de la toma de decisiones en función de su preferencia. El aumento en el número de objetivos hace que la visualización de las soluciones no dominadas obtenidas sea muy difícil. Esto significa que la elección de una solución final se vuelve muy difícil en la optimización de muchos objetivos.

[1] Solución eficiente / no dominada de Pareto: en términos simples, una solución es pareto óptima o no dominada, si no existe otra solución que sea mejor que esta solución en todos los objetivos.

Ciertamente, puede tener demasiadas funciones en su modelo, ya que la decisión de elegirlas depende totalmente de usted. Sin embargo, demasiados es un término relativo y depende del dominio del problema. Por ejemplo, un problema de visión por computadora en el que analiza una imagen de 20 por 20 puede tener la intensidad de píxel de cada píxel como una característica, lo que lleva a 400 características para cada imagen. Esa es una cantidad razonable de características para este problema. Sin embargo, 400 características para un problema como la predicción de los precios de la vivienda pueden ser demasiadas.

Demasiadas características son a menudo algo malo. Puede conducir a un sobreajuste. En términos sencillos, el sobreajuste es el problema de ajustar demasiado sus parámetros a los datos de entrenamiento. Esto da como resultado que su modelo descubra ruido aleatorio en el conjunto de entrenamiento finito en lugar de la relación más amplia entre las características y la variable de salida. En consecuencia, su modelo a menudo se desempeñará muy bien en los datos de entrenamiento (error de conjunto de entrenamiento bajo) pero funcionará bastante mal en los datos de prueba (error predictivo alto).

Esta imagen de Wikipedia debería dar una buena idea de sobreajuste. La línea curva elegante está claramente “tratando demasiado de ajustar los puntos de datos de entrenamiento”.


Otra desventaja de tener demasiadas funciones es que su algoritmo puede tardar mucho más en procesar las funciones innecesarias que no agregan ningún valor a su juicio (por el contrario, puede llevar a un sobreajuste).

De hecho, tener demasiadas funciones puede ser fácilmente algo malo.

Semánticamente, eso es una tautología, porque el significado de “demasiados” es el de “una cantidad que causa daño”.

Una respuesta más seria y MLish es que tener más funciones de las necesarias puede dañar su algoritmo de aprendizaje de la siguiente manera:
* necesitará más datos para explorar el espacio de características mucho más amplio para la estructura que está buscando.
* su algoritmo de aprendizaje elegido requerirá mucho más tiempo para procesar todos los datos jugosos (aunque innecesarios) que le está proporcionando.
* en realidad está permitiendo que su algoritmo de aprendizaje aprenda la estructura espuria, ya que cuanto más basura hay en los datos, más ruido y más probabilidades hay de encontrar estructuras aleatorias que parecen tener sentido. IE Promueve sobre ajuste.
* Estás violando directamente la navaja de Occam por, aparentemente, no hay una buena razón.

Además de todos los demás comentarios, una métrica importante es la escasez de la característica. Hay muchos trabajos que señalan el efecto positivo de las características grandes pero dispersas, incluso algunos de los algoritmos de aprendizaje profundo se basan en ese hecho. No todos los vectores de funciones principales anulan sus resultados.

More Interesting

¿Hay bases de datos de palabras clave abiertas?

¿Qué significa el término 'soft-max' en el contexto del aprendizaje automático?

Cómo aplicar en la práctica PCA a la agrupación de trayectorias

He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?

¿Cuáles son los buenos algoritmos para la extracción de características para grandes conjuntos de datos?

¿En qué año la publicidad de AI / Machine Learning se pondrá al día con la realidad?

¿Cuántos desarrolladores necesitamos si queremos hacer uso de la API Watson de IBM?

¿Qué es exactamente el sobreajuste? ¿Por que sucede? ¿Cómo afecta a mi modelo?

¿Cómo puede ANN manejar datos de entrada no numéricos?

¿Cómo puede una red neuronal ser capaz de razonamiento simbólico? ¿Cómo puede unir variables?

¿Puedes explicar cómo el BPTT sufre un problema de gradiente?

¿Dónde puedo encontrar artículos sobre los métodos utilizados para ganar las competencias de Kaggle?

¿Qué tipo de estructuras de datos podrían usarse en un proyecto de procesamiento de lenguaje natural?

¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]?

¿Por qué algunas personas confunden las estadísticas con el aprendizaje automático?