¿Qué quieren decir los ingenieros con características dispersas en el aprendizaje automático en términos simples?

Una característica es una propiedad del fenómeno que se está modelando que idealmente tiene cierto poder predictivo. Digamos que desea predecir lo que alguien va a votar en una elección en función de algunos de sus atributos, como la edad, el género, el nivel de educación, el origen étnico, el salario, etc. Estas son todas las características. Entonces, entrevista a mil personas, les pregunta qué van a votar, cuántos años tienen, etc. En base a estos datos, el aprendizaje automático le permite encontrar la relación entre las características y la variable que desea predecir, en este caso, el voto. En el futuro, puede usar este modelo para predecir lo que alguien votará en función de su edad, sexo, salario, etc.

Ahora imagine que algo así como cincuenta de las mil personas que entrevistó estaban dispuestas a compartir su salario actual. Ahora se trata de una característica escasa. Una característica dispersa es simplemente una característica con valores que faltan principalmente. Piense en una hoja de Excel con un montón de columnas, donde una de las columnas tiene algunos valores aquí y allá, pero muchas celdas vacías en el medio.

Puedo decirle lo que quiero decir con “características dispersas”, que tal vez no sea lo que otros ingenieros quieren decir.

Una característica dispersa es una característica que tiene principalmente valores cero. Por ejemplo, un recuento de palabras.

Las ramificaciones interesantes para Machine Learning (ML), es que las características dispersas tienden a ser ignoradas por los árboles. Por otro lado, SVM (Support Vector Machines) las maneja bien.

Por lo general, dado un vector de entrada [math] x [/ math] es importante mapear este vector en algún espacio de características usando las llamadas características dispersas, normalmente es posible generar una aproximación del vector [math] x [/ math], [math] \ hat {x} [/ math] usando una suma ponderada lineal de esas características.

Dado un conjunto de características [matemática] x_1 [/ matemática], [matemática] x_2 [/ matemática],…, [matemática] x_n [/ matemática] tal que:

[matemáticas] \ hat {x} = {\ alpha} _ {1} x_1 + {\ alpha} _ {2} x_2 +… + {\ alpha} _ {n} x_n [/ math]

donde el vector coeficiente

[matemáticas] v = [{\ alpha} _ {1}, {\ alpha} _ {2}, …, {\ alpha} _ {n}] [/ matemáticas]

Se dice que las características son escasas si el vector de coeficiente [math] v [/ math] tiene la mayoría de sus entradas en cero.

El vector [math] v [/ math] se puede usar para describir [math] x [/ math] de una manera eficiente y dispersa porque [math] v [/ math] estará mayormente en un espacio dimensional inferior en comparación con [math] x [/ matemáticas]. La codificación dispersa se puede utilizar para encontrar características dispersas y, en su mayoría, la regularización [math] L_1 [/ math] induce tal escasez.

Espero que esto ayude.