En el aprendizaje automático, ¿cómo calcula qué tan buena es una característica binaria para predecir Y?

En el aprendizaje automático, cada función se pondera al calcular una activación de la neurona o clasificador. Ese peso representa la importancia relativa de esa característica para la predicción de [matemáticas] y [/ matemáticas]. Considera una neurona simple.

[matemáticas] y = \ varphi (\ sum_ {i} ^ {n} w_ {i} x_ {i} + b) [/ matemáticas]

Donde [math] w [/ math] ‘s = pesos

[matemáticas] x = [x_1, x_2,…, x_n] [/ matemáticas]

para [matemáticas] x_ {i} \ in (0,1) [/ matemáticas]

Y [math] \ varphi [/ math] = función de activación

La neurona después del aprendizaje descubrirá diferentes valores de peso para la predicción adecuada de [matemáticas] y [/ matemáticas]. Algunos de esos valores de peso pueden ser negativos, por lo que la influencia de una característica [matemática] i [/ matemática] es proporcional al valor de peso absoluto normalizado:

[matemáticas] \ hat {w_ {i}} = abs (\ frac {w_ {i}} {|| w ||}) [/ matemáticas]

Cuanto mayor sea el valor [math] \ hat {w_ {i}} [/ math], más influyente es esa característica. Entonces

[math] \ hat {w_ {i}} \ propto [/ math] característica [math] i [/ math] correlacionada con [math] y [/ math].

Espero que esto ayude.

Bueno, acabas de decir uno de ellos: correlación con la etiqueta. Otra medida útil podría ser la información mutua con la etiqueta. Dado que solo tiene cinco funciones, elimínelas una a la vez y vea cómo sufre el modelo, eso le dirá cuán útil es para su modelo.

Tenga en cuenta que analizar características individuales de forma aislada puede ser engañoso. Hay situaciones en las que una única característica puede tener poca correlación con el objetivo cuando se considera sola, pero en combinación con otras características puede crear un conjunto de características útiles para predecir Y. La característica A podría no ser buena para predecir Y por sí misma, pero en conjunto Característica B, obtienes una señal más fuerte.

Trace los histogramas de cada entidad por clase. Eso son dos histogramas en una parcela. Mira cuánto se superponen. Cuanto menor sea la superposición, mejor será la función.

Numéricamente puede calcular la media y la varianza (mejor la desviación estándar) por clase y medir la cantidad de superposición. Pero esta es una simplificación que supone la distribución gaussiana de la característica en clase.