En una red neuronal artificial típica, cada neurona / actividad en una “capa” está conectada, a través de un peso, a cada neurona en la siguiente actividad. Cada una de estas actividades almacena algún tipo de cálculo, normalmente un compuesto de las actividades ponderadas en las capas anteriores.
Una unidad de sesgo es una neurona “extra” agregada a cada capa de pre-salida que almacena el valor de 1. Las unidades de sesgo no están conectadas a ninguna capa anterior y, en este sentido, no representan una verdadera “actividad”.
Eche un vistazo a la siguiente ilustración:
- ¿Necesito detener todo y aprender IA? ¿Cuánto tiempo pasará antes de que Robots tome mi trabajo como desarrollador web?
- ¿Cuáles son los límites del aprendizaje profundo?
- ¿Se considerarían los robots autorreplicantes como una forma de vida?
- ¿Qué tipo de IA es la computadora esposa de plancton en Bob Esponja?
- No tengo una sólida formación en matemáticas, ¿qué debo aprender en matemáticas para poder dominar el aprendizaje automático y la inteligencia artificial?
Las unidades de sesgo se caracterizan por el texto “+1”. Como puede ver, una unidad de polarización se agrega al inicio / final de la entrada y a cada capa oculta, y no está influenciada por los valores de la capa anterior. En otras palabras, estas neuronas no tienen conexiones entrantes.
Entonces, ¿por qué tenemos unidades de sesgo? Bueno, las unidades de polarización aún tienen conexiones salientes y pueden contribuir a la salida de la ANN. Llamemos a los pesos salientes de las unidades de polarización w_b. Ahora, veamos una red neuronal realmente simple que solo tiene una entrada y una conexión:
Digamos que act (), nuestra función de activación, es solo f (x) = x, o la función de identidad. En tal caso, nuestra ANN representaría una línea porque la salida es solo el peso (m) multiplicado por la entrada (x).
Cuando cambiamos nuestro peso w1, cambiaremos el gradiente de la función para que sea más pronunciada o más plana. Pero, ¿qué pasa con el desplazamiento vertical de la función? En otras palabras, ¿qué hay de establecer la intersección en y? ¡Esto es crucial para muchos problemas de modelado! Nuestros modelos óptimos pueden no pasar por el origen.
Entonces, sabemos que nuestra función output = w * input (y = mx) necesita tener este término constante agregado. En otras palabras, podemos decir output = w * input + w_b , donde w_b es nuestro término constante c. Sin embargo, cuando usamos redes neuronales o hacemos un aprendizaje de múltiples variables, nuestros cálculos se realizarán mediante álgebra lineal y aritmética matricial, por ejemplo. producto punto, multiplicación. Esto también se puede ver gráficamente en el ANN. Debe haber un número coincidente de pesos y actividades para que ocurra una suma ponderada. Debido a esto, necesitamos “agregar” un término de entrada adicional para poder agregar un término constante con él. Dado que uno multiplicado por cualquier valor es ese valor, simplemente “insertamos” un valor adicional de 1 en cada capa. Esto se llama la unidad de sesgo.
A partir de este diagrama, puede ver que ahora hemos agregado el término de sesgo y, por lo tanto, el peso w_b se agregará a la suma ponderada y se alimentará a través de la función de activación como un valor constante. Este término constante, también llamado “término de intercepción” (como lo demuestra el ejemplo lineal), desplaza la función de activación hacia la izquierda o hacia la derecha. También será la salida cuando la entrada sea cero.
Aquí hay un diagrama de cómo los diferentes pesos transformarán la función de activación (sigmoide en este caso) al aumentarla / disminuirla:
Pero ahora, al agregar la unidad de sesgo, existe la posibilidad de traducir la función de activación:
Volviendo al ejemplo de regresión lineal, si w_b es 1, entonces agregaremos sesgo * w_b = 1 * w_b = w_b a la función de activación. En el ejemplo con la línea, podemos crear una intersección en y que no sea cero:
Estoy seguro de que puede imaginar escenarios infinitos en los que la línea de mejor ajuste no pasa por el origen ni se acerca. Las unidades de sesgo son importantes con las redes neuronales de la misma manera.