Lo siento si esto es demasiado trivial, pero permítanme comenzar desde el principio: “Regresión lineal”.
El objetivo de la regresión lineal (mínimos cuadrados ordinarios) es encontrar los pesos óptimos que, cuando se combinan linealmente con las entradas, dan como resultado un modelo que minimiza los desplazamientos verticales entre el objetivo y las variables explicativas, pero no nos distraigamos con el ajuste del modelo , que es un tema diferente;).
Entonces, en la regresión lineal, calculamos una combinación lineal de pesos y entradas (llamemos a esta función la “función de entrada neta”).
- ¿Cuáles son las diferentes técnicas para el procesamiento del lenguaje natural para resolver un ensayo de clasificación automática?
- ¿Qué representa el término sesgo en la regresión logística?
- ¿Por qué es importante la eliminación de variables en los modelos gráficos probabilísticos?
- ¿Cómo es un proyecto de visión por computadora "típico", de principio a fin?
- ¿Cuáles son algunos buenos libros / recursos para que un principiante obtenga una buena introducción al aprendizaje automático?
[matemática] \ text {net} (x) = b + x_1w_1 + x_2w_2 +… x_nw_n [/ math] = z
A continuación, consideremos la regresión logística. Aquí, colocamos la entrada neta z a través de una “función de activación” no lineal, la función sigmoide logística donde.
Piense en ello como “aplastando” la entrada neta lineal a través de una función no lineal, que tiene la buena propiedad de que devuelve la probabilidad condicional P (y = 1 | x) (es decir, la probabilidad de que una muestra x pertenezca a la clase 1 )
Ahora, si agregamos una función de paso, por ejemplo,
- Si SigmoidOutput es mayor o igual a 0,5, pronostique la clase 1, y la clase 0 de lo contrario
- (Equivalentemente: si NetInput z es mayor o igual a 0 -> predice la clase 1 y la clase 0 de lo contrario)
obtenemos un clasificador de regresión logística:
(Quizás vea este para obtener más detalles: la respuesta de Sebastian Raschka a ¿Cuál es la interpretación probabilística de la regresión logística regularizada? ¿Cuál es la interpretación probabilística al agregar la penalización de regularización a la función de costo?)
Sin embargo, la regresión logística (un modelo lineal generalizado) sigue siendo un clasificador lineal en el sentido de que su superficie de decisión es lineal:
Si las clases se pueden separar linealmente, esto funciona bien, sin embargo, consideremos un caso más complicado:
Aquí, un clasificador no lineal puede ser una mejor opción, por ejemplo, una red neuronal multicapa. A continuación, entrené un perceptrón simple de múltiples capas con 1 capa oculta que consta de 200 de estas funciones de activación sigmoidea logística. Veamos cómo se ve la superficie de decisión ahora:
(tenga en cuenta que es posible que me esté ajustando un poco, pero de nuevo, esa es una discusión para un tema separado;))
La arquitectura de esta red neuronal totalmente conectada y alimentada se ve esencialmente así:
En este caso particular, solo tenemos 3 unidades en la capa de entrada (x_0 = 1 para la unidad de sesgo, y x_1 y x_2 para las 2 características, respectivamente); Hay 200 de estas funciones de activación sigmoidea (a_m) en la capa oculta y 1 función sigmoidea en la capa de salida, que luego se aplasta a través de una función de paso unitario (no se muestra) para producir la etiqueta de clase de salida predicha y ^ .
Para resumir, el clasificador de regresión logística tiene una función de activación no lineal, pero los coeficientes de peso de este modelo son esencialmente una combinación lineal, por lo que la regresión logística es un modelo lineal “generalizado”. Ahora, el papel de la función de activación en una red neuronal es producir un límite de decisión no lineal a través de combinaciones lineales de las entradas ponderadas.
(Si está interesado, vea la respuesta de Sebastian Raschka a ¿Cuál es la mejor explicación visual para el algoritmo de propagación inversa para redes neuronales? Para aprender los pesos en este caso).
Para su conveniencia, agregué una hoja de trucos de las funciones de activación más comunes a continuación: