¿Tiene sentido relacionar la regresión polinómica y las redes neuronales? ¿Puedes hablar de sus diferencias y similitudes?

Definitivamente lo hace hasta cierto punto, pero es importante recordar que las redes neuronales son más que simples regresores.

Primero, veamos cómo pueden ser similares. En el nivel más alto, ambos pueden hacer lo mismo (suponiendo que esté utilizando la red neuronal para la regresión). Hay una razón más profunda para esto:

Pensemos en esto al nivel más simple. Entonces, digamos que tenemos una sola capa, por lo que nuestra red neuronal se ve así:

Entrada -> Pesos -> Salida

Entonces, si nuestra entrada es [x, x ^ 2], hay una capa de pesos que se conectan a la entrada a la salida. Esto resulta esencialmente en: W1 * x + W2 * x ^ 2, y cuando entrenamos nuestro modelo, estamos ajustando los pesos. Esto es exactamente lo que haría un regresor polinomial para [x, x ^ 2]. La forma general de eso es y = W0 + W1 * x + W2 * x ^ 2 (aunque W generalmente se llama Beta o Theta). Entonces, en su forma más simple, podemos ver que una red neuronal puede actuar como un regresor polinómico.

Sin embargo, aquí es donde las redes neuronales pueden despegar y volverse mucho más flexibles. Podemos agregar capas ocultas. Entonces nuestra red neuronal puede verse así:

Entrada-> Pesos (1) -> Capa oculta-> Pesos (2) -> Salida

Simplemente mirando a la derecha de la capa oculta, se ve exactamente como nuestro ejemplo anterior, excepto que la capa oculta es la entrada. Este conjunto adicional de pesos que conectan la entrada a la capa oculta puede actuar como un mezclador de dimensiones. Entonces, tal vez tenemos una matriz como [x, x ^ 2, y, y ^ 2] como entrada, por lo que estamos tratando de hacer una regresión en múltiples dimensiones (x e y). El primer conjunto de pesos nos ayudará a mezclar diferentes componentes, y esos componentes “mixtos” actúan como una entrada al segundo conjunto de pesos. Esto se puede extender de muchas formas, lo que hace que la red neuronal sea una solución muy flexible para muchos problemas. Esencialmente “encuentra” buenas combinaciones de las entradas que nos dan el mejor ajuste de salida (regresión). En Machine Learning, esto a menudo se llama ingeniería de características … que trata de encontrar formas de mezclar sus entradas para obtener una salida más precisa. Con capas ocultas, las redes neuronales están haciendo eso por nosotros.

Sin embargo, esto viene con una compensación. La formación de redes neuronales puede ser un proceso muy largo. El número de pesos puede ser una matriz ENORME , incluso para problemas relativamente simples. En un pequeño ejemplo como este, no es un gran problema, pero en general es más rápido entrenar a un regresor polinómico; Pero la red neuronal puede darle más flexibilidad.

Por diferencias, la red neuronal se puede aplicar a muchos otros problemas debido a lo poderoso que puede ser este método de entrenamiento con pesas. Por lo tanto, no es suficiente describir las redes neuronales como solo regresores polinomiales “elegantes” … porque las redes neuronales se pueden extender a muchos, muchos otros problemas que los regresores no pueden. Pueden clasificar, pueden (al apilar correctamente las capas ocultas) hacer problemas de visión por computadora, etc.