¿Cuál es la diferencia entre lineal y no lineal en redes neuronales?

Veamos qué significa lineal y no lineal en general en el aprendizaje automático.

Los modelos lineales son usualmente alguna transformación lineal aplicada a la entrada cuyos parámetros necesitan ser aprendidos. Considere el siguiente modelo: y = W x + b . Este es un modelo lineal típico como puede ver porque la transformación lineal cuya representación matricial es W se aplica a la entrada x . Con dicho modelo, puede resolver problemas de estructura lineal, como la clasificación cuyo límite de decisión se parece al hiperplano, es decir, las etiquetas son [casi] linealmente separables.

En las redes neuronales, aplica dicha transformación a la entrada y, luego, pasa el vector resultante a la función no lineal. ¿Por qué hacemos tal cosa? La mayoría de los procesos en la naturaleza son muy complejos por varias razones. Una de esas razones es que siempre hay algunas variables ocultas que no conocemos (o que simplemente no podemos observar), que tienen un gran impacto en la salida del proceso. Piense en la predicción del éxito de la terapia contra el cáncer. Los científicos han estudiado las células cancerosas durante mucho tiempo y descubrieron varios indicadores de cuán exitoso será un tratamiento, pero no conocen todas las variables involucradas (no saben todo acerca de cada célula cancerosa de cada individuo). Esas variables desconocidas están introduciendo ruido en los datos y hacen que este problema sea muy complejo (puede pensar que esas variables desconocidas están distorsionando nuestro hiperplano a algún límite de decisión altamente no lineal). Debido a todo esto, no solo podemos usar multiplicaciones matriciales en nuestras redes neuronales para resolver este problema (no piense en apilar capas lineales, por favor, porque la composición de 2 transformaciones lineales sigue siendo lineal). Es por eso que utilizamos algunas funciones no lineales además de las transformaciones lineales (alimentar el producto de entrada de peso al sigmoide, ReLU, etc.) para crear límites de decisión no lineales con la esperanza de encajar y generalizar al mismo tiempo.

More Interesting

¿Es realista escribir un programa de reconocimiento facial con aprendizaje profundo en 3 meses sin conocimiento previo sobre redes neuronales y demás?

¿Cuáles son los próximos desafíos posibles para que DeepMind de Google fascine al mundo?

¿Podría la inteligencia artificial resolver el problema de unificar la teoría de la relatividad general con la mecánica cuántica o diría: 'Imposible'?

¿Qué conocimiento es necesario para construir un bot de chat de Facebook Messenger?

¿Qué pasos (en detalle) sugeriría que tome una licenciatura para adquirir experiencia en los campos de aprendizaje automático (ver detalles)?

¿Qué proyectos interesantes, incluida la programación distribuida y la inteligencia artificial, deben hacer y demostrar que son bastante buenos?

¿Cómo construirías un robot para responder preguntas sobre Quora?

Estoy planeando obtener una maestría en CS con especialización en inteligencia artificial de buenas universidades de EE. UU. ¿Cómo escribo un SOP para eso?

¿Qué chatbots te engañaron haciéndote creer que eran humanos?

¿Cómo hago un robot?

Estoy buscando un tema de tesis interesante en aprendizaje automático aplicado en finanzas. ¿Cuáles son algunas sugerencias?

¿Cuáles son las mejores revistas en computación evolutiva?

¿La robótica es parte de la IA? cual es la diferencia entre ellos?

¿Cuáles son algunos de los algoritmos de inteligencia artificial o aprendizaje automático que se utilizan en los videojuegos y cómo se utilizan?

¿Todos los juegos de Android necesitan inteligencia artificial?