Conceptualmente, ¿qué significa tener múltiples neuronas en una sola capa de una red neuronal?

Hay una diferencia, cada neurona en una capa es un detector de características y tener 1 vs 100 puede ser una gran diferencia. La idea de tener múltiples neuronas en una sola capa es hacer que esas neuronas aprendan representaciones compactas de los datos de entrenamiento.

Piense en un ejemplo simple, tengo señales en un dominio particular que pueden ser escasamente representadas por las características K. Entonces, una combinación lineal o no lineal de estas representaciones dispersas puede formar cualquier señal en ese dominio. Suponiendo un NN con una capa de entrada, una capa oculta con K nodos y una capa de salida.

Ahora entreno esta red, la capa oculta aprenderá esas características dispersas de K para esta situación hipotética particular, los nodos en la capa de salida solo harán una suma ponderada para regenerar la señal o tomar decisiones.

Por lo tanto, los múltiples nodos en una capa hacen posible que esa capa aprenda un pequeño conjunto de características que pueden ser útiles para que la red tome decisiones. Es una especie de componentes principales, aunque las características aprendidas normalmente nunca son ortogonales.

Así, cada capa aprende un espacio de características en el que se proyecta una señal y para un NN, múltiples proyecciones no lineales son importantes para producir una salida deseable. Sin múltiples neuronas en las capas, sería casi imposible aprender el espacio de características apropiado para proyectar la señal.

Espero que esto ayude.

Entonces cada neurona en lo oculto aprende su propio límite de decisión lineal. En la parte superior de la capa oculta está la capa de salida, que es otra neurona o un softmax. Entonces, lo que gana al tener una capa oculta es que primero aprende 100 formas diferentes de separar sus datos y en la capa de salida está razonando sobre cómo combinar las salidas de esas 100 decisiones. ¿Por qué es útil esto? Si sus datos no pueden separarse por un único límite de decisión lineal como:

Tiene 2 opciones, ingeniería de características, agregando características polinómicas o cortando sus datos con varios límites lineales y combinándolos en un límite lineal por partes. Una capa oculta en una red neuronal hace lo último. Si esto aún no está claro, tome el ejemplo en la esquina superior izquierda. Digamos que las distribuciones roja y negra son de una clase y la distribución verde en otra. Con un límite lineal de una sola unidad, no puede separar las dos clases, pero puede hacerlo con dos límites lineales. Por ejemplo, puede aprender un 1 contra todos o para la clase roja un 1 contra todos para la clase negra y luego puede aprender una función en las salidas de estos dos clasificadores (un OR simple) funcionaría. De esa manera, una capa oculta con 2 neuronas es lo suficientemente expresiva como para aprender esta función. ¿Por qué las personas usan capas ocultas de unas cien neuronas? Bueno, imagine cuántos límites lineales necesitaría para cortar la distribución en espiral en la parte inferior izquierda. No hay ciencia real para elegir el tamaño de la capa oculta. Todo depende de cuán complejos sean sus datos, la mejor estrategia es probar un error. Puede pensar por qué no solo usar una capa oculta de un millón de neuronas porque eso podría aprender cualquier función imaginable. La razón es que te encontrarás con un ajuste excesivo.

Puedes pensar en cada neurona en una capa como un emparejador de plantillas. Cada neurona almacena una plantilla en forma de sus pesos, y la neurona intenta detectar qué tan similar es la entrada a su plantilla almacenada.

More Interesting

¿Cómo ha influido el trabajo de Noam Chomsky en el campo de la inteligencia artificial?

¿Cuál es la principal diferencia entre el aprendizaje por refuerzo y el proceso de decisión de Markov?

¿Cómo se puede usar la IA en campañas políticas?

¿Sería útil para un ingeniero de verificación de diseño de chips aprender aprendizaje automático / IA?

¿Son los trabajos de concierto el paso final antes de que un trabajo sea reemplazado por IA?

¿Puede una máquina de Turing simular una red neuronal?

¿Necesitas ser extremadamente talentoso en matemáticas para convertirte en un científico de IA?

¿Cuál es el futuro del aprendizaje profundo? ¿La mayoría de los expertos en aprendizaje automático están recurriendo al aprendizaje profundo?

¿Cómo funciona el aprendizaje residual profundo?

¿Cómo se compila un sistema de inteligencia artificial, se prueba las características adicionales y cómo se libera a sí mismo con comportamientos estables, puede un sistema Ai depurarse?

¿Se automatizará el trabajo de ingeniero de software debido a las máquinas de tural neural y el aprendizaje profundo?

¿Qué pasaría si una IA fuerte estuviera disponible con una licencia de código abierto?

¿Son los robots el futuro del cuidado de los ancianos?

¿Cómo debo enseñarme sobre temas como AI y Deep Learning si no tengo conocimientos previos de programación? Quiero comenzar desde lo básico.

¿Es posible escribir código que pueda codificarse y mejorarse a sí mismo? En caso afirmativo, proporcione un ejemplo.