¿Cómo se elige una función de activación? He notado que las funciones más utilizadas se parecen, especialmente cerca de 0. ¿Tienen que ajustarse a algún comportamiento específico? ¿Es este un tema de investigación abierto? ¿Hace una gran diferencia en los resultados?

Depende de la forma en que desee activar la neurona (su comportamiento): aproximadamente (binario), linealmente (función lineal y = ax + b), más o menos suavemente (función exponencial o sigmoidea). Función sigmoidea – Wikipedia

La forma en que la curva pasa por cero permite el equilibrio entre las entradas negativas y positivas, la función de activación se utiliza para aceptar la cantidad. La segunda preocupación es la configuración de parámetros.

Debe imaginar cuán fuerte o rápida es su activación y con qué sesgo (nivel de activación). Normalmente, estos parámetros se establecen durante el paso de aprendizaje: peso de las entradas y salidas, valores de activación y coeficientes de función. Rumelhart ha creado neuronas para copiar (aprender) un proceso básico y luego no configurarlo directamente, pero puede probar XOR o funciones binarias sin la etapa de aprendizaje.

Ya no es un tema abierto. demasiado simple 😉 Pero se pueden hacer muchas investigaciones sobre la organización y estructura de redes neuronales y otros paradigmas de inteligencia computacional. Piensa que las redes neuronales artificiales no son plásticas y su memoria es muy limitada, no son como nuestro cerebro. Se pueden encontrar muchas soluciones simples óptimas o subóptimas sin redes neuronales.

No hay mucha investigación activa sobre el tema en comparación con otros aspectos del aprendizaje profundo: pero eso no quiere decir que no hay nada que investigar.

Cualquier función diferenciable no lineal puede usarse como una función de activación. Cada uno tiene ventajas y desventajas. También hay varios “obvios” que parecen no haber sido probados. Además: una red neuronal no tiene que usar la misma función de activación en cada nodo, y en algunos casos hay buenas razones para usar más de uno (el más común es Relu en nodos ocultos y softmax en los nodos de salida)

More Interesting

¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

¿Qué utiliza la aspiradora robótica como recompensa si utilizan el aprendizaje por refuerzo como algoritmo?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿Pueden proporcionarme un código para la predicción de palabras con word2vec?

Cómo iniciar el aprendizaje automático desde PHP

¿Cuáles son algunas de las ventajas de usar PyTorch sobre TensorFlow?

Sistemas de recomendación: ¿Cuál es la diferencia entre el filtrado colaborativo de elemento a elemento y el filtrado basado en contenido?

¿Tiene Microsoft una mejor tecnología de aprendizaje automático y aprendizaje profundo que Google?

¿Cuáles son las cosas más difíciles o problemáticas para los ingenieros de Machine Learning / Deep Learning?

¿Cuál es la función de transferencia en redes neuronales artificiales?

Según muchas personas, la inteligencia artificial y el aprendizaje automático son las principales razones de los despidos de trabajo de TI. ¿Qué trabajos han sido reemplazados por estas disciplinas?

Cómo desarrollar una aplicación que reproduzca música de acuerdo a tu estado de ánimo

Soy Editor de Adquisiciones y para obtener conocimiento y autoaprendizaje de análisis de datos y habilidades de aprendizaje automático. ¿Alguien podría ayudarme a trazar un plan?

¿Qué es el mecanismo de atención en redes neuronales?

¿Cuáles son las aplicaciones de aprendizaje profundo que consideras sin explotar?