Aprendizaje profundo: ¿Una versión suave de unidades lineales rectificadas funciona mejor o peor que una no lineal?

Este documento discute esto.

En la práctica, ninguno será “mejor” todo el tiempo; depende del conjunto de datos, y debe probar ambos y usar el que tenga mejor rendimiento en su conjunto de desarrollo. (En la escuela primaria, esto se habría llamado “Adivinar y verificar”, pero debe usar el término “Validación cruzada” si desea que lo tomen en serio).

Si tuviera que comenzar con uno, el lineal “duro” rectificó algunas ventajas:
1) Eficiencia computacional
– la función es barata de calcular, al igual que sus gradientes (si x <= 0 devuelve 0 más devuelve 1).
2) escasez
– Para una entrada dada, solo un subconjunto de neuronas tendrá salidas distintas de cero, y la salida será lineal en estas neuronas. Esta linealidad es agradable teórica / matemáticamente para el análisis, y esta escasez también puede acelerar los cálculos.

La no diferenciabilidad en el origen no importa. Puede establecerlo en cualquier valor en el rango [0,1] y la optimización funcionará. (Si su alma geek-matemática necesita tranquilidad, dígale que está tomando un subgrado en el origen y consulte EE364b: Convex Optimization II, enseñado por Stephen Boyd, para leer un poco).

Related Content

¿Cuál es la diferencia entre TensorFlow y Grep? ¿Cuál es el más adecuado para el aprendizaje automático? ¿Por qué o por qué no?

¿Qué es el aprendizaje automático?

¿Qué significa el modelo semántico distribucional (DSM) en el procesamiento del lenguaje natural?

¿Qué nos dicen las cargas de variables del análisis de componentes principales?

¿Cómo puede ser posible la IA si las máquinas se limitan a la lógica y el lenguaje?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

¿Por qué el preentrenamiento no supervisado actúa como un regularizador en arquitecturas profundas?

More Interesting

¿Cuáles son algunos de los mejores algoritmos de aprendizaje automático, considerando la eficiencia, la facilidad de implementación, etc.?

¿Cuáles son algunos buenos proyectos de aprendizaje automático que implican el uso de estructuras de datos y tienen aplicaciones de la vida real y se pueden hacer en 2-3 semanas?

Cómo interpretar la salida de una red neuronal

¿Por qué Google TensorFlow usa OpenCL y no OpenGL? ¿Cuáles son las ventajas?

¿Qué áreas del aprendizaje automático son más importantes para los fondos de cobertura y los bancos de inversión (en equipos cuantitativos)?

¿Cuáles son los 10 problemas principales en Machine Learning para 2014?

¿Cómo podemos hacer una buena predicción usando el aprendizaje profundo MXNet R?

¿Puedo incluir el aprendizaje automático en mi currículum después de aprender scikit-learn?

Si se le da una opción entre el aprendizaje automático y el Internet de las cosas como una opción, ¿cuál es la mejor para elegir, teniendo en cuenta el alcance y el futuro?

¿Tiene sentido usar la selección de características antes de Random Forest?

¿Cuál es el mejor curso de aprendizaje automático en Hyderabad?

¿Es justo evaluar una red neuronal profunda solo de acuerdo con su rendimiento en algunos conjuntos de datos específicos?

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados en el aprendizaje profundo?

¿Cuál es el método del núcleo? ¿Cómo se usa en los sistemas de recomendación?

Cómo comenzar a programar una IA básica de autoaprendizaje

Web Analytics