Este documento discute esto.
En la práctica, ninguno será “mejor” todo el tiempo; depende del conjunto de datos, y debe probar ambos y usar el que tenga mejor rendimiento en su conjunto de desarrollo. (En la escuela primaria, esto se habría llamado “Adivinar y verificar”, pero debe usar el término “Validación cruzada” si desea que lo tomen en serio).
Si tuviera que comenzar con uno, el lineal “duro” rectificó algunas ventajas:
1) Eficiencia computacional
– la función es barata de calcular, al igual que sus gradientes (si x <= 0 devuelve 0 más devuelve 1).
2) escasez
– Para una entrada dada, solo un subconjunto de neuronas tendrá salidas distintas de cero, y la salida será lineal en estas neuronas. Esta linealidad es agradable teórica / matemáticamente para el análisis, y esta escasez también puede acelerar los cálculos.
- ¿Es más fácil conseguir un trabajo de aprendizaje automático con maestros de una buena universidad que si solo eres autodidacta?
- ¿Qué debo tomar Machine Learning o realidad aumentada?
- ¿Qué son el aprendizaje profundo y el aprendizaje automático, sus diferencias, similitudes, relaciones y una línea de tiempo de su historia de invención?
- ¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?
- ¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?
La no diferenciabilidad en el origen no importa. Puede establecerlo en cualquier valor en el rango [0,1] y la optimización funcionará. (Si su alma geek-matemática necesita tranquilidad, dígale que está tomando un subgrado en el origen y consulte EE364b: Convex Optimization II, enseñado por Stephen Boyd, para leer un poco).