La regularización nos permite introducir conocimiento preexistente en nuestros modelos.
Llamamos a ese conocimiento preexistente un previo .
Al introducir los antecedentes, su modelo comienza a preferir hipótesis exitosas que satisfagan mejor al anterior. En la regresión lineal con la regularización L2, cuanto más grande establezca lambda en el regularizador L2, más fuerte será el anterior. Desde una perspectiva bayesiana, este previo L2 es equivalente a agregar un previo gaussiano sobre los pesos.
- ¿Cuál es la mejor computadora portátil que puedo obtener para aprender el aprendizaje profundo con CUDA?
- ¿Cuál es la diferencia entre SVD y factorización matricial en el contexto del motor de recomendación?
- Cómo obtener trabajos de aprendizaje automático sin una educación formal
- ¿Por qué un niño de 6 años puede realizar tareas de reconocimiento de objetos mejor que una red neuronal distribuida a gran escala con decenas de miles de núcleos de CPU, pero incluso un cerebro adulto no puede competir con un procesador anticuado cuando se trata de cálculos de procedimientos? ¿Qué falta en nuestro procesador?
- Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional
[matemáticas] Min \ underbrace {\ sum_ {i = 1} ^ N (y_i – (w_0 + w_1 x_1 + w_2 x_2)) ^ {2}} _ \ text {suma del término de error cuadrado} + \ underbrace {\ lambda (\ sum_ {j = 1} ^ 2 w_j)} _ \ text {Término de penalización} \ tag {3} [/ math]
En las redes neuronales convolucionales, la agrupación impone un precedente infinitamente fuerte que puede expresarse como “La función que aprende la capa debe ser invariable para las traducciones muy pequeñas”. Esto es bastante fácil de interpretar. Imagen de una operación de agrupación máxima de 5 × 5 sobre una matriz. Si proporciona una traducción lo suficientemente pequeña, el resultado de la agrupación máxima no cambiará.