Suponiendo que tiene un modelo generativo para sus datos [matemática] p (y | x, \ theta) [/ matemática], la regularización es equivalente a imponer un previo en [matemática] \ theta [/ matemática] y resolver un problema de estimación MAP.
Por ejemplo, el problema de mínimos cuadrados regularizados de l2 cuadrados de minimizar
[matemáticas] \ frac {1} {\ sigma ^ 2} \ sum_ {i = 1} ^ n \ | y_i – \ beta ^ T x_i \ | _2 ^ 2 + \ frac {1} {\ lambda ^ 2} \ | \ beta \ | _2 ^ 2 [/ matemáticas]
resuelve un problema de estimación MAP con el modelo de generación de datos [math] y \ sim \ mathcal {N} (\ beta ^ T x, \ sigma ^ 2) [/ math] y el anterior [math] \ beta \ sim \ mathcal { N} (0, \ lambda ^ 2) [/ matemáticas]. Puede dar una interpretación similar a l2 mínimos cuadrados regularizados o l1 mínimos cuadrados regularizados (en este último caso, el anterior es una distribución laplaciana).
Para volver a su problema, tomaría la regularización dada por el Dirichlet prior, el conjugado anterior de la distribución multinomial, con el mismo parámetro de concentración para cada coordenada. Cuando el parámetro de concentración es menor que 1, tiende a promover la dispersión como l1, y cuando es mayor que 1, promueve la suavidad como l2.
- Cómo aplicar ConvNet en el análisis de sentimientos
- Andrew Ng: ¿Qué opinas de AlphaGo?
- Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?
- ¿Cuál es el papel del análisis de datos exploratorios (EDA) en el aprendizaje automático?
- ¿Cuáles son los mejores algoritmos de aprendizaje sin supervisión para la corrección ortográfica?