He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?

Suponiendo que tiene un modelo generativo para sus datos [matemática] p (y | x, \ theta) [/ matemática], la regularización es equivalente a imponer un previo en [matemática] \ theta [/ matemática] y resolver un problema de estimación MAP.

Por ejemplo, el problema de mínimos cuadrados regularizados de l2 cuadrados de minimizar
[matemáticas] \ frac {1} {\ sigma ^ 2} \ sum_ {i = 1} ^ n \ | y_i – \ beta ^ T x_i \ | _2 ^ 2 + \ frac {1} {\ lambda ^ 2} \ | \ beta \ | _2 ^ 2 [/ matemáticas]
resuelve un problema de estimación MAP con el modelo de generación de datos [math] y \ sim \ mathcal {N} (\ beta ^ T x, \ sigma ^ 2) [/ math] y el anterior [math] \ beta \ sim \ mathcal { N} (0, \ lambda ^ 2) [/ matemáticas]. Puede dar una interpretación similar a l2 mínimos cuadrados regularizados o l1 mínimos cuadrados regularizados (en este último caso, el anterior es una distribución laplaciana).

Para volver a su problema, tomaría la regularización dada por el Dirichlet prior, el conjugado anterior de la distribución multinomial, con el mismo parámetro de concentración para cada coordenada. Cuando el parámetro de concentración es menor que 1, tiende a promover la dispersión como l1, y cuando es mayor que 1, promueve la suavidad como l2.

More Interesting

¿Cómo se puede aplicar el aprendizaje automático en los campos de la ingeniería química y de procesos?

¿Qué consejo daría Yoshua Bengio a los jóvenes investigadores que ingresan al campo del aprendizaje automático?

¿Cuál es la diferencia entre pre-entrenamiento y pre-procesamiento?

¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

¿El evento IBM Watson vs. Jeopardy perjudicó los campos de aprendizaje automático e inteligencia humana?

Cómo usar el aprendizaje automático para identificar patrones en la trama de series de tiempo

¿Hay aplicaciones de IA en adquisiciones?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

¿Qué se entiende por el término "ejemplos adversos" en el aprendizaje automático?

¿Cómo se calcula la pérdida WARP de la estadística de orden K para aprender a clasificar las recomendaciones?

¿Cuáles son algunas buenas ideas de proyectos en el área de análisis / predicción del mercado de valores utilizando Bayes ingenuo?

¿Qué tecnologías de IA están disponibles para el reconocimiento del usuario por comportamiento (interacción con el sistema), estilo de escritura, etc. y cómo procedo a hacer una?

¿Cuáles son algunos chatbots de IA de código abierto que usan aprendizaje automático?

¿Cuál es el gradiente de la función de probabilidad logarítmica en la regresión logística multinomial?