¿Cómo se manejan las características categóricas en un modelo de mezcla gaussiana / modelo de agrupamiento?

No estoy familiarizado con R o ese paquete, pero no hay ningún problema para extender los modelos EM y mixtos a distribuciones no gaussianas (datos no continuos). Sin embargo, esto implica alejarse del GMM estándar y pensar en lugar de modelos de mezcla generales.

La forma más general es pensar en esto (que permite actualizaciones exactas de los posteriores) es como una mezcla de distribuciones familiares exponenciales, pero en su caso es suficiente usar una distribución de Bernoulli (que es un miembro de la familia exponencial ) para sus variables binarias (multinoulli si tienen más de dos categorías). Básicamente, denotemos [math] x [/ math] sus variables continuas y [math] z [/ math] sus variables categóricas, la densidad de su modelo de mezcla es ahora:

[matemáticas] p (x, z | \ theta) = \ sum_M C_m N (x; \ mu_m, \ Sigma_m) \ prod_z Ber (z; p_m ^ {(z)}) [/ math]

donde denoto [math] C_m [/ math] los componentes anteriores, y [math] \ theta_m [/ math] los parámetros de distribución del componente (recomendaría limitar [math] \ Sigma_m [/ math] para que sea diagonal para facilitar derivación y generalización). A partir de ahí, la derivación de EM es más o menos la misma: su función auxiliar sería:

[matemáticas] Q (\ theta, \ hat {\ theta}) = \ sum ^ n \ sum ^ M p (w_m | x_i, z_i, \ theta) \ log p (x_i, z_i | w_m, \ theta_m) [/ matemáticas]

Donde estoy usando [matemáticas] p (w_m | x, z, \ theta) [/ matemáticas] para denotar el componente posterior. Tome la derivada wrt [math] \ theta [/ math], obtenga la actualización posterior y listo. Introduce eso en el procedimiento EM estándar. Aquí hay un enlace a algunas diapositivas que describen la parte de Bernoulli, el resto es el mismo que para los GMM.

EDITAR

Entonces trabajando a través de los derivados y otras cosas (para completar la respuesta):

[matemáticas] \ hat {\ mu} _m = \ frac {\ sum_n p (w_m | x_i, z_i, \ theta) x_i} {\ sum_n p (w_m | x_i, z_i, \ theta)} [/ math]

[matemáticas] \ hat {\ sigma} _ {m, j} = \ frac {\ sum_n p (w_m | x_i, z_i, \ theta) (x_ {i, j} – \ mu_ {m, j}) ^ 2 } {\ sum_n p (w_m | x_i, z_i, \ theta)} [/ math]

[matemáticas] \ hat {p} _m ^ {(z)} = \ frac {\ sum_n p (w_m | x_i, z_i, \ theta) z_i} {\ sum_n p (w_m | x_i, z_i, \ theta)} [ /matemáticas]

Sin embargo, desafortunadamente la actualización posterior en este caso no tiene una solución de forma cerrada, por lo que nos veríamos obligados a recurrir a algo como EM o MCEM variacional. Otra cosa que podría hacer es usar las actualizaciones posteriores regulares de GMM, que es como asumir que la parte posterior no depende de las variables categóricas. Esto es teóricamente posible, pero no está justificado.

More Interesting

Algunas cosas "fueron modeladas como procesos de Poisson". ¿Qué quieren decir con eso?

¿Me puede explicar sobre el aprendizaje automático? ¿Cuál es el alcance del aprendizaje automático?

¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?

¿Cuáles son algunas trampas comunes al estudiar la clasificación en el aprendizaje automático?

¿Los modelos de aprendizaje automático en automóviles sin conductor utilizan aprendizaje supervisado, no supervisado o de refuerzo?

¿Cómo se aplica el aprendizaje profundo en la industria?

¿Cuáles son las diferencias, similitudes, pros, contras, aplicaciones y descripciones de Keras, TensorFlow, Theano?

Cómo desarrollar una recuperación de imagen basada en contenido

¿Qué método de aprendizaje profundo es el más adecuado para PNL?

¿Qué debo hacer para poder contribuir al campo de la visión por computadora y trabajar en Google en el futuro?

¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?

Teoría de la información: ¿por qué hay una mayor probabilidad asociada con menor información?

¿Cuándo debería preferir los algoritmos de aprendizaje profundo a los algoritmos de aprendizaje automático poco profundos?

¿Cuál es el orden para aprender a usar los campos aleatorios de Markov para el procesamiento de imágenes?

¿Cuál es la diferencia entre el curso de aprendizaje automático de Andrew Ng en Coursera y el curso AZ ML en Python y R en Udemy?