¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

Me puse en contacto con el autor y aquí está la respuesta:

[matemáticas] p (x_i, y_i \ vert \ theta) [/ matemáticas]

= [matemáticas] p (y_i \ vert \ pi) \ prod_j p (x_ {ij} \ vert \ theta_j) [/ matemáticas]
¿Cuáles son los tipos de problemas que se pueden resolver con las redes neuronales?
¿Se puede usar la detección de características / descripción de características para la clasificación de imágenes con redes neuronales artificiales?
Tengo muchos datos de clientes. ¿Qué algoritmos de aprendizaje automático serían mejores para predecir qué productos desea comprar cada cliente?
¿Debo elegir PHP para el aprendizaje automático?
¿Qué tan buena será una carrera en IA / aprendizaje automático en el futuro?

= [matemáticas] \ prod_c \ pi_c ^ {I (y_i = c)} \ prod_j \ prod_c p (x_ {ij} \ vert \ theta_ {jc}) ^ {I (y_i = c)} [/ math]
donde [matemática] I (y_i = c) [/ matemática] es 1 cuando [matemática] y_i [/ matemática] es c, de lo contrario 0

¿Cómo se dedujo [math] p (y_i \ vert \ pi) [/ math] a [math] \ prod_c \ pi_c ^ {I (y_i = c)} [/ math]. Parece que un [math] y_i [/ math] puede pertenecer a muchas clases (o tener muchas etiquetas).

No, y_i solo puede tener 1 valor.

Si este caso es cierto, ¿por qué no fusionar estas mismas clases antes de entrenar? Así simplifica la ecuación a:
[matemáticas] p (y_i \ vert \ pi) [/ matemáticas] = [matemáticas] \ pi_c [/ matemáticas]

Sí, también puedes escribirlo de esa manera.

Ahora, creo que [math] \ prod_c \ pi_c ^ {I (y_i = c)} [/ math] es una forma más compacta de mostrar [math] p (y_i \ vert \ pi) [/ math] = [math] \ pi_c [/ math], ya que solo existe una y.
Sin embargo, la respuesta de Nigel es desde otra perspectiva y sigue siendo útil, gracias de nuevo.

¿Cómo es la aplicación K-Means de maximización de expectativas en Naive Bayes?

¿Qué es la regresión logística?

¿Cuál es una explicación intuitiva del modelo gráfico de la asignación de Dirichlet latente?

Si pudiera construir una plataforma de contenido (piense en la entrega de noticias) desde cero con el objetivo de escalar a millones de usuarios, ¿qué infraestructura utilizaría?

¿Qué es una comprensión intuitiva del análisis factorial?

¿Están los informáticos engañando al mundo sobre la importancia del problema P vs. NP?

Muy a menudo, especialmente cuando se trabaja con textos, encontrará que un texto sigle podría estar en más de una categoría. Tomemos “Odio el Manchester United pero amo el Arsenal”, esto encaja tanto en positivo como en negativo, y ambas categorías serían ciertas. No tendría sentido fusionarlos.

Yang Zhou

More Interesting

¿Cuáles son algunas aplicaciones interesantes de aprendizaje profundo en FinTech?

¿Cuál es el tamaño del conjunto de datos de Cifar?

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados en el aprendizaje profundo?

En PCA, ¿cuáles son los roles y los significados físicos de las caras propias?

¿Podemos vender potencia informática a empresas de aprendizaje automático? ¿Cuál es la dificultad de hacer eso?

¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?

¿Qué es el análisis de componentes principales?

Cómo evaluar la precisión del entrenamiento para una red neuronal con una capa oculta

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?