¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

Me puse en contacto con el autor y aquí está la respuesta:

[matemáticas] p (x_i, y_i \ vert \ theta) [/ matemáticas]

= [matemáticas] p (y_i \ vert \ pi) \ prod_j p (x_ {ij} \ vert \ theta_j) [/ matemáticas]

= [matemáticas] \ prod_c \ pi_c ^ {I (y_i = c)} \ prod_j \ prod_c p (x_ {ij} \ vert \ theta_ {jc}) ^ {I (y_i = c)} [/ math]
donde [matemática] I (y_i = c) [/ matemática] es 1 cuando [matemática] y_i [/ ​​matemática] es c, de lo contrario 0

¿Cómo se dedujo [math] p (y_i \ vert \ pi) [/ math] a [math] \ prod_c \ pi_c ^ {I (y_i = c)} [/ math]. Parece que un [math] y_i [/ ​​math] puede pertenecer a muchas clases (o tener muchas etiquetas).

No, y_i solo puede tener 1 valor.

Si este caso es cierto, ¿por qué no fusionar estas mismas clases antes de entrenar? Así simplifica la ecuación a:
[matemáticas] p (y_i \ vert \ pi) [/ matemáticas] = [matemáticas] \ pi_c [/ matemáticas]

Sí, también puedes escribirlo de esa manera.

Ahora, creo que [math] \ prod_c \ pi_c ^ {I (y_i = c)} [/ math] es una forma más compacta de mostrar [math] p (y_i \ vert \ pi) [/ math] = [math] \ pi_c [/ math], ya que solo existe una y.
Sin embargo, la respuesta de Nigel es desde otra perspectiva y sigue siendo útil, gracias de nuevo.

Muy a menudo, especialmente cuando se trabaja con textos, encontrará que un texto sigle podría estar en más de una categoría. Tomemos “Odio el Manchester United pero amo el Arsenal”, esto encaja tanto en positivo como en negativo, y ambas categorías serían ciertas. No tendría sentido fusionarlos.

More Interesting

¿Cuáles son algunas aplicaciones interesantes de aprendizaje profundo en FinTech?

¿Cuál es el tamaño del conjunto de datos de Cifar?

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados ​​en el aprendizaje profundo?

En PCA, ¿cuáles son los roles y los significados físicos de las caras propias?

¿Podemos vender potencia informática a empresas de aprendizaje automático? ¿Cuál es la dificultad de hacer eso?

¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?

¿Qué es el análisis de componentes principales?

Cómo evaluar la precisión del entrenamiento para una red neuronal con una capa oculta

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?

Cómo calcular la similitud de coseno entre tweets

¿Existe alguna medida estadística que demuestre que un clasificador Neural Net con una precisión del 96% en un conjunto de datos de N ejemplos proporcionará una precisión similar en el mundo real?

¿Cómo debo comenzar a aprender 'Machine Learning usando Java'?

¿Cómo y cuándo morirá la inteligencia de negocios convencional?

¿Cómo se realiza el aprendizaje automático supervisado cuando sus datos no caben en una sola máquina? ¿Los clasificadores de libros de texto como los clasificadores SVM o Naive Bayes siguen siendo tan importantes o incluso factibles a medida que aumenta el tamaño de sus datos o los algoritmos diferentes se vuelven más populares?