Hay muchas distribuciones de probabilidad presentes en las estadísticas, ¿cómo debería uno usarlas? En general, veo personas que usan distribución gaussiana en algoritmos de aprendizaje automático.

Todas las distribuciones tienen supuestos diferentes, y deberían aplicarse a los casos en que sean aplicables. Por ejemplo, un bernaulli tiene una probabilidad de éxito fija y evalúa la próxima prueba, mientras que bionomial tiene una probabilidad de éxito fija pero evalúa los conteos de éxito, mientras que la distribución geométrica con una probabilidad de éxito fija evalúa las pruebas en espera hasta el éxito. El mismo supuesto subyacente, pero tres distribuciones diferentes para resolver tres tipos diferentes de problemas.

La parte de su pregunta, “En general, veo personas que usan distribución gaussiana en algoritmos de aprendizaje automático” es que no estoy seguro de que sea cierto. Si bien una razón es que la salida de probabilidad de “cualquier” modelo de clasificación ML puede tratarse como parámetros de alguna distribución discreta y los parámetros de cualquier distribución tienden a comportarse como Gaussianos por el Teorema del límite central, y por lo tanto los parámetros de estas probabilidades de salida (parámetros de Modelo de ML, es decir, parámetros de parámetros de distribución discreta) pueden modelarse como un Gaussiano anterior / posterior. (Efectivamente, qué es un proceso gaussiano).

Dicho esto, puede modelar muchas cosas como Bernaulli, Poisson y categóricas y, por lo tanto, también necesitaría sus distribuciones anteriores conjugadas Beta, Gamma y dirichlet.

More Interesting

¿Qué le gustaría en una aplicación de aprendizaje de idiomas?

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?

En un problema de optimización no convexo, ¿es posible determinar si dos puntos pertenecen al mismo valle o no?

¿Se pueden resolver todos los problemas de aprendizaje automático mediante redes neuronales?

¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

¿Es justo evaluar una red neuronal profunda solo de acuerdo con su rendimiento en algunos conjuntos de datos específicos?

¿Cómo realizo la selección de funciones?

¿Cuáles son algunas de las ventajas del aprendizaje por diferencia temporal y cómo se puede mejorar?

¿Cuáles son algunos puntos de referencia significativos descubiertos para el equilibrio de la máquina? (específicamente: clasificación, segmentación y desarrollos de sensores)

¿Cómo se evalúa si uno tiene una buena palabra incrustada?

¿Cuáles son las instituciones en India que ofrecen cursos de aprendizaje automático y minería de datos y cuáles son las áreas posteriores?

¿Cuál es un buen tutorial sobre el uso de Weka con Big Data?

¿Cómo puedo comparar diferentes arquitecturas de redes neuronales sin entrenarlas durante semanas? ¿Hay alguna forma práctica de verificar si las redes merecen la capacitación completa o no?

¿Cuáles son las ventajas de la maximización de la expectativa sobre el gradiente decente para ajustar un modelo de mezcla gaussiana?