¿Se puede colocar un previo en el hiperparámetro de un modelo bayesiano jerárquico?

Seguro. Y podría colocar un prior en ese parámetro, y un prior en eso , y así sucesivamente.

En algún momento, la influencia de su elección de parámetro se verá eclipsada por la influencia de los datos. En la práctica, esto sucede bastante temprano. Por lo general, simplemente adivinamos cuántas clases / temas / … hay, y usamos un hiperparámetro que elegirá valores cercanos a eso. Siempre puede verificar eligiendo valores lejos del valor estimado y ver si eso mejora el rendimiento general. Asegúrese de usar un conjunto de validación, ya que aumentar el hiperparámetro podría aumentar el número esperado de parámetros en el modelo, lo que llevaría a una disminución en el error de entrenamiento. Por ejemplo, para el modelado de temas basado en texto, siempre puede asignar un tema a cada palabra en el diccionario y modelar cada documento con una precisión muy alta.

Aprendizaje automáticoestadísticasInferencia bayesianaRedes bayesianas

Related Content

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

Cómo justificar el rendimiento de un modelo de aprendizaje profundo personalizado (CNN)

¿Cómo funciona el algoritmo de recomendación de YouTube?

¿Qué método de reducción de dimensionalidad puede mantener las relaciones de traslación entre puntos?

¿Cuáles son las soluciones de producción efectivas para el reconocimiento de entidades nombradas?

¿Cuántas personas en China usan una VPN para eludir las restricciones de internet del gobierno?

¿Qué aplicaciones prácticas ve para ejecutar los modelos TensorFlow en un teléfono inteligente?

More Interesting

¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

¿Tiene sentido usar redes neuronales convolucionales en la identificación biométrica humana basada en ECG?

¿Qué técnicas son buenas para suavizar los clics de las consultas de cola larga en los motores de búsqueda?

¿Cómo afectan los registros duplicados en el conjunto de datos de entrenamiento a un clasificador Naive Bayes?

¿Cómo se deriva la fórmula lagrangiana para resolver la máquina de vectores de soporte?

¿Por qué debería usar TensorFlow sobre NumPy o scikit-learn para construir redes neuronales (excepto para CPU o GPU)?

Cómo obtener una pasantía de investigación del profesor en la NYU en proyectos que necesitan experiencia en minería de datos o aprendizaje automático

¿Cuál es más rápido, Torch7 o Theano?

Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?

¿Quién es el mejor científico de aprendizaje automático del mundo?

¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?

¿Los LSTM tienen significativamente más parámetros que los RNN estándar?

Cómo construir un automóvil autónomo a partir de un automóvil normal

Desde la perspectiva de la ciencia de datos, ¿qué salió mal al predecir las elecciones presidenciales de 2016 en los Estados Unidos?

Web Analytics