¿La asignación de Dirichlet latente es un modelo paramétrico o no paramétrico?

Su confusión es consecuencia de un hecho de que no existe una definición universalmente aceptada de “no paramétrico” en las estadísticas. Y “no paramétrico” puede referirse a diferentes cosas dependiendo de si estamos hablando de datos o de un modelo. Su pregunta se refiere al aspecto del modelo no paramétrico, para lo cual en la práctica hay dos interpretaciones comunes:

  1. Un modelo no paramétrico es aquel en el que no se asume la distribución de probabilidad particular de los datos que se generan. Una forma más precisa de decir esto es que un modelo no paramétrico es aquel en el que la dimensión del espacio de parámetros es infinita. Por ejemplo, se necesita un parámetro para especificar una distribución de Poisson: [math] \ textrm {Poisson} (\ lambda) [/ math]; se necesitan dos parámetros para especificar una distribución normal: [math] \ textrm {Normal} (\ mu, \ sigma ^ {2}) [/ math]; y se requieren tres parámetros para especificar una distribución hipergeométrica: [math] \ textrm {Hypergeometric} (N, K, n) [/ math]. Pero se necesitaría un número infinito de parámetros para especificar una distribución no paramétrica. (Aunque esta definición parece clara y convincente, a algunos estadísticos les resulta insatisfactorio porque de hecho podría parametrizar (pensar “indexar”) a cada miembro en el conjunto de todas las posibles distribuciones de probabilidad por un valor en el intervalo [matemáticas] (0 , 1) [/ matemáticas].)
  2. Un modelo no paramétrico es aquel en el que hay parámetros, pero el número de parámetros y los tipos de parámetros no se deciden hasta que se miran los datos. Por ejemplo, una vez que se han observado, el número de parámetros puede crecer dinámicamente con alguna medida de la complejidad de los datos. Consideremos por un momento un modelo como un cuadro negro que toma datos como entrada y proporciona estimaciones de parámetros como salida. Si el modelo es paramétrico, no sabe de antemano cuáles serán esas estimaciones de parámetros, pero sí sabe de antemano cuántos de ellos obtendrá y qué significarán. (Si está ajustando un modelo normal, sabe que obtendrá dos parámetros como salida, y que uno de ellos será una estimación de la media y el otro será una estimación de la varianza). Si el modelo no es paramétrico , usted sabe de antemano ni cuáles serán las estimaciones de los parámetros ni cuántos de ellos obtendrá y qué significarán. (Pasar el modelo de un conjunto de datos puede generar dos parámetros, donde uno es una estimación de ubicación y otro es una estimación de escala; pasar el mismo modelo a un conjunto de datos diferente podría generar tres parámetros, donde uno es una estimación de ubicación, uno es una estimación de forma y uno es una estimación de curtosis).

El modelo LDA clásico es un modelo paramétrico bajo ambas definiciones, ya que (1) los datos se extraen de un modelo bayesiano jerárquico que puede especificar completamente como una lista de parámetros, y (2) el número de parámetros se conoce de antemano (en en particular, el investigador elige el número de temas [matemáticas] k [/ matemáticas] por adelantado).

Sin embargo, existen numerosas variantes de LDA en las que la cantidad de temas [matemática] k [/ matemática] se puede aprender de los datos y, por lo tanto, no es necesario elegirla con anticipación. Estos modelos siguen siendo paramétricos según la definición (1), ya que una vez que se elige el número de temas, puede especificar completamente el modelo mediante una lista de parámetros; pero no es paramétrico según la definición (2), ya que el número de parámetros no se conoce de antemano.

LDA es un modelo paramétrico, y el parámetro es el número de temas. Existen variantes no paramétricas de LDA en las que también se aprende eficazmente la cantidad de temas: proceso de Dirichlet jerárquico. Así que supongo que ambos podrían ser correctos dependiendo de a qué se refiera específicamente.

LDA significa Análisis Lineal Discriminante (un clasificador lineal) y Asignación de Dirichlet Latente (un modelo de tema generativo). Ambas son herramientas de Machine Learning. ¿Sobre cuál quieres consejo?

More Interesting

¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?

Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?

¿Dónde puedo encontrar modelos de temas previamente capacitados para MALLET?

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

Los datos financieros fluyen como 'gatos que cambian sus caras porque las computadoras los reconocen en YouTube'. ¿Hay una solución a este problema?

Andrew Ng: ¿Qué opinas sobre la memoria?

¿De qué maneras alguien puede obtener ingresos del aprendizaje automático (trabajo por cuenta propia)?

¿Cuál es la diferencia entre el aprendizaje por refuerzo y la optimización?

¿Cómo y cuándo morirá la inteligencia de negocios convencional?

¿Cuáles son las preguntas más importantes en el aprendizaje automático?

¿Cómo serían comparables las características de codificación dispersa y RBM (con una restricción de dispersión)?

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Qué libro de los dos es más completo para PNL: el de Jurafsky o el de Manning?

¿Cuál es una explicación intuitiva de lo que es la actualización de gradiente proyectada?

Cómo estructurar sus proyectos de aprendizaje automático