¿Qué (empíricamente) necesita más datos de entrenamiento (etiquetados): modelos discriminativos o modelos generativos?

Generativo y discriminatorio son clases de modelos . Entonces no puedes comparar sus complejidades. Un modelo simple en el entorno generativo necesitaría menos datos que uno complejo en el entorno discriminativo, y viceversa.

Como ejemplo, veamos el etiquetado de parte del discurso (POS).

Aquí hay algunos modelos generativos para la tarea:

  • Suponga que cada palabra se genera de forma independiente. Tiene una distribución en todas las partes del discurso, de la que elige una parte del discurso para [math] i ^ {th} [/ math] word. Luego, muestra la palabra [matemáticas] i ^ {th} [/ matemáticas] condicionada a esa parte del discurso. Esto está estrechamente relacionado con los modelos de mezcla gaussiana.
  • Modelo oculto de Markov (HMM): ahora, en lugar de suponer que cada palabra es independiente, se supone que el POS de la palabra [math] i ^ {th} [/ math] depende del POS de [math] (i-1) ^ {th} [/ math] palabra. La palabra real se muestrea como antes, condicionada en el POS correspondiente.
  • Puede generalizar aún más los HMM para que el POS de una palabra no solo dependa del POS anterior, sino del POS de todas las palabras anteriores y las siguientes.

Como puede ver, la complejidad del modelo aumenta de modelo 1 a 2 y de 2 a 3. Hay más parámetros para estimar, y necesita más datos a medida que aumenta la complejidad de su modelo.

Ahora, echemos un vistazo a algunos modelos discriminativos para la tarea, que esencialmente pueden considerarse como un problema de clasificación multiclase:

  • Uno de los modelos más simples es cuando predice el POS de cada palabra independientemente de todo lo demás. La forma más sencilla de hacer esto es mapear cada palabra en el vocabulario a su POS más común.
  • Un modelo algo más complejo que todavía predice POS de cada palabra independientemente representaría cada palabra como un vector de características, que capturará el contexto de la palabra. Luego, entrena a un clasificador para predecir el POS a partir de este vector de características. Una vez más, puede variar la complejidad de este clasificador utilizando un modelo lineal en un extremo y una red neuronal en el otro extremo.
  • Finalmente, puede tener modelos discriminativos que también usan predicciones de palabras anteriores. Un ejemplo simple de tales clasificadores sería una red neuronal de secuencia a secuencia, en la que se alimenta la secuencia de palabras y los puntos de venta predichos hasta ahora, y la red emite el punto de venta de la primera palabra no marcada (que luego se aumenta en la entrada en La siguiente iteración).

Nuevamente, la complejidad aumenta del modelo 1 al 2 y del 2 al 3.

Si tuviera que ordenar los 6 modelos anteriores en términos de requisitos de datos, puede esperar un entrelazado no trivial entre los modelos generativos y los modelos discriminativos.

Depende de lo que pretendas hacer! Aprendizaje supervisado o no supervisado para entrenar datos, ambos modelos implican trabajar en variables no observadas en variables observadas, etc. Sin embargo, las discriminaciones deben ser supervisadas más, por lo tanto, ¡necesitan más etiquetado!

Andrew Ng tiene un famoso artículo que analiza esta pregunta para la regresión logística frente a los ingenuos bayes ( https://ai.stanford.edu/~ang/pap …). Tl; dr – ingenuo bayes necesita menos datos para alcanzar su error asintótico, pero ese error es mayor que el error asintótico de la regresión logística.

More Interesting

¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?

¿Cuáles son algunos documentos de investigación de inicio sobre búsqueda, aprendizaje automático y recuperación de información?

¿Cuáles son algunas aplicaciones de los modelos gráficos probabilísticos?

Si el aprendizaje automático está de moda en este momento, ¿qué crees que seguirá?

¿Hay alguna API basada en la nube para agrupar Tweets?

¿Quién es el mejor científico de aprendizaje automático del mundo?

¿Cuáles son las mejores bibliotecas de redes neuronales de Python y Java con soporte multi gpu y multiplataforma?

Cómo aplicar PCA para la reducción de dimensionalidad y SVM para agrupar y clasificar los patrones usando C ++ OpenCV

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

¿Se pueden programar las computadoras para comprender el valor estético de algo?

¿Cuáles son algunos problemas de Kaggle que ayudarán a un principiante a avanzar?

¿Por qué utilizamos el CDF de distribución logística para calcular las probabilidades en la regresión logística?

¿Cuáles son las revistas científicas mejor calificadas para Machine Learning / Data Science?

¿Es una buena idea dejar el aprendizaje automático después de 2 años y estudiar desarrollo web, si me di cuenta de que no soy tan inteligente para todas esas matemáticas de ML?

¿Qué es la regresión no lineal vs regresión lineal?