¿Qué (empíricamente) necesita más datos de entrenamiento (etiquetados): modelos discriminativos o modelos generativos? La tecnología cambia la vida futura

Generativo y discriminatorio son clases de modelos . Entonces no puedes comparar sus complejidades. Un modelo simple en el entorno generativo necesitaría menos datos que uno complejo en el entorno discriminativo, y viceversa.

Como ejemplo, veamos el etiquetado de parte del discurso (POS).

Aquí hay algunos modelos generativos para la tarea:

¿Cómo se usa el cálculo vectorial en el aprendizaje automático?
¿Qué puedo hacer con una base de datos de 800 GB de un sitio de reserva de boletos en línea? (Películas, obras de teatro, algunos eventos deportivos)?
¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?
¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?
¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

Suponga que cada palabra se genera de forma independiente. Tiene una distribución en todas las partes del discurso, de la que elige una parte del discurso para [math] i ^ {th} [/ math] word. Luego, muestra la palabra [matemáticas] i ^ {th} [/ matemáticas] condicionada a esa parte del discurso. Esto está estrechamente relacionado con los modelos de mezcla gaussiana.
Modelo oculto de Markov (HMM): ahora, en lugar de suponer que cada palabra es independiente, se supone que el POS de la palabra [math] i ^ {th} [/ math] depende del POS de [math] (i-1) ^ {th} [/ math] palabra. La palabra real se muestrea como antes, condicionada en el POS correspondiente.
Puede generalizar aún más los HMM para que el POS de una palabra no solo dependa del POS anterior, sino del POS de todas las palabras anteriores y las siguientes.

Como puede ver, la complejidad del modelo aumenta de modelo 1 a 2 y de 2 a 3. Hay más parámetros para estimar, y necesita más datos a medida que aumenta la complejidad de su modelo.

Ahora, echemos un vistazo a algunos modelos discriminativos para la tarea, que esencialmente pueden considerarse como un problema de clasificación multiclase:

Uno de los modelos más simples es cuando predice el POS de cada palabra independientemente de todo lo demás. La forma más sencilla de hacer esto es mapear cada palabra en el vocabulario a su POS más común.
Un modelo algo más complejo que todavía predice POS de cada palabra independientemente representaría cada palabra como un vector de características, que capturará el contexto de la palabra. Luego, entrena a un clasificador para predecir el POS a partir de este vector de características. Una vez más, puede variar la complejidad de este clasificador utilizando un modelo lineal en un extremo y una red neuronal en el otro extremo.
Finalmente, puede tener modelos discriminativos que también usan predicciones de palabras anteriores. Un ejemplo simple de tales clasificadores sería una red neuronal de secuencia a secuencia, en la que se alimenta la secuencia de palabras y los puntos de venta predichos hasta ahora, y la red emite el punto de venta de la primera palabra no marcada (que luego se aumenta en la entrada en La siguiente iteración).

Nuevamente, la complejidad aumenta del modelo 1 al 2 y del 2 al 3.

Si tuviera que ordenar los 6 modelos anteriores en términos de requisitos de datos, puede esperar un entrelazado no trivial entre los modelos generativos y los modelos discriminativos.