¿Cómo medir la precisión del procesamiento del lenguaje natural? ¿Existe algún criterio estándar o aceptable para la industria? La tecnología cambia la vida futura

¿Cómo medir la precisión del procesamiento del lenguaje natural? ¿Existe algún criterio estándar o aceptable para la industria?

Como se mencionó anteriormente, la PNL no puede medirse como un todo, sino más bien específica a lo que uno está tratando de lograr.

En general, las tareas de aprendizaje automático (y la PNL normalmente cae en este dominio) se miden en función de qué tan bien puede una máquina dar la respuesta correcta a una pregunta (a menudo denominada “predicción”).

Esto se realiza de manera algo diferente en diferentes contextos. Por ejemplo:

Si una máquina está tratando de clasificar un texto (por ejemplo, decir si es “positivo” o “negativo”), se puede observar una métrica llamada precisión , que indica qué porcentaje de las clasificaciones son correctas.
Si una máquina está “solo” tratando de determinar si algo es verdadero o no (por ejemplo, si hay una declaración positiva en algún texto), a menudo se observan dos métricas, llamadas recordar (qué porcentaje de los elementos se encuentran) y precisión ( qué% de los elementos identificados se han identificado correctamente). Hay una compensación entre esas dos métricas (ya que los algoritmos ingenuos pueden declarar cada ejemplo como “sí” o como “no”), y a veces las personas miran el promedio entre los dos (es un tipo especial de promedio llamado media armónica, marcado como F1 puntuación – Wikipedia).
Si una máquina está tratando de generar texto en casos como traducción y resumen, la medición es más compleja. De hecho, no hay dos humanos que generen el mismo texto. Métricas como BLEU – Wikipedia, ROUGE (métrica) – Wikipedia, y otras, generalmente entran en juego.
Si una máquina está tratando de modelar texto (por ejemplo, el llamado problema del modelo de lenguaje ), uno puede mirar las métricas que identifican qué tan bien el modelo coincide con el texto real, a través de métricas como probabilidad o perplejidad – Wikipedia.
Cuando las tareas no supervisadas , como los vectores de palabras y, en menor medida, el modelado de temas, entran en juego, no hay una “verdad fundamental” con la que uno pueda comparar. En tal caso, cómo evaluar es un desafío en sí mismo. Un enfoque es medir qué tan bien la tarea (por ejemplo, vectores de palabras) ayuda en alguna otra tarea más medible (por ejemplo, evaluación de sentimientos).

La conclusión es que la medición / evaluación es específica del contexto y de la tarea, y también puede variar entre el trabajo académico (que tiende a seguir mediciones pasadas, para mostrar el progreso) y el trabajo de la industria (que tiende a centrarse en los aspectos blandos de cómo El método ayuda al producto). Por ejemplo, en el campo de voz a texto (adyacente al PNL tradicional), una medida común es WER, que significa tasa de error de palabra . Esto captura cada error (palabras superfluas, reemplazos y omisiones). Pero, en un contexto comercial, algunos errores pueden ser menos críticos (p. Ej., A vs the ; o, dogs vs. dog ). Normalmente, no existe una forma “estándar” de capturar esos matices en un contexto industrial específico.

Aprendizaje automáticoinformáticaProcesamiento del lenguaje natural