¿Cómo medir la precisión del procesamiento del lenguaje natural? ¿Existe algún criterio estándar o aceptable para la industria?

Como se mencionó anteriormente, la PNL no puede medirse como un todo, sino más bien específica a lo que uno está tratando de lograr.

En general, las tareas de aprendizaje automático (y la PNL normalmente cae en este dominio) se miden en función de qué tan bien puede una máquina dar la respuesta correcta a una pregunta (a menudo denominada “predicción”).

Esto se realiza de manera algo diferente en diferentes contextos. Por ejemplo:

  • Si una máquina está tratando de clasificar un texto (por ejemplo, decir si es “positivo” o “negativo”), se puede observar una métrica llamada precisión , que indica qué porcentaje de las clasificaciones son correctas.
  • Si una máquina está “solo” tratando de determinar si algo es verdadero o no (por ejemplo, si hay una declaración positiva en algún texto), a menudo se observan dos métricas, llamadas recordar (qué porcentaje de los elementos se encuentran) y precisión ( qué% de los elementos identificados se han identificado correctamente). Hay una compensación entre esas dos métricas (ya que los algoritmos ingenuos pueden declarar cada ejemplo como “sí” o como “no”), y a veces las personas miran el promedio entre los dos (es un tipo especial de promedio llamado media armónica, marcado como F1 puntuación – Wikipedia).
  • Si una máquina está tratando de generar texto en casos como traducción y resumen, la medición es más compleja. De hecho, no hay dos humanos que generen el mismo texto. Métricas como BLEU – Wikipedia, ROUGE (métrica) – Wikipedia, y otras, generalmente entran en juego.
  • Si una máquina está tratando de modelar texto (por ejemplo, el llamado problema del modelo de lenguaje ), uno puede mirar las métricas que identifican qué tan bien el modelo coincide con el texto real, a través de métricas como probabilidad o perplejidad – Wikipedia.
  • Cuando las tareas no supervisadas , como los vectores de palabras y, en menor medida, el modelado de temas, entran en juego, no hay una “verdad fundamental” con la que uno pueda comparar. En tal caso, cómo evaluar es un desafío en sí mismo. Un enfoque es medir qué tan bien la tarea (por ejemplo, vectores de palabras) ayuda en alguna otra tarea más medible (por ejemplo, evaluación de sentimientos).

La conclusión es que la medición / evaluación es específica del contexto y de la tarea, y también puede variar entre el trabajo académico (que tiende a seguir mediciones pasadas, para mostrar el progreso) y el trabajo de la industria (que tiende a centrarse en los aspectos blandos de cómo El método ayuda al producto). Por ejemplo, en el campo de voz a texto (adyacente al PNL tradicional), una medida común es WER, que significa tasa de error de palabra . Esto captura cada error (palabras superfluas, reemplazos y omisiones). Pero, en un contexto comercial, algunos errores pueden ser menos críticos (p. Ej., A vs the ; o, dogs vs. dog ). Normalmente, no existe una forma “estándar” de capturar esos matices en un contexto industrial específico.

Existen muchos criterios estándar según la tarea.

PNL es un campo. No es una tarea Por ejemplo, respuesta a preguntas, análisis de sentimientos, reconocimiento de entidades con nombre, etc. Las métricas típicas para tales tareas son precisión, recuperación y medida F. Estos miden cómo la salida del sistema mide contra la verdad para un conjunto de pruebas anotado

Para otros como la traducción automática o la generación de lenguaje, la métrica podría ser más complicada, por ejemplo, la puntuación de BLEU que mide la correlación entre la traducción automática y la traducción humana.

More Interesting

¿Cuáles son las similitudes y diferencias entre las definiciones de información en diferentes disciplinas?

¿Cuáles son algunas de las mejores prácticas para construir modelos de aprendizaje automático de múltiples pasos? Cuando la salida de los modelos ML de nivel inferior se convierte en entrada para el modelo de nivel superior, ¿cómo minimizaría el error y mejoraría la precisión?

¿Cuál es la mejor práctica: usar tablas db o colas de mensajes para moderar el contenido aprobado por humanos?

Clasificación (aprendizaje automático): ¿Cuándo debo usar un clasificador K-NN sobre un clasificador Naive Bayes?

¿Cuáles son ejemplos de la paradoja del inventor en el diseño de algoritmos?

¿Cuál es el significado físico de eliminar archivos en un sistema informático?

¿Por qué la fragmentación ralentiza una computadora?

¿Cuáles son las diferencias entre ejecutar un servidor en la Tierra y en el espacio exterior?

¿Cómo funciona el código de visualización en Windows Media Player?

¿Qué clases de estadísticas de Harvard debería tomar si quiero obtener una comprensión más profunda del aprendizaje automático?

¿Es fácil hacer que el centro de Bhopal sea bueno para GATE (informática)?

¿Cuál es la máxima imprecisión que uno puede enfrentar al usar un decimal de coma flotante de 32 bits?

Solo hay tantos componentes que puede meter en un chip de computadora. ¿Se ha alcanzado el límite o hay otra forma de hacer una computadora?

¿Está sobrevalorada la informática?

¿Cuál es la reputación de MS (CS) con la especialización de Cloud Computing de Texas Tech, Universidad de Lubbock en el mercado laboral de EE. UU. Ahora? ¿Qué área de investigación en computación en la nube tiene una gran demanda desde una perspectiva laboral en el mercado estadounidense de hoy?