En esencia, Watson es un complejo sistema de procesamiento de lenguaje natural (NLP). Hay numerosos procesos involucrados que se basan en reglas, como que Lucene crea una variedad de índices, basados en reglas, como uno de los más de 20 pasos de preprocesamiento para el contenido del corpus (documentos que contienen el conocimiento del dominio).
Hay una segunda fase en la que los humanos proporcionan ejemplos de reglas implícitas. Una consulta textual está relacionada con una parte del corpus, preguntas y respuestas, esencialmente diciéndole a Watson que cuando ve la misma consulta después del entrenamiento, debe responder con el área del corpus indicada.
El desafío es que Watson, y PNL en general, es un sistema no determinista basado en probabilidades. El proceso de capacitación anterior se repite miles de veces y los algoritmos (hay cientos) acumulan probabilidades de la relación de una consulta de texto con un área del corpus.
- ¿Cuáles son los principios del procesamiento del lenguaje natural del resumen automático? ¿Cuáles son los mejores recursos? ¿Cuántas bases tengo que hacer en PNL para lograr esto? ¿Y qué partes de las teorías de PNL / PC son importantes para construir tal sistema?
- ¿Cuáles son las diferencias funcionales entre un procesador de computadora diseñado para IA (por ejemplo, Tensor / TPU) y un procesador ordinario (CPU) o GPU?
- ¿Cómo se tradujeron las características de las criaturas virtuales adaptativas de Karl Sims en unos y ceros para el algoritmo genético?
- ¿Qué es la red neuronal de valor complejo?
- ¿Cómo usa Quora el aprendizaje automático en 2017?
Cuando el sistema capacitado recibe una consulta textual, encuentra muchas respuestas potenciales a las que asigna probabilidades, en base a los cientos de modelos capacitados, y responde con los candidatos de respuesta desde la probabilidad más alta hacia abajo. Los sistemas de PNL, y el aprendizaje automático en general, siempre son probablemente aproximadamente correctos.
Watson no aprende dinámicamente. Los seres humanos deben evaluar el flujo de consultas para identificar la nueva capacitación de preguntas y respuestas y el contenido del corpus necesarios para mejorar la comprensión de Watson. Luego pasan por el proceso de agregar contenido y realizar capacitación adicional para que Watson pueda responder a un mayor porcentaje de las consultas que la población de usuarios está proporcionando.