Permítanos acercarnos a una respuesta mirando un conjunto de datos que ya ha sido discernido en al menos una de las formas que está mencionando:
Desafortunadamente, algunos (¿muchos / la mayoría?) Ejemplos fácilmente disponibles vienen en forma de información abstracta … como esta:
- ¿Es realmente posible comenzar una carrera seria de IA / ML con el objetivo final de trabajar en un lugar como OpenAI, Google o DeepMind a través del autoestudio?
- ¿Es la precisión proporcional al número de capas ocultas y las unidades de cada capa en la red neuronal?
- ¿Hay algún profesor actual en Asia que tenga un historial con Bayesian no paramétrico, tanto en teoría como en aplicación?
- ¿Cuánto aprendizaje automático aprendería al completar el curso Andrew Ng (el de Coursera), en una escala de 100?
- ¿Para qué grandes problemas se han utilizado las SVM (Máquinas de vectores de soporte)?
… o esto:
Estaba buscando algo como esto:
La lista anterior ha sido nombrada de manera transparente donde podemos proceder inmediatamente a verificar la calidad del etiquetado.
Hay dos criterios de calidad:
- ¿Se ha dejado fuera algo relevante?
- ¿Se han reportado demasiados tokens, es decir, se han mencionado dentro de contextos con los que no estaban realmente relacionados?
Un ejemplo: la “plataforma” de token puede sera) una plataforma de perforación petrolera
b) una plataforma tecnológica o política (un concepto abstracto)
c) una plataforma física, por ejemplo. plataforma del tren.
Lo es:
?
?
?
Para responder a estas preguntas insuficientes o excesivas, necesitamos consultar el material fuente. En este caso tenemos una serie de conjuntos de datos. Podemos comparar el número de ocurrencias informadas de la herramienta seleccionada (podríamos llamarlo un tema con nombre) y el recuento “desnudo” de los diferentes tokens correctos y relevantes, pero posiblemente mal escritos. Aquí hay un ejemplo de resultado:
En el resultado final vemos 70 casos reportados de diabetes. El número de veces que se produce la “diabetes” simbólica específica es solo 54. Por otro lado, la insulina solo se informa dos veces, y esto corresponde con el número exacto de ocurrencias de la “insulina” simbólica.
Cuando verificamos las ocurrencias 70/54 obtenemos este resultado:
Ahora nos damos cuenta del poder de este tema mencionado: incorpora automáticamente un 29,6% más de casos, incluida una forma de adjetivo (diabetes, 3 casos, probablemente apuntando al individuo que ha sido diagnosticado con diabetes).
(Por cierto: en este caso, el conjunto de datos no contenía ninguna ocurrencia mal escrita (pero relevante)).
El poder del tema mencionado es múltiple:
- Permite la notificación de cualquier token individual.
- Permite el informe automático de todos los tokens y expresiones compuestas que pertenecen a un área temática.
- Puede ser parte de un árbol y una estructura relacional, donde la información es parte de un concepto más amplio.
Esto es lo que obtenemos si decidimos informar algo relacionado con insulina, diabetes y sobrepeso:
Por supuesto, usted ya está capacitado en SVM, pero aquí hay una referencia para el beneficio del lector generalmente interesado:
Máquina de vectores de soporte – Wikipedia