¿Cuál es la mejor red neuronal o SVM para la clasificación de texto de etiquetas múltiples?

Permítanos acercarnos a una respuesta mirando un conjunto de datos que ya ha sido discernido en al menos una de las formas que está mencionando:

Desafortunadamente, algunos (¿muchos / la mayoría?) Ejemplos fácilmente disponibles vienen en forma de información abstracta … como esta:

… o esto:

Estaba buscando algo como esto:

La lista anterior ha sido nombrada de manera transparente donde podemos proceder inmediatamente a verificar la calidad del etiquetado.

Hay dos criterios de calidad:

  1. ¿Se ha dejado fuera algo relevante?
  2. ¿Se han reportado demasiados tokens, es decir, se han mencionado dentro de contextos con los que no estaban realmente relacionados?
    Un ejemplo: la “plataforma” de token puede ser

    a) una plataforma de perforación petrolera
    b) una plataforma tecnológica o política (un concepto abstracto)
    c) una plataforma física, por ejemplo. plataforma del tren.

Lo es:

?

?

?

Para responder a estas preguntas insuficientes o excesivas, necesitamos consultar el material fuente. En este caso tenemos una serie de conjuntos de datos. Podemos comparar el número de ocurrencias informadas de la herramienta seleccionada (podríamos llamarlo un tema con nombre) y el recuento “desnudo” de los diferentes tokens correctos y relevantes, pero posiblemente mal escritos. Aquí hay un ejemplo de resultado:

En el resultado final vemos 70 casos reportados de diabetes. El número de veces que se produce la “diabetes” simbólica específica es solo 54. Por otro lado, la insulina solo se informa dos veces, y esto corresponde con el número exacto de ocurrencias de la “insulina” simbólica.

Cuando verificamos las ocurrencias 70/54 obtenemos este resultado:

Ahora nos damos cuenta del poder de este tema mencionado: incorpora automáticamente un 29,6% más de casos, incluida una forma de adjetivo (diabetes, 3 casos, probablemente apuntando al individuo que ha sido diagnosticado con diabetes).

(Por cierto: en este caso, el conjunto de datos no contenía ninguna ocurrencia mal escrita (pero relevante)).

El poder del tema mencionado es múltiple:

  • Permite la notificación de cualquier token individual.
  • Permite el informe automático de todos los tokens y expresiones compuestas que pertenecen a un área temática.
  • Puede ser parte de un árbol y una estructura relacional, donde la información es parte de un concepto más amplio.

Esto es lo que obtenemos si decidimos informar algo relacionado con insulina, diabetes y sobrepeso:

Por supuesto, usted ya está capacitado en SVM, pero aquí hay una referencia para el beneficio del lector generalmente interesado:

Máquina de vectores de soporte – Wikipedia

La respuesta depende de los datos que tenga.

Creo que el enfoque BOW basado en NN no debería ser muy diferente del mismo de SVM o Random Forest (especialmente cuando SVM y RF están entrenados en las funciones de word2vec).

El enfoque RNN podría proporcionar resultados diferentes debido a las propiedades secuenciales.

Cómo implementar enfoques BOW y RNN con tensorflow lo puede encontrar aquí TensorFlow – Clasificación de texto – Illia Polosukhin – Medio

More Interesting

¿Qué universidades de la India son buenas para realizar investigaciones en el aprendizaje por refuerzo?

¿Qué significa "tomar la media geométrica de la distribución predictiva producida por las redes de abandono exponencialmente numerosas" en redes neuronales profundas?

¿Por qué no estamos usando el coeficiente beta como una selección de características?

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿Podría la renormalización de lotes reemplazar la normalización de lotes virtual en las GAN?

¿Qué es un buen texto introductorio de aprendizaje automático?

¿Qué debe hacer un estudiante de diploma para aprender software o aprendizaje automático?

¿Son los enfoques variacionales estocásticos la forma de hacer ML bayesiano a gran escala o ves alguna esperanza de ampliar los algoritmos basados ​​en MCMC?

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Qué prueba estadística usar para cuantificar la similitud entre dos distribuciones cuando no son normales?

¿La investigación actual sobre el procesamiento del lenguaje natural gira principalmente en torno al aprendizaje profundo? Si no, ¿cuáles son las técnicas modernas alternativas?

¿Puedo crear un programa de aprendizaje automático en otro idioma que no sea un flujo de tensor o scikit-learn?

¿Qué se sabe sobre la detección de incertidumbre o vacilación en el texto en lenguaje natural (no en el habla)?

¿Cómo puedo probar el método de regresión lineal?

¿Cómo soluciona un máximo A posterior el problema de sobreajuste en una estimación de máxima verosimilitud?