Cómo saber que un modelo de similitud de documentos puede lograr un alto rendimiento / mejor calidad que los otros modelos

Es difícil tener una comparación significativa de las medidas de similitud sin la verdad básica.

La verdad fundamental puede ser un conjunto de datos que contenga las verdaderas medidas de similitud entre los elementos, que a menudo es curada / evaluada por humanos [1]. Con estos conjuntos de datos, puede comparar fácilmente el rendimiento de diferentes medidas de similitud.

Cuando los conjuntos de datos curados / evaluados por humanos son difíciles de obtener, puede obtener la verdad fundamental de los comentarios de los usuarios reales. Por ejemplo, cuando se construye un sistema para recomendar que se conecten nuevos usuarios (la función Personas que quizás conozcas en Facebook o LinkedIn), se pueden experimentar diferentes medidas de similitud de usuarios y la que conduce al mejor rendimiento del sistema (CTR, o cualquier métrica personalizada) ) se considera el mejor [2].

  1. La evaluación de las medidas de similitud de oraciones
  2. Evaluación de medidas de similitud: un estudio a gran escala en la red social de Orkut

Estás haciendo muchas buenas preguntas; y, de hecho, varias disciplinas abordan el mismo problema de manera diferente.

Comenzando con el primero: el modelo no le dice una “similitud” vaga, pero proporciona una retroalimentación numérica en una o varias dimensiones. Esto sucede cuando evalúa el modelo: [matemática] f (x_0 \ cdots x_n [/ matemática] [matemática]) [/ matemática] sobre sus observaciones (evidencias).

Tiene sentido comparar MANZANAS con MANZANAS, por lo tanto, 80% y 70% solo son comparables si son la misma medida. ¡Puede ser sorprendente que tomar el mayor número no siempre valga la pena a largo plazo!

La propiedad de cómo se comporta su modelo cuando se introducen datos aún no vistos se llama generalización; y parece haber una regla que establece que los modelos que “ven la imagen más amplia” no funcionan tan bien en las “medidas puntuales”. Se puede observar un comportamiento similar con precisión (cuán cerca de golpear el objetivo) y precisión (si está golpeando el mismo punto una y otra vez).

La validación cruzada puede proporcionar un marco para evaluar la generalización con respecto al conjunto de datos de entrenamiento, mientras que el enfoque bayesiano (Obispo: reconocimiento de patrones y aprendizaje automático) puede utilizar el criterio del modelo: AIC, HQC o BIC para la comparación. Estos criterios se basan en gran medida en la Navaja de Occam, prefiriendo el modelo menos complicado sobre el más complejo. De hecho, la penalización de Thikonov (L2) es una forma de regularización bayesiana porque al formar el lagrangiano con el objetivo original se obtiene el modelo menos complejo. En el contexto bayesiano, esto supone un Prior gaussiano en los parámetros del modelo; mientras que la penalización L1 espera a Laplace Prior.

Lo anterior sonaba un poco denso, y hay mucho más en el fondo; lo que parece ser un acuerdo general que funciona con parámetros de modelo muy altos, como el cerebro humano, encontrar patrones de ajuste más fáciles; pero estos patrones no siempre se generalizan bien. Dato curioso: ¡CULTURA DE CARGA!

More Interesting

¿Cuáles son algunos proyectos interesantes de minería de texto en análisis político?

¿Las redes de cápsulas reemplazarán a las redes neuronales?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Cuáles son las implicaciones de privacidad del reconocimiento facial DeepFace de Facebook?

¿Qué es una lista de proyectos de IA que podría hacer para mejorar cada vez más en aprender cómo funciona la inteligencia artificial?

¿Por qué se usaría H2O.ai sobre la herramienta de aprendizaje automático scikit-learn?

¿Cuáles son los pensamientos de Yoshua Bengio sobre los modelos gráficos probabilísticos?

Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?

¿Dónde puedo encontrar un conjunto de datos de texto traducido de cualquier idioma a otro válido para ser entrenado en un modelo de traducción automática en aprendizaje automático?

¿Qué es el modelado de mezclas gaussianas?

Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

Robótica: ¿Cuáles son algunos proyectos interesantes de aprendizaje automático relacionados con UAV / drones?