¿Cuál es la diferencia entre TF-IDF-CF y CF-IDF?

Esto es lo que podría deducir de la literatura sobre estas variantes de TF-IDF-CF y CF-IDF. Compartiendo lo que encontré en el orden de sus preguntas.

¿Cuál es la ecuación de TF-IDF-CF?

De este documento, una mejora de la ponderación de TFIDF en la categorización de texto, parece ser la primera ecuación (ecuación 3) que usted publicó.

  • El documento dice que, generalmente los términos que aparecen con frecuencia en un documento, tienden a tener una relación entre ellos, y por lo tanto
    • agrupar documentos en un cierto número de clases,
    • y luego agregando una métrica que mide el número de veces que un término ocurre en una clase de documento relativo al número total de documentos en esa clase,
    • se afirma que es mejor que la medida estándar TF-IDF. La medida estándar ( figura a continuación – ecuación 2 ) no tiene la relación adicional al final de la ecuación 3 anterior.

¿Cuál es la ecuación para CF-IDF?

  • Esta variante parece haber sido motivada por los sistemas de recomendación basados ​​en contenido, como se explica en este documento Personalización de noticias utilizando el Recomendador semántico CF-IDF
    • Este documento tiene una noción similar a la noción de clases en el documento mencionado anteriormente para TF-IDF-CF, excepto que esta métrica no tiene la noción de términos en absoluto: los términos se reemplazan por conceptos a los que pertenecen.
    • Por lo tanto, la ecuación para CF-IDF (CF que significa frecuencia de concepto) es muy similar a la ecuación original TF-IDF: los términos frecuencias se reemplazan por la frecuencia de concepto.

¿TF-IDF-CF o CF-IDF es mejor que TF-IDF y por qué?

  • Ambos documentos afirman que las variantes son mejores que la métrica original por las razones mencionadas anteriormente.
  • El desafío en ambos casos es cómo se eligen las clases ( en el documento 1 ) o los conceptos ( en el documento 2 ). Los conceptos en el segundo artículo parecen estar extraídos de un léxico existente como la ontología de Wordnet. No está claro cómo se generan las clases en el primer trabajo, aunque en su mayoría es como una selección de una ontología existente.
  • Entonces, en esencia, ambos requieren clases / conceptos, que se eligen de una ontología existente. TF-IDF, por el contrario, no tiene ese requisito, que es quizás su principal atractivo y popularidad.
  • Sin embargo, suponiendo la presencia de tales clases, estas pueden funcionar mejor que TF-IDF para los casos de uso presentados en esos documentos.