Cualquier algoritmo habitual / popular hará el trabajo, siempre que transforme adecuadamente el vector de entrada, sea de diferente longitud cada vez o no.
Puede lograr que esta transformación de longitud variable a constante se repita a un conocido “truco”, con algunas propiedades matemáticas interesantes, llamadas hashing de características, o truco de hashing, hashing de características: Wikipedia.
Su propiedad más útil es que conserva, hasta cierto punto (principalmente, cuando se utilizan funciones de signos) el producto interno de los vectores originales.
- ¿Habilidades para el autoaprendizaje de la ciencia / análisis de datos o las estadísticas de EM?
- ¿Qué oportunidades de "big data" serán más rentables?
- ¿Cuál es la diferencia entre Data Warehousing y Big Data Analytics?
- ¿Se puede utilizar la ciencia de datos para ayudar a tomar decisiones personales?
- Cómo comenzar con data anlaytics desde cero
En mi opinión, es análogo a una compresión con pérdida del vector de entrada en un vector de longitud fija. Dependiendo de sus funciones hash y de signos, y la longitud de salida fija, podría minimizar esta pérdida, haciéndola insignificante, lo que no afectará significativamente el rendimiento, sino que comprimirá en gran medida la información.