¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?

Cualquier algoritmo habitual / popular hará el trabajo, siempre que transforme adecuadamente el vector de entrada, sea de diferente longitud cada vez o no.

Puede lograr que esta transformación de longitud variable a constante se repita a un conocido “truco”, con algunas propiedades matemáticas interesantes, llamadas hashing de características, o truco de hashing, hashing de características: Wikipedia.

Su propiedad más útil es que conserva, hasta cierto punto (principalmente, cuando se utilizan funciones de signos) el producto interno de los vectores originales.

En mi opinión, es análogo a una compresión con pérdida del vector de entrada en un vector de longitud fija. Dependiendo de sus funciones hash y de signos, y la longitud de salida fija, podría minimizar esta pérdida, haciéndola insignificante, lo que no afectará significativamente el rendimiento, sino que comprimirá en gran medida la información.

Muchos algoritmos no se preocupan por la longitud de entrada, como los ingenuos bayes. La mayoría de las redes recurrentes también pueden tomar entradas de longitud variable, y se puede hacer que las redes convolucionales tomen cualquier tamaño de entrada si usa la agrupación máxima después de las convoluciones. El que seleccione depende de lo que intente hacer o clasificar.

More Interesting

¿Quiénes son los mejores expertos en aprendizaje automático (ML)?

No soy muy bueno en Estadística o Probabilidad, pero soy un buen programador. ¿Debo aprender Big Data?

Estoy investigando Harvard CS 109. ¿Cuánto tiempo de compromiso semanal necesitaré? ¿Hay alguna forma de reducir eso mediante una preparación previa?

¿Cómo comenzar con Apache Spark y dónde buscar un buen entrenamiento?

¿Por qué la gente está tan loca por Hadoop?

¿Cuáles son los casos de uso de big data en el comercio electrónico?

¿Cuáles son los problemas desafiantes en la tendencia de minería de datos 2017?

¿Qué escuela es mejor para la ciencia de datos? Master of Computer Science - Data Science en UIUC o Master of Information - Data Science en UC Berkeley

¿Dónde encaja Java en una atmósfera de Big Data?

Actualmente, tengo SAP HANA como un conjunto de habilidades. ¿Debo elegir la ciencia de datos como mi futura carrera?

¿Qué se entiende por 'Los datos son el nuevo petróleo'?

¿Cuánto conocimiento de estadísticas básicas se utiliza realmente en la ciencia de datos moderna?

¿Los científicos de datos suelen utilizar el análisis discriminante lineal? ¿Por qué o por qué no?

¿Cuál es una referencia para el truco del núcleo en los algoritmos de aprendizaje automático que es lo más matemáticamente detallado posible?

¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?