Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

tl; dr:
Puedes, pero (¿cómo) deberías?
Detalles:
El enfoque para derivar las características más discriminatorias para la clasificación de patrones puede basarse en la selección de características => NN supervisado, SVM o extracción de características.
En el último, puede usar una fusión de características en serie [matemáticas] \ gamma = \ begin {bmatrix} \ alpha \\\\ \ beta \ end {bmatrix} [/ math] como mencionó, que es de alta dimensión y contiene redundantes e información contradictoria (“flores blancas” pueden significar la muerte o la paz según el contexto), lo cual es desfavorable para el reconocimiento o es equivalente en paralelo [matemáticas] \ gamma = \ alpha + i \ beta [/ matemáticas] => PCA o LDA. , cómo realizar la extracción de características en un espacio de características complejo, es una pregunta separada (no dude en a2a)
es decir
Cuando fusiona entidades (digamos dos vectores de características de dimensiones [matemática] d_1, d_2 [/ matemática]) normalizadas en el mismo dominio (digamos [0,1] para probabilidades), el vector de entidades fusionadas reside en una [matemática] [0,1 ] ^ {d_1 + d_2} [/ math] busca espacio.

Sin embargo, cuando los dominios son diferentes (por ejemplo, [matemática] [0,1] [/ matemática] y [matemática] \ {- \ infty, \ infty \} [/ matemática]), debe comprender el espacio de búsqueda de el vector de características fusionadas. Además, hará la clasificación después de la reducción de dimensionalidad y la extracción de características
(eliminando información redundante.
Por lo tanto, necesita buenas razones por las cuales esta es una mejor idea que, por ejemplo, combinarlas con pesos usando productos de puntos para construir una función de predicción lineal.

Aprendizaje automáticoClasificaciónMáquinas de vectores de soporte

¿Qué enfoques / regulaciones se utilizan para manejar el 'problema mínimo / máximo local' cuando se usa el descenso de gradiente con redes neuronales profundas?

¿Cómo sabemos de antemano qué características funcionarán mejor para la clasificación?

Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?

¿Cuál es la diferencia entre el descenso en gradiente y el descenso coordinado?

¿Cuál es el mejor paquete R para predecir la causalidad entre dos flujos de datos de series temporales?

¿Es posible asegurar trabajos solo en base a la experiencia en aprendizaje automático sin ser un ingeniero de software adecuado?

Debe usar su función (por ejemplo, número de palabras en el correo electrónico) con sus funciones binarias existentes (creo que no hay otra manera). No debe perderse si se supone que es una buena característica.
Si desea estar seguro de cuáles son las buenas características en su conjunto de características, pruebe uno de los enfoques de selección de características antes de usar el algoritmo de clasificación. Además, en caso de que el filtrado de spam si va a utilizar el TF-IDF en lugar de simplemente proporcionar el valor binario para las palabras, puede aumentar sus resultados.
En caso de que esté usando weka para su tarea, hay algunos algoritmos que pueden usarse para la selección de características, también puede proporcionarle la clasificación de las características en función de su calidad para la tarea de clasificación. Espero que te ayude un poco.

Sameer Gupta

A2A
Este documento, entre otros sobre el aprendizaje de múltiples vistas, puede ser un buen punto de partida: Página en arxiv.org

En general, la concatenación de características no funciona bien como mencionó (ya que algunas pueden ser escasas y otras densas, algunas binarias y algunas de valor real, etc.). El problema se trata más de aprender la forma correcta de combinar estas características que de elegir el algoritmo de clasificación correcto. También puede consultar: http://arXiv.org e-Print archive / pdf / 1212.4522v2.pdf

Dan Friedman

More Interesting

¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?

Redes neuronales convolucionales: ¿Cuáles son algunos posibles proyectos de cursos de aprendizaje automático de nivel de posgrado que utilizan CNN? Específicamente en el límite de PNL y CV.

¿Cuál es la principal diferencia entre el aprendizaje profundo y los viejos enfoques de aprendizaje?

¿Cómo manejo la recompensa retrasada en el aprendizaje por refuerzo?

¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?

¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

Cómo aprender a convertirse en un experto en aprendizaje profundo