Diseño de vectores de características para algoritmos de aprendizaje automático. ¿Debo poner características de diferentes dominios en el mismo vector?

tl; dr:
Puedes, pero (¿cómo) deberías?
Detalles:
El enfoque para derivar las características más discriminatorias para la clasificación de patrones puede basarse en la selección de características => NN supervisado, SVM o extracción de características.
En el último, puede usar una fusión de características en serie [matemáticas] \ gamma = \ begin {bmatrix} \ alpha \\\\ \ beta \ end {bmatrix} [/ math] como mencionó, que es de alta dimensión y contiene redundantes e información contradictoria (“flores blancas” pueden significar la muerte o la paz según el contexto), lo cual es desfavorable para el reconocimiento o es equivalente en paralelo [matemáticas] \ gamma = \ alpha + i \ beta [/ matemáticas] => PCA o LDA. , cómo realizar la extracción de características en un espacio de características complejo, es una pregunta separada (no dude en a2a)
es decir
Cuando fusiona entidades (digamos dos vectores de características de dimensiones [matemática] d_1, d_2 [/ matemática]) normalizadas en el mismo dominio (digamos [0,1] para probabilidades), el vector de entidades fusionadas reside en una [matemática] [0,1 ] ^ {d_1 + d_2} [/ math] busca espacio.

Sin embargo, cuando los dominios son diferentes (por ejemplo, [matemática] [0,1] [/ matemática] y [matemática] \ {- \ infty, \ infty \} [/ matemática]), debe comprender el espacio de búsqueda de el vector de características fusionadas. Además, hará la clasificación después de la reducción de dimensionalidad y la extracción de características
(eliminando información redundante.
Por lo tanto, necesita buenas razones por las cuales esta es una mejor idea que, por ejemplo, combinarlas con pesos usando productos de puntos para construir una función de predicción lineal.

Debe usar su función (por ejemplo, número de palabras en el correo electrónico) con sus funciones binarias existentes (creo que no hay otra manera). No debe perderse si se supone que es una buena característica.
Si desea estar seguro de cuáles son las buenas características en su conjunto de características, pruebe uno de los enfoques de selección de características antes de usar el algoritmo de clasificación. Además, en caso de que el filtrado de spam si va a utilizar el TF-IDF en lugar de simplemente proporcionar el valor binario para las palabras, puede aumentar sus resultados.
En caso de que esté usando weka para su tarea, hay algunos algoritmos que pueden usarse para la selección de características, también puede proporcionarle la clasificación de las características en función de su calidad para la tarea de clasificación. Espero que te ayude un poco.

A2A
Este documento, entre otros sobre el aprendizaje de múltiples vistas, puede ser un buen punto de partida: Página en arxiv.org

En general, la concatenación de características no funciona bien como mencionó (ya que algunas pueden ser escasas y otras densas, algunas binarias y algunas de valor real, etc.). El problema se trata más de aprender la forma correcta de combinar estas características que de elegir el algoritmo de clasificación correcto. También puede consultar: http://arXiv.org e-Print archive / pdf / 1212.4522v2.pdf

More Interesting

¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?

Redes neuronales convolucionales: ¿Cuáles son algunos posibles proyectos de cursos de aprendizaje automático de nivel de posgrado que utilizan CNN? Específicamente en el límite de PNL y CV.

¿Cuál es la principal diferencia entre el aprendizaje profundo y los viejos enfoques de aprendizaje?

¿Cómo manejo la recompensa retrasada en el aprendizaje por refuerzo?

¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?

¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

Cómo aprender a convertirse en un experto en aprendizaje profundo

¿Es necesario aprender Python para seguir la especialización en cursos de Machine Learning, de Coursera?

¿Cuál es la mejor manera para que un estudiante de CS en una universidad india obtenga una pasantía / trabajo en una compañía en el sector de Big Data y / o Machine Learning en los Estados Unidos?

¿En qué campos todavía no se ha aplicado el aprendizaje automático (o está menos explorado)?

En la curva ROC, cualquier punto es resultado del modelo en un parámetro particular. No estoy claro por qué el adivinador aleatorio está en x = y y no siempre (0.5, 0.5). ¿También cómo interpretar el área bajo la curva?

¿Cuál es la diferencia entre soft k-means y el algoritmo EM?