¿Cuáles son algunos de los algoritmos de aprendizaje automático sin supervisión utilizados para la detección de spam?

Aquí hay una idea básica.

Construimos un modelo a partir de los datos que preguntan: “¿Cuál es la probabilidad de que la muestra no sea una anomalía?

Usando este modelo que construimos usando nuestros datos, podemos especular si otros ejemplos son anómalos o no.

Habiendo construido un modelo,
Si [math] p (x_ {test}) <\ varepsilon [/ math], marque esto como una anomalía.
Si [math] p (x_ {test}) \ geq \ varepsilon [/ math], entonces está bien.
donde [math] \ varepsilon [/ math] es un valor de probabilidad de umbral que definimos según nuestras necesidades.

Modelamos cada una de las características asumiendo que cada característica se distribuye de acuerdo con una distribución gaussiana
[matemáticas] P (x: \ mu, \ sigma ^ {2}) = \ frac {1} {\ sqrt {2 \ pi \ sigma}} e ^ {- \ frac {(x- \ mu) ^ {2 }} {2 \ sigma ^ {2}}} [/ matemáticas]

Suponiendo que se asumen n características para cada dato de entrenamiento, [matemática] p (x) [/ matemática] es
[matemáticas] p (x) = \ prod_ {j = 1} ^ {n} P (x_ {j}: \ mu_ {j}, \ sigma ^ {2} _ {j}) [/ matemáticas]

El algoritmo es este.

¿Qué pasa si las características no se distribuyen normalmente? Luego, transforme los datos para que se vean aproximadamente gaussianos.

Editar 1:

Después de leer los comentarios del Usuario de Quora, creo que un clasificador / agrupamiento (binario) sin supervisión hará el trabajo.

Un algoritmo de agrupamiento muy utilizado es el agrupamiento k-means.
[0] y [1] son ​​los enlaces para k-means ..

[0] 13_Clustering // notas
[1] // video

More Interesting

¿Cuál es la conclusión del algoritmo de Dijkstra?

Cuando aumentamos la cantidad de datos de entrenamiento en el algoritmo KNN, ¿por qué se reduce la tasa de error?

¿Cuánto cálculo se requiere para comprender algoritmos y redes de computadoras?

¿Puedes dar ejemplos de cómo usamos las estructuras de datos en el mundo real?

¿Qué es el recorrido del árbol y por qué los necesita?

¿Existe un algoritmo en línea para calcular la mediana de una secuencia de números si los elementos de la secuencia se pueden agregar o eliminar en cualquier momento?

Cómo elegir el algoritmo de selección de funciones correcto

Siempre sueño con trabajar en grandes empresas tecnológicas como Google o Facebook, pero mi habilidad con los algoritmos es muy débil. Intento resolver problemas en Google Code Jam y CodeChef, pero solo puedo resolver los fáciles. ¿Qué tengo que hacer?

¿Hay algún buen algoritmo para clasificar los tonos de chino mandarín de un archivo de audio sin la necesidad de usar una red neuronal?

¿Cuál es la diferencia entre [matemáticas] 2 ^ {n ^ {o (1)}} [/ matemáticas] y [matemáticas] 2 ^ {O (n ^ e)} [/ matemáticas] (para algunos e <1)?

¿Qué tipo de algoritmo de localización utilizan generalmente los misiles de crucero?

¿Cómo podrían analizarse las preguntas arbitrarias de Quora para adivinar si el cartel es suicida?

Cómo diseñar algoritmos de aprendizaje automático desde cero

Dado un problema, como un problema de diseño o un problema de algoritmos, ¿cómo resolverá un ingeniero de software experimentado ese problema?

Cómo calcular coeficientes binomiales para números muy grandes