El filtro de spam moderno es altamente sofisticado, se basa en múltiples señales y, por lo general, las señales son más importantes que el clasificador.
Sin embargo, un mecanismo de filtrado fresco y fácil de implementar es Bayesian Spam Filtering [1]. La idea básica es utilizar el teorema de Bayes para determinar la probabilidad de que un correo electrónico determinado sea spam, dadas las palabras en este correo electrónico. Si [math] S [/ math] es el evento de un correo electrónico dado que es spam y [math] w [/ math] es una palabra en el correo electrónico, lo clasificaremos como spam con probabilidad:
[matemáticas] \ Pr (S | w) = \ frac {\ Pr (w | S) \ cdot \ Pr (S)}
{\ Pr (w | S) \ cdot \ Pr (S) + \ Pr (w | \ overline {S}) \ cdot \ Pr (\ overline {S})}
[/mates]
dónde:
[math] \ Pr {(S)} [/ math] es la probabilidad anterior, que debe establecerse en la proporción esperada de spam.
[math] \ Pr (w | S) [/ math] y [math] \ Pr (w | \ overline {S}) [/ math] se calculan fácilmente contando simplemente la aparición de cada palabra en spam y no spam correos electrónicos en los datos de entrenamiento.
[math] \ Pr (S | w) [/ math] se denomina probabilidad posterior, que se puede calcular utilizando la probabilidad anterior de ser spam y la probabilidad de que la palabra dada aparezca en correos no deseados y no deseados. Por lo tanto, su clasificador está capacitado utilizando algunos datos para determinar estas probabilidades de palabras, que también se pueden ajustar cuando un usuario indica que un nuevo correo electrónico es spam o viceversa.
- ¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?
- En un juego de billar, ¿puede el mejor robot (diseñado específicamente para esta tarea) derrotar al campeón mundial humano?
- ¿Cuál es la diferencia entre Python y el aprendizaje automático?
- ¿Qué significa realmente 'Deep' en Deep Learning?
- ¿Cómo funciona realmente el Detector MultiBox Single-Shot (SSD)?
Los filtros sofisticados tienen mucho más en juego para el filtrado, como la reputación del remitente y el filtrado Bayes no es difícil de resolver por sí solo, pero es una pequeña aplicación divertida de inferencia bayesiana. Lectura recomendada [1] para más detalles.
[1] http://www.paulgraham.com/spam.html