¿Cómo implementamos el filtrado o el seguimiento del correo no deseado mediante una red neuronal?

El filtrado de correo no deseado utilizando redes neuronales es básicamente un problema de clasificación.

Aquí están los pasos para implementarlo.

1. Recopilar conjunto de datos de spam y jamón (mensajes de correo electrónico legítimos). Etiquetar estos conjuntos de datos

Puede encontrar conjuntos de datos en – Conjuntos de datos de correo electrónico no deseado

2. Use técnicas de extracción de características y vectorización en estos mensajes

Por ejemplo: Aplicar BagofWords, Word2vec, Feature Hashing o tfidf Vectorizer, etc.

Puede encontrar más detalles aquí: http://scikit-learn.org/stable/m…

3. Una vez que se realiza la vectorización del conjunto de datos, aplique un algoritmo de red neuronal de aprendizaje supervisado como Back Propagation, Multi-Layer Perceptron o Radial Basis Network.

Más información sobre redes neuronales.

  • http://scikit-learn.org/stable/m…
  • http://lcn.epfl.ch/tutorial/docs…
  • https://en.wikipedia.org/wiki/Ba…
  • https://en.wikipedia.org/wiki/Mu…

4. Entrene su conjunto de datos etiquetado en estas redes neuronales. Una vez completada la capacitación, pruebe este modelo de red neuronal capacitado en diferentes mensajes de correo electrónico o puede retener una fracción de su conjunto de datos para realizar pruebas. Calcule la precisión, precisión y recuperación de su modelo entrenado utilizando el conjunto de datos de prueba. Para aumentar la precisión, puede entrenar durante más tiempo, cambiar los pesos iniciales, cambiar la tasa de aprendizaje, cambiar las condiciones de detención de la red neuronal o puede usar diferentes técnicas de extracción de características.

Más detalles sobre este método:

  • http://scikit-learn.org/stable/m…
  • http://scikit-learn.org/stable/t…
  • http://scikit-learn.org/stable/a…

5. Una vez que esté satisfecho con la precisión de su modelo. Felicidades, creaste tu propio clasificador de spam. Puede usar este modelo suyo para clasificar y filtrar los mensajes de correo electrónico no deseado de varias maneras:

  • Como complemento en aplicaciones de correo
  • Como una aplicación web que clasifica y calcula el contenido de spam de un mensaje de correo electrónico
  • Como una API que clasifica un mensaje en spam o no spam.

Para obtener más información o detalles, puede consultar mi cuenta de github donde implementé un clasificador de mensajes de correo electrónico no deseado utilizando diferentes algoritmos de aprendizaje automático como: SVM, Naïve Bayes, KNN, árbol de decisión, etc.

https://github.com/nikhibdg/Spam…

Para más dudas o sugerencias pm me.

A continuación, le mostramos cómo puede crear un programa de filtrado de spam:

  1. Es un problema de clasificación . Entonces, vea qué algoritmos puede usar para el problema de clasificación.
  2. Cree un modelo rápido, incluso con menos precisión.
  3. Vea la precisión de su modelo .
  4. Puede usar muchas herramientas a su elección.
  5. Lea muchos documentos para poder usar una mejor idea para aumentar la precisión del modelo.

Utilice datos históricos para descubrir las fuentes habituales de correo no deseado.

Cree modelos predictivos para descubrir la probabilidad de que un determinado correo sea un correo no deseado en función de los destinatarios y la calidad del sitio web de origen.

Se puede buscar en el correo electrónico ciertas cadenas de palabras clave que marcarían el mensaje como correo no deseado (esto puede verificarse dando al usuario la autoridad para determinar si un correo es correo no deseado o no)

El modelo de regresión se puede usar para determinar la probabilidad de que un correo electrónico sea spam si tiene varias cuentas de correo electrónico monitoreadas por el script.

El filtrado de spam es uno de los proyectos en el curso de aprendizaje automático de Andrew Ng en Coursera, por lo que es posible que desee visitarlo.