¿Cómo se implementa la funcionalidad de verificación de spam mediante el aprendizaje automático?

Si tuviera que dar un título académico a esta pregunta, entonces sería algo así como “Clasificación de spam usando Machine Learning”.

Esto hace que la pregunta sea más clara, es decir, en general, la verificación de spam es un problema de clasificación para el aprendizaje automático. En términos más técnicos, sería un aprendizaje supervisado.

Cualquier algoritmo de aprendizaje automático supervisado toma un conjunto de características que tiene una muestra de cada clase. En este caso, hay dos clases, es decir, correo electrónico no deseado de ham / benign v / s que lo convierte en una clasificación supervisada binaria.

Ahora, cómo crear un conjunto de características para entrenar a cualquier clasificador supervisado para la verificación de spam. Para esto, los pasos generales son:

  1. Recopile muestras de la clase de spam y spam, es decir, correos electrónicos que son ham y spam.
  2. Decide qué función quieres usar. Por ejemplo, las bolsas de palabras es uno de los métodos más antiguos para la clasificación de texto que también se utiliza para la clasificación de spam. Pero hay algunas otras características que pueden ser útiles para construir un clasificador de spam. (consulte algún artículo de investigación académica).
  3. Una vez que haya decidido el tipo de característica, extraiga esas características y pase a un clasificador.
  4. Scikit-learn es un marco de Python para tareas de aprendizaje automático, es rico en muchos algoritmos de ML.
  5. Entrenado y prueba tu clasificador.
  6. Implemente su clasificador de spam aprendido.

A continuación, no es necesario que filtre su correo electrónico en busca de correos no deseados. Hurrahhhh … !!!

Los correos electrónicos no deseados generalmente consisten en palabras como ‘Venta’, ‘Descuento’, ‘Premio’, etc. Llamémoslas SPAM-WORDS. Y que las otras palabras sean NO-SPAM-PALABRAS

Por lo tanto, el algoritmo de aprendizaje automático en términos simples encuentra la probabilidad de que un correo electrónico sea spam mediante la verificación de las ocurrencias de tales SPAM-WORDS y NON-SPAM-WORDS.

Diferentes algoritmos pueden tomar diferentes enfoques para encontrar la probabilidad. El más simple de ellos es Naive-Bayes-Classifier.

Tutorial Naive Bayes-6 Pasos sencillos para aprender Algoritmo Naive Bayes (con código en Python)

Naive Bayes code-sharnam19 / Naive-Bayes-For-Text

Primero, bifurcamos las cosas …

La funcionalidad de verificación de spam le brindará asistencia al verificar si el contenido es legítimo para usted o no.

Si el contenido se identifica como Spam, se almacena en carpetas de Spam o se descarta.

Los spam pueden ser de numerosos tipos y también se pueden hacer de muchas maneras. Por lo tanto, podemos decir que los nuevos spam se desarrollan hoy en día a medida que pasa el tiempo.

Aquí, el aprendizaje automático resulta ser muy útil.

Básicamente, ¿qué es el aprendizaje automático?

  • El aprendizaje automático es un tipo de inteligencia artificial (IA) que proporciona a las computadoras la capacidad de aprender sin ser programadas explícitamente.
  • El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden cambiar cuando se exponen a nuevos datos.

Ahora, consideremos los correos electrónicos no deseados.

Muchos usuarios reciben numerosos correos electrónicos no deseados cada día, razón por la cual se ha creado un filtro de spam. El filtro de correo no deseado debe clasificar el correo entrante en deseado y no deseado. Esto puede ser complicado porque el filtro podría permitir demasiado spam en la bandeja de entrada o podría etiquetar algunos correos electrónicos legítimos como spam. El aprendizaje automático puede ayudar a resolver este problema. La máquina puede ser entrenada para aprender dónde colocar cada correo electrónico.

Un algoritmo de aprendizaje automático tomará un conjunto de mensajes etiquetados como entrada y clasificará los correos electrónicos no deseados (según el conocimiento proporcionado sobre las etiquetas de Spam) lejos de la Bandeja de entrada y otros correos electrónicos prioritarios de acuerdo con el conocimiento que se le proporcionó sobre las Etiquetas y otros contenidos de mensajes que clasifican un correo electrónico como spam.

Consulte este documento para referencia y mayor comprensión. Tiene los diversos algoritmos de Machine Learning explicados de manera buena y breve.

https://www.google.co.in/url?sa=…