¿Cómo se implementa la funcionalidad de verificación de spam mediante el aprendizaje automático?

Si tuviera que dar un título académico a esta pregunta, entonces sería algo así como “Clasificación de spam usando Machine Learning”.

Esto hace que la pregunta sea más clara, es decir, en general, la verificación de spam es un problema de clasificación para el aprendizaje automático. En términos más técnicos, sería un aprendizaje supervisado.

Cualquier algoritmo de aprendizaje automático supervisado toma un conjunto de características que tiene una muestra de cada clase. En este caso, hay dos clases, es decir, correo electrónico no deseado de ham / benign v / s que lo convierte en una clasificación supervisada binaria.

Ahora, cómo crear un conjunto de características para entrenar a cualquier clasificador supervisado para la verificación de spam. Para esto, los pasos generales son:

Recopile muestras de la clase de spam y spam, es decir, correos electrónicos que son ham y spam.
Decide qué función quieres usar. Por ejemplo, las bolsas de palabras es uno de los métodos más antiguos para la clasificación de texto que también se utiliza para la clasificación de spam. Pero hay algunas otras características que pueden ser útiles para construir un clasificador de spam. (consulte algún artículo de investigación académica).
Una vez que haya decidido el tipo de característica, extraiga esas características y pase a un clasificador.
Scikit-learn es un marco de Python para tareas de aprendizaje automático, es rico en muchos algoritmos de ML.
Entrenado y prueba tu clasificador.
Implemente su clasificador de spam aprendido.

A continuación, no es necesario que filtre su correo electrónico en busca de correos no deseados. Hurrahhhh … !!!

Aprendizaje automáticoClasificacióninformática

Estoy interesado en el aprendizaje automático y la inteligencia artificial y recién comencé a aprender Python. ¿Qué otras habilidades debo tener en mi haber para tener éxito en este campo?

¿Cuáles son algunas posibles aplicaciones de aprendizaje profundo que son bastante novedosas?

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.

Cómo detectar objetos superpuestos casi circulares en MATLAB

¿Cómo aplican los fondos de cobertura el aprendizaje automático a los mercados financieros?

¿Cuáles son los problemas con big data?

Los correos electrónicos no deseados generalmente consisten en palabras como ‘Venta’, ‘Descuento’, ‘Premio’, etc. Llamémoslas SPAM-WORDS. Y que las otras palabras sean NO-SPAM-PALABRAS

Por lo tanto, el algoritmo de aprendizaje automático en términos simples encuentra la probabilidad de que un correo electrónico sea spam mediante la verificación de las ocurrencias de tales SPAM-WORDS y NON-SPAM-WORDS.

Diferentes algoritmos pueden tomar diferentes enfoques para encontrar la probabilidad. El más simple de ellos es Naive-Bayes-Classifier.

Tutorial Naive Bayes-6 Pasos sencillos para aprender Algoritmo Naive Bayes (con código en Python)

Naive Bayes code-sharnam19 / Naive-Bayes-For-Text

Ajit Kumar

Primero, bifurcamos las cosas …

La funcionalidad de verificación de spam le brindará asistencia al verificar si el contenido es legítimo para usted o no.

Si el contenido se identifica como Spam, se almacena en carpetas de Spam o se descarta.

Los spam pueden ser de numerosos tipos y también se pueden hacer de muchas maneras. Por lo tanto, podemos decir que los nuevos spam se desarrollan hoy en día a medida que pasa el tiempo.

Aquí, el aprendizaje automático resulta ser muy útil.

Básicamente, ¿qué es el aprendizaje automático?

El aprendizaje automático es un tipo de inteligencia artificial (IA) que proporciona a las computadoras la capacidad de aprender sin ser programadas explícitamente.
El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden cambiar cuando se exponen a nuevos datos.

Ahora, consideremos los correos electrónicos no deseados.

Muchos usuarios reciben numerosos correos electrónicos no deseados cada día, razón por la cual se ha creado un filtro de spam. El filtro de correo no deseado debe clasificar el correo entrante en deseado y no deseado. Esto puede ser complicado porque el filtro podría permitir demasiado spam en la bandeja de entrada o podría etiquetar algunos correos electrónicos legítimos como spam. El aprendizaje automático puede ayudar a resolver este problema. La máquina puede ser entrenada para aprender dónde colocar cada correo electrónico.

Un algoritmo de aprendizaje automático tomará un conjunto de mensajes etiquetados como entrada y clasificará los correos electrónicos no deseados (según el conocimiento proporcionado sobre las etiquetas de Spam) lejos de la Bandeja de entrada y otros correos electrónicos prioritarios de acuerdo con el conocimiento que se le proporcionó sobre las Etiquetas y otros contenidos de mensajes que clasifican un correo electrónico como spam.

Consulte este documento para referencia y mayor comprensión. Tiene los diversos algoritmos de Machine Learning explicados de manera buena y breve.

https://www.google.co.in/url?sa=…

Ajit Kumar

More Interesting

¿Cuándo las funciones coercitivas tienen un minimizador?

¿Para qué tipo de problemas de aprendizaje automático no sería adecuado el aprendizaje profundo?

¿Cuáles son las soluciones de producción efectivas para el reconocimiento de entidades nombradas?

Andrew Ng: ¿Qué opinas sobre el futuro del aprendizaje de Bayesian Networks?

¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

¿Cuál es la diferencia entre clasificación y reconocimiento de patrones?

¿Qué tan 'neurales' son las redes neuronales?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?