¿La capacitación para la detección de spam es universal en todos los usuarios para los principales clientes de correo electrónico?

La retroalimentación de los usuarios, por ejemplo, el botón “Marcar como spam”, es una de las señales más potentes para conducir un sistema antispam, pero tiene las deficiencias clave de que 1) no es confiable, 2) es escasa y 3) es tarde.

1) Como señala Richie, algunos usuarios son jueces de “spam” mucho más confiables que otros. Las razones de la escasez son múltiples, desde los usuarios que no entienden lo que constituye “spam” (“ese aviso de factura electrónica de American Express es tan costoso que lo llamaré spam”), a los usuarios que hacen clic en el botón equivocado, a los usuarios Jugar intencionalmente el sistema (por ejemplo, castigar a un competidor). Dado que, un voto de un usuario individual debe ser ponderado adecuadamente antes de poder llegar a una conclusión generalizada.

2) Es escaso: la vasta gran mayoría de los mensajes no reciben datos de etiqueta de ninguna manera. Como un sistema no puede depender únicamente de los votos del usuario y debe extrapolar más allá de eso, cualquier voto dado puede contarse poco o mucho en la clasificación global.

3) Es tarde: por esta misma razón, los spammers a menudo intentarán entregar sus mensajes en una gran explosión. Esto significa que, para cuando el primer usuario vote, es posible que ya se hayan entregado miles de mensajes. Los jugadores a gran escala como Yahoo pueden eliminar retroactivamente estos mensajes ofensivos, pero para muchos usuarios el daño ya estará hecho.

Dicho esto, muchos sistemas (incluido Yahoo) mantendrán una lista de bloqueo de nivel individual, de modo que incluso si su voto es contrario a la clasificación global, al menos dentro de su cuenta, un mensaje posterior debe manejarse adecuadamente.

Depende. Los diferentes filtros de spam funcionan de manera diferente.

En términos generales, los filtros más sofisticados aprenden cuán confiables son los informes de spam de un usuario en particular. Los informes de los usuarios más confiables tienden a pesar más cuando se filtra el spam para otros usuarios.

Además, su pregunta implica que el análisis de contenido es el principio y el fin del filtrado de spam. De hecho, solo una pequeña fracción del spam se filtra de esta manera. La gran mayoría se filtra utilizando técnicas de gestión de conexión, como reputación, listas grises, etc.

Sin embargo, los informes pueden alimentar las bases de datos de reputación, así como los corpus estadísticos de filtro de contenido.

Los conjuntos de datos de Enron ( http://www.aueb.gr/users/ion/dat …) son útiles para el filtrado de correo no deseado. También son útiles los conjuntos de datos de entrenamiento de correo electrónico no deseado de la conferencia TREC ( http://trec.nist.gov/data/spam.html ). Bueno, puede activar el aprendizaje activo / algoritmo semi supervisado ( http://en.wikipedia.org/wiki/Sem …) sobre conjuntos de datos enron y conjuntos de datos de conferencia trec para la clasificación de spam. En el aprendizaje activo, los datos no etiquetados se pueden utilizar para fines de clasificación. Normalmente, si clasifica el correo electrónico como spam, no agregará correo electrónico clasificado en el corpus de capacitación. Para este propósito, debe utilizar el aprendizaje activo o el algoritmo semi supervisado. ECML / Pkdd 2006 ( http://www.ecmlpkdd2006.org/chal …) alentó la detección de correo electrónico no deseado utilizando algoritmos semi supervisados. Puede encontrar muchos trabajos de investigación sobre clasificación de correo electrónico no supervisado semi supervisado en la página de inicio de la conferencia. Para el aprendizaje activo, svmlight es útil. Svmlight admite el algoritmo transductivo de máquinas de vectores de soporte, que es un algoritmo de clasificación semi supervisado. Sugiero http://www.stat.umn.edu/~xshen/paper/tsvm.pdf para obtener más información sobre el algoritmo transductivo de máquinas de vectores de soporte. También se puede usar para la clasificación de correo electrónico no deseado. También los conjuntos de datos de detección de spam de correo electrónico ECML / pkdd 2006 ( http://www.ecmlpkdd2006.org/chal …) están en formato SVMlight y contienen correos electrónicos etiquetados y no etiquetados.

More Interesting

¿Por qué no podemos transformar datos grandes en algo simple como pi o resolviendo una ecuación?

Excepto la arquitectura Lambda, ¿qué otras arquitecturas de big data existen?

Soy estudiante de informática y pintura. ¿Dónde debería enfocar mejor mis habilidades para una carrera como Diseñador de Realidad Virtual o Interacción AR?

Cómo entrar en el aprendizaje automático para la industria

¿Debo asistir a la Universidad de Waterloo o la Universidad de Toronto para estudiar Ciencias de la Computación?

¿El hecho de que tenga 3 C en mi transcripción de primer año es perjudicial para mis posibilidades de pasantía de ingeniería en los próximos años?

¿Qué pasa si el aprendizaje automático se aplica a la física?

¿Qué es la informática reversible?

¿Hasta qué punto pueden los políticos ser reemplazados por modelos de computadora?

¿Qué es el caché obsoleto?

Cuando las computadoras se desarrollaron por primera vez, ¿qué pensaba el público de ellas?

¿Cuáles son las diferencias entre una computadora en clúster y un sistema distribuido?

¿Por qué el tamaño de RAM en un sistema siempre es menor que el tamaño del disco duro? ¿Por qué las RAM no están disponibles en los módulos de memoria más grandes?

¿Por qué la longitud de palabra de una computadora tiene el poder de 2?

Si tengo un año para ser realmente bueno en programación algorítmica y todavía no he probado suerte en programación competitiva, ¿cuál debería ser mi enfoque?