¿Cuáles son los algoritmos de detección de spam social de última generación?

Preocúpese menos por el “estado del arte” y preocúpese más por comprender cómo podría resolver este problema de una manera que demuestre que comprende cómo funciona el aprendizaje automático.

Si tiene datos sobre cuentas que han sido identificadas como fraudes y aquellas que son legítimas, limpie los datos y prepárelos para usarlos como su conjunto de capacitación. Obtenga un conjunto de funciones para esto, incluso las que no creería que son importantes (por ejemplo, qué tan rápido un usuario determinado se inscribió en una nueva cuenta; si el estafador escribió un script para crear nuevas cuentas, es probable que completen esa página demasiado rápido) en comparación con los humanos o en un orden extraño) y luego use esa colección de características para construir algunos modelos.

Francamente, elegir los modelos y ejecutarlos es la parte fácil, la mayor parte del tiempo se dedicará a la recopilación de datos, la limpieza y la preparación. Pero una vez que llegue a la construcción de modelos intente todo lo que pueda. Si eres un tipo de Python, enloquece con Pandas y Scikit-Learn y similares. Si te gusta más R, también hay toneladas de buenas opciones. Una vez que los datos están preparados y listos, es bastante trivial ejecutar diferentes algos en ellos (se puede usar cualquier número de modelos de clasificación). Encuentra los que tienen el mejor rendimiento y ve con ellos.

¡Buena suerte!

Reglas generales generales Estas variables requerirían un poco de mezcla y coincidencia para obtener el resultado deseado sin prohibir demasiadas cuentas:

1) Membresía Analice el tiempo que esa persona ha sido miembro. Las cuentas recién creadas deberían ser sospechosas, mientras que los veteranos no lo serían tanto.
2) Interacción ¿ Interactúan con todo el sitio o solo con elementos de votación? Ejemplo: voter123 no publica comentarios o tiene una biografía o tiene algún tipo de relación con el sitio que no sea el voto. – puede enviar a miembros como este un mensaje automatizado de vez en cuando y ver si son legítimos. Sé honesto al respecto también. Hágales saber que necesitan confirmar que su cuenta no es solo spam. Ofrézcales la oportunidad de crear una biografía.
3) Duración de la estadía Cuando estos miembros visitan el sitio web, debe realizar un seguimiento del tiempo que permanecen en él. Los miembros que visiten continuamente el sitio durante menos de un minuto también deben encender una bandera. Puede mantener un registro de sus 100 acciones anteriores en el sitio. Es posible que también necesite usar JavaScript para rastrear esto.
4) Requiere tecnología La mayoría de las personas tienen computadoras modernas, especialmente las personas socialmente interactivas. Use cosas como javascript para asegurarse de que los clics no se realicen exactamente en el mismo lugar, o que se haya realizado un clic y no solo que se envíen datos. Hay maneras de hacer esto contrario a lo que algunos pueden creer.
Estas son solo algunas ideas, y no una respuesta directa, algunas de las cuales he implementado para mis propios proyectos. Esperemos que pueda inspirar algunas respuestas más detalladas.

Hicimos un análisis exhaustivo sobre la detección de cuentas sospechosas en Twitter basado en datos rastreados reales y los resultados son bastante alentadores, se proporciona un conjunto de datos en http://www.cs.sunysb.edu/~aychak … y el informe del proyecto en, http://www.cs.sunysb.edu/~aychak
Hemos discutido muchas características de un perfil que pueden ser indicadores significativos de un perfil de spam.