¿Cuáles son los algoritmos de detección de spam social de última generación?

Preocúpese menos por el “estado del arte” y preocúpese más por comprender cómo podría resolver este problema de una manera que demuestre que comprende cómo funciona el aprendizaje automático.

Si tiene datos sobre cuentas que han sido identificadas como fraudes y aquellas que son legítimas, limpie los datos y prepárelos para usarlos como su conjunto de capacitación. Obtenga un conjunto de funciones para esto, incluso las que no creería que son importantes (por ejemplo, qué tan rápido un usuario determinado se inscribió en una nueva cuenta; si el estafador escribió un script para crear nuevas cuentas, es probable que completen esa página demasiado rápido) en comparación con los humanos o en un orden extraño) y luego use esa colección de características para construir algunos modelos.

Francamente, elegir los modelos y ejecutarlos es la parte fácil, la mayor parte del tiempo se dedicará a la recopilación de datos, la limpieza y la preparación. Pero una vez que llegue a la construcción de modelos intente todo lo que pueda. Si eres un tipo de Python, enloquece con Pandas y Scikit-Learn y similares. Si te gusta más R, también hay toneladas de buenas opciones. Una vez que los datos están preparados y listos, es bastante trivial ejecutar diferentes algos en ellos (se puede usar cualquier número de modelos de clasificación). Encuentra los que tienen el mejor rendimiento y ve con ellos.

¡Buena suerte!

AlgoritmosAprendizaje automático

¿Cuál es la complejidad del tiempo para una solución iterativa de la serie Fibonacci?

¿Es cierto que dado cualquier gráfico con N vértices es un subgrafo inducido del subconjunto gráfico (N). ¿Cómo puedes probarlo o refutarlo?

Cómo comparar dos cadenas C para igualdad, usando una matriz de caracteres

¿Cómo podemos lograr la inserción en el hash en el peor de los casos en O (1) mediante el uso de la matriz, mientras que las matrices tienen problemas de extensión en filledup?

¿Por qué el aprendizaje profundo requiere la construcción de modelos de datos generativos?

¿Cuál es una manera eficiente de crear una gran cantidad de cadenas aleatorias pero únicas?

Reglas generales generales Estas variables requerirían un poco de mezcla y coincidencia para obtener el resultado deseado sin prohibir demasiadas cuentas:

1) Membresía Analice el tiempo que esa persona ha sido miembro. Las cuentas recién creadas deberían ser sospechosas, mientras que los veteranos no lo serían tanto.
2) Interacción ¿ Interactúan con todo el sitio o solo con elementos de votación? Ejemplo: voter123 no publica comentarios o tiene una biografía o tiene algún tipo de relación con el sitio que no sea el voto. – puede enviar a miembros como este un mensaje automatizado de vez en cuando y ver si son legítimos. Sé honesto al respecto también. Hágales saber que necesitan confirmar que su cuenta no es solo spam. Ofrézcales la oportunidad de crear una biografía.
3) Duración de la estadía Cuando estos miembros visitan el sitio web, debe realizar un seguimiento del tiempo que permanecen en él. Los miembros que visiten continuamente el sitio durante menos de un minuto también deben encender una bandera. Puede mantener un registro de sus 100 acciones anteriores en el sitio. Es posible que también necesite usar JavaScript para rastrear esto.
4) Requiere tecnología La mayoría de las personas tienen computadoras modernas, especialmente las personas socialmente interactivas. Use cosas como javascript para asegurarse de que los clics no se realicen exactamente en el mismo lugar, o que se haya realizado un clic y no solo que se envíen datos. Hay maneras de hacer esto contrario a lo que algunos pueden creer.
Estas son solo algunas ideas, y no una respuesta directa, algunas de las cuales he implementado para mis propios proyectos. Esperemos que pueda inspirar algunas respuestas más detalladas.

Jack Hanlon

Hicimos un análisis exhaustivo sobre la detección de cuentas sospechosas en Twitter basado en datos rastreados reales y los resultados son bastante alentadores, se proporciona un conjunto de datos en http://www.cs.sunysb.edu/~aychak … y el informe del proyecto en, http://www.cs.sunysb.edu/~aychak …
Hemos discutido muchas características de un perfil que pueden ser indicadores significativos de un perfil de spam.

Jack Hanlon

More Interesting

¿Cuáles son algunos de los diferentes casos que debería considerar usar matrices bidimensionales sobre matrices unidimensionales en Java?

¿Por qué se ha reducido la participación de Instagram después de la actualización del algoritmo?

¿Cuáles son los algoritmos de geometría computacional que aparecen en los concursos de programación? ¿Cuál de ellos es más frecuente que los demás? ¿Qué estructuras de datos geométricos aparecen en los concursos de programación?

¿Cómo funcionan los algoritmos bayesianos para la identificación de spam?

Cómo construir un secuenciador de ADN

¿Qué es una explicación intuitiva de MapReduce?

¿Necesito seguir la ruta de programación competitiva para ser muy bueno en el desarrollo de algoritmos?

¿Para qué sirven los bordes traseros en el algoritmo Ford-Fulkerson?

Cómo comenzar con algoritmos en CS

¿Explicar diferentes algoritmos de ruta más corta, sus restricciones, complejidades?