¿Puedo usar el agrupamiento (técnicas de minería de datos) para la detección de cuentas falsas en las redes sociales?

Si y no.

No porque es un problema de aprendizaje supervisado . Es un problema de clasificación. El proceso de pensamiento es identificar los predictores, ponderarlos y armar un modelo.

-> Se están utilizando regresión logística clásica, bosques aleatorios, naive bayes, SVM o red neuronal.

Otro enfoque es la teoría de grafos. Intuitivamente podemos ver que las cuentas falsas tendrán un tipo de conexiones diferentes a las cuentas legítimas, por lo que un gráfico puede encontrar los valores atípicos (bordes / nodos), y el cálculo detrás puede construir un modelo.

Sí, porque es un problema difícil que la gente realmente está tratando de resolver como un problema de clúster . No significan un clúster de aprendizaje no supervisado, sino el hecho de que estas cuentas falsas generalmente son creadas como un lote por un tercero. Dos consecuencias

  • El enfoque híbrido siempre se quedará atrás. Hybrid usa clasificación y revisión final humana (para evitar el falso positivo y enojar a Justin Bieber). Eso significa 100-200 eliminaciones por día por operador, cuando un software puede generar 10 mil cuentas falsas en 2 minutos.
  • Esto se ha convertido en un negocio real, con una solución sofisticada creada para pasar los controles de creación de cuentas (proxy de 10 K, aleatorización, etc.). La gente que gana dinero se vuelve inteligente. Una vez que se crea la cuenta, utilizan técnicas de camuflaje para evitar la detección (las 10 K críticas falsas para el producto A también crean 30 K críticas falsas para productos aleatorios BZ)

Entonces, la intuición es decir: si se crean 10 K cuentas en un lote, incluso con la aleatoriedad agregada, debe haber una forma de detectar patrones comunes y encontrar todo el clúster, y eliminar 9990 cuentas a la vez. Estas cuentas se crean por una razón, por lo que su comportamiento no será típico del usuario promedio, sino que estará determinado por esta razón. Incluso si usan camuflaje, los promedios seguirán mostrando los patrones subyacentes.

Todavía es aprendizaje supervisado, no agrupamiento. De alguna manera, está más cerca de los sistemas de recomendación, donde Netflix agrupa películas / clientes para encontrar “tipos” de familias de películas / clientes. Las mismas técnicas aquí, matrices y aristas. El agrupamiento de matrices permite promediar la “sospecha”, lo que hace que el algoritmo sea resistente al camuflaje.

Mis vecinos de CMU tienen un documento sobre este enfoque (presentación aquí):

Como otros han mencionado, esto parece un problema de clasificación desde el principio. Si desea enmarcarlo como un problema no supervisado (problema de agrupación), entonces el enfoque correcto sería la detección de anomalías, que se puede utilizar para detectar valores atípicos a través de técnicas de agrupación. En tal caso, y dependiendo de su conjunto de datos, las anomolias son las cuentas falsas; Otros problemas similares podrían ser la detección de fraude, donde se extraen las anomalías de las transacciones financieras. Le recomiendo que lea sobre esto antes de continuar con su proyecto, para que pueda tener una idea de qué tipo de problema está enfrentando.

En resumen, analice sus datos, piense en el problema que está abordando, y enmarque el problema como un problema de agrupamiento o clasificación, y luego proceda desde allí. Si se trata de un problema de clasificación, que parece a primera vista, entonces tiene varios algoritmos que son útiles para tal caso: bosque aleatorio, refuerzo de gradiente, redes neuronales, etc.

La agrupación en clúster es un método no supervisado utilizado en la minería de datos, lo que significa que lo usa cuando no sabe qué predecir, sino que desea agrupar un montón de cuentas que se comportan de manera similar. Si ya tiene la variable objetivo de los datos históricos (en este caso, es si la cuenta es real o falsa), ¿por qué no utiliza algunas técnicas supervisadas como árboles de decisión o un método de conjunto?