¿Puedo usar el agrupamiento (técnicas de minería de datos) para la detección de cuentas falsas en las redes sociales?

Si y no.

No porque es un problema de aprendizaje supervisado . Es un problema de clasificación. El proceso de pensamiento es identificar los predictores, ponderarlos y armar un modelo.

-> Se están utilizando regresión logística clásica, bosques aleatorios, naive bayes, SVM o red neuronal.

¿Cuál es la diferencia entre datos sin procesar y procesados?
¿Qué tipo de habilidades se requieren para probar las pruebas de rendimiento de aplicaciones de big data?
¿De dónde puedo aprender XGBoost? Quiero aprenderlo desde cero y no solo la implementación.
¿Cuáles son buenas métricas para la polarización política en las redes sociales?
¿Cómo es una maestría en análisis de negocios y big data en IE School of Social and Behavioral Sciences?

Otro enfoque es la teoría de grafos. Intuitivamente podemos ver que las cuentas falsas tendrán un tipo de conexiones diferentes a las cuentas legítimas, por lo que un gráfico puede encontrar los valores atípicos (bordes / nodos), y el cálculo detrás puede construir un modelo.

Sí, porque es un problema difícil que la gente realmente está tratando de resolver como un problema de clúster . No significan un clúster de aprendizaje no supervisado, sino el hecho de que estas cuentas falsas generalmente son creadas como un lote por un tercero. Dos consecuencias

El enfoque híbrido siempre se quedará atrás. Hybrid usa clasificación y revisión final humana (para evitar el falso positivo y enojar a Justin Bieber). Eso significa 100-200 eliminaciones por día por operador, cuando un software puede generar 10 mil cuentas falsas en 2 minutos.
Esto se ha convertido en un negocio real, con una solución sofisticada creada para pasar los controles de creación de cuentas (proxy de 10 K, aleatorización, etc.). La gente que gana dinero se vuelve inteligente. Una vez que se crea la cuenta, utilizan técnicas de camuflaje para evitar la detección (las 10 K críticas falsas para el producto A también crean 30 K críticas falsas para productos aleatorios BZ)

Entonces, la intuición es decir: si se crean 10 K cuentas en un lote, incluso con la aleatoriedad agregada, debe haber una forma de detectar patrones comunes y encontrar todo el clúster, y eliminar 9990 cuentas a la vez. Estas cuentas se crean por una razón, por lo que su comportamiento no será típico del usuario promedio, sino que estará determinado por esta razón. Incluso si usan camuflaje, los promedios seguirán mostrando los patrones subyacentes.

Todavía es aprendizaje supervisado, no agrupamiento. De alguna manera, está más cerca de los sistemas de recomendación, donde Netflix agrupa películas / clientes para encontrar “tipos” de familias de películas / clientes. Las mismas técnicas aquí, matrices y aristas. El agrupamiento de matrices permite promediar la “sospecha”, lo que hace que el algoritmo sea resistente al camuflaje.

Mis vecinos de CMU tienen un documento sobre este enfoque (presentación aquí):

Aprendizaje automáticoBig DataCiencia de datosdatosMinería de

¿Qué técnicas podrían usar datos para predecir un valor específico y asignar un grado de confianza a esa predicción?

¿Cuál es la mejor manera de lidiar con los datos faltantes cuando se utiliza la regresión polinómica fraccional?

¿Cuáles son ejemplos de datos secundarios?

¿Cuál es su opinión sobre [correo electrónico protegido] ?

¿Qué es la agregación de datos?

¿Cuáles son los métodos de normalización de datos más comunes utilizados en el aprendizaje automático?

Como otros han mencionado, esto parece un problema de clasificación desde el principio. Si desea enmarcarlo como un problema no supervisado (problema de agrupación), entonces el enfoque correcto sería la detección de anomalías, que se puede utilizar para detectar valores atípicos a través de técnicas de agrupación. En tal caso, y dependiendo de su conjunto de datos, las anomolias son las cuentas falsas; Otros problemas similares podrían ser la detección de fraude, donde se extraen las anomalías de las transacciones financieras. Le recomiendo que lea sobre esto antes de continuar con su proyecto, para que pueda tener una idea de qué tipo de problema está enfrentando.

En resumen, analice sus datos, piense en el problema que está abordando, y enmarque el problema como un problema de agrupamiento o clasificación, y luego proceda desde allí. Si se trata de un problema de clasificación, que parece a primera vista, entonces tiene varios algoritmos que son útiles para tal caso: bosque aleatorio, refuerzo de gradiente, redes neuronales, etc.

Elvis Saravia

La agrupación en clúster es un método no supervisado utilizado en la minería de datos, lo que significa que lo usa cuando no sabe qué predecir, sino que desea agrupar un montón de cuentas que se comportan de manera similar. Si ya tiene la variable objetivo de los datos históricos (en este caso, es si la cuenta es real o falsa), ¿por qué no utiliza algunas técnicas supervisadas como árboles de decisión o un método de conjunto?

Elvis Saravia

More Interesting

Soy un estudiante de informática interesado en ciencia de datos. ¿A qué reuniones o conferencias (en India) debo asistir para crecer en el campo?

¿Flipkart tiene un grupo de ciencia de datos cautivo o algo similar? ¿Flipkart emplea 'Data Scientists'?

¿Qué puede lograr realmente el análisis predictivo?

Ciencia de datos: ¿Se puede utilizar el aprendizaje automático para el análisis de series temporales?

¿Por qué hay tanto énfasis en la ciencia de datos, pero no en la estrategia de datos?

¿Cuál es la diferencia entre las notaciones big oh, big omega y big theta?

¿Cuál es la diferencia entre un almacén de datos y una plataforma de gestión de datos?

¿Qué tan necesario es una comprensión profunda de la computación paralela para un científico de datos?

¿Cuál es la forma de explorar mis datos más fácilmente?

Cómo elegir un algoritmo de minería de datos al minar un conjunto de datos real