Si y no.
No porque es un problema de aprendizaje supervisado . Es un problema de clasificación. El proceso de pensamiento es identificar los predictores, ponderarlos y armar un modelo.
-> Se están utilizando regresión logística clásica, bosques aleatorios, naive bayes, SVM o red neuronal.
- ¿Cuál es la diferencia entre datos sin procesar y procesados?
- ¿Qué tipo de habilidades se requieren para probar las pruebas de rendimiento de aplicaciones de big data?
- ¿De dónde puedo aprender XGBoost? Quiero aprenderlo desde cero y no solo la implementación.
- ¿Cuáles son buenas métricas para la polarización política en las redes sociales?
- ¿Cómo es una maestría en análisis de negocios y big data en IE School of Social and Behavioral Sciences?
Otro enfoque es la teoría de grafos. Intuitivamente podemos ver que las cuentas falsas tendrán un tipo de conexiones diferentes a las cuentas legítimas, por lo que un gráfico puede encontrar los valores atípicos (bordes / nodos), y el cálculo detrás puede construir un modelo.
Sí, porque es un problema difícil que la gente realmente está tratando de resolver como un problema de clúster . No significan un clúster de aprendizaje no supervisado, sino el hecho de que estas cuentas falsas generalmente son creadas como un lote por un tercero. Dos consecuencias
- El enfoque híbrido siempre se quedará atrás. Hybrid usa clasificación y revisión final humana (para evitar el falso positivo y enojar a Justin Bieber). Eso significa 100-200 eliminaciones por día por operador, cuando un software puede generar 10 mil cuentas falsas en 2 minutos.
- Esto se ha convertido en un negocio real, con una solución sofisticada creada para pasar los controles de creación de cuentas (proxy de 10 K, aleatorización, etc.). La gente que gana dinero se vuelve inteligente. Una vez que se crea la cuenta, utilizan técnicas de camuflaje para evitar la detección (las 10 K críticas falsas para el producto A también crean 30 K críticas falsas para productos aleatorios BZ)
Entonces, la intuición es decir: si se crean 10 K cuentas en un lote, incluso con la aleatoriedad agregada, debe haber una forma de detectar patrones comunes y encontrar todo el clúster, y eliminar 9990 cuentas a la vez. Estas cuentas se crean por una razón, por lo que su comportamiento no será típico del usuario promedio, sino que estará determinado por esta razón. Incluso si usan camuflaje, los promedios seguirán mostrando los patrones subyacentes.
Todavía es aprendizaje supervisado, no agrupamiento. De alguna manera, está más cerca de los sistemas de recomendación, donde Netflix agrupa películas / clientes para encontrar “tipos” de familias de películas / clientes. Las mismas técnicas aquí, matrices y aristas. El agrupamiento de matrices permite promediar la “sospecha”, lo que hace que el algoritmo sea resistente al camuflaje.
Mis vecinos de CMU tienen un documento sobre este enfoque (presentación aquí):