¿Cómo es trabajar en un equipo de ciencia de datos de detección de fraude?

La detección de fraude ha sido un área emocionante y desafiante para trabajar como científico de datos en Square debido al flujo constante de problemas de datos interesantes para trabajar y el impacto medible que sus modelos pueden tener en la pérdida y la experiencia del cliente. Los principales problemas en los que trabajamos son la generación de datos, el aprendizaje automático para la detección de fraudes, la optimización de casos, la decisión de operaciones y el pronóstico de pérdidas.

Generacion de datos

Antes de construir modelos, queremos datos confiables y que cubran todos los aspectos de la actividad de un comerciante. Esto significa que necesitamos un registro de datos de alta calidad en todos nuestros productos y un sistema que nos permita recuperar estos datos rápidamente al evaluar un nuevo pago. Nuestro equipo de ingeniería ha creado un sistema de cientos de señales útiles para nuestros modelos de detección de fraude que se ejecuta en tiempo real y que también nos permite obtener datos históricos para las pruebas de respaldo.

Aprendizaje automático para la detección de fraudes.

Tenemos más de 50 modelos de aprendizaje automático y heurísticas que utilizan transacciones históricas y actividades de pago para predecir si un pago futuro puede resultar en una pérdida para Square. Utilizamos técnicas de aprendizaje automático como bosques aleatorios y árboles de impulso para clasificar a los comerciantes como fraudulentos, y ocasionalmente otras técnicas de regresión para estimar la pérdida potencial de Square. Estos modelos apuntan a diferentes tipos de fraude; por ejemplo, fraude específico del producto, o fraude comprador contra vendedor.

Optimización de Casos

Para cada modelo, necesitamos determinar en qué umbral vale la pena revisar el caso, dada la posible pérdida para Square y el costo de revisar el caso. Idealmente, desea atrapar la mayor cantidad de dólares malos mientras revisa la menor cantidad de casos posible. Tener muchos modelos significa que necesita tener una forma estandarizada de evaluar los modelos y asignar recursos para revisar los casos de cada modelo. Algunas métricas comunes son:

  • Precisión:% de pagos sospechosos que fueron malos
  • Retirada:% del total de pagos incorrectos / dólares que sus modelos sospechaban
  • Rendimiento: $ pagos incorrectos atrapados por sospecha

Decisiones de operaciones

Los modelos no pueden hacer todo el trabajo: si los modelos tomaran acciones automatizadas en todos los comerciantes, correríamos el riesgo de insultar a nuestros fuertes comerciantes. El equipo de operaciones es responsable de revisar esos casos. Entonces, el problema aquí es presentar los datos al equipo de operaciones de una manera que los lleve a tomar las mejores decisiones y a determinar e informar sobre las métricas que motivan esas decisiones.

Previsión de pérdidas

Las pérdidas pueden tardar meses en darse cuenta, pero en cualquier mes queremos saber lo antes posible cómo se realiza un seguimiento general de las pérdidas, y por producto, país, etc. Estas previsiones deben ser estables y precisas, ya que se convierten en las métricas de nivel superior para El equipo y son importantes para la contabilidad también.

Hola:

Permítanme comenzar con una cita de Christopher McDougall: “Cada mañana en África, una gacela se despierta, sabe que debe superar al león más rápido o será asesinada. Todas las mañanas en África, un león se despierta. Sabe que debe correr más rápido que la gacela más lenta, o morirá de hambre. No importa si eres el león o una gacela, cuando salga el sol, será mejor que estés corriendo.

Trabajar en el análisis de fraude es de la misma manera. Los estafadores deben ser más rápidos / inteligentes que la compañía más lenta para hacer un asesinato. Una empresa tiene que ser mejor que el estafador más inteligente para evitar ser una víctima …

La analítica y la ciencia de datos desempeñan un papel fundamental en las actividades de detección y prevención de fraude. El trabajo que se realizará en el equipo de análisis de fraude es muy similar al trabajo que realiza el profesional de análisis de riesgo. Sin embargo, como profesional de análisis de fraudes, también se le requerirá que realice un trabajo de detective para descubrir diferentes modos de operación (MO) de los estafadores y mantenerse un paso por delante de ellos. Básicamente, los mejores profesionales de análisis de fraude deberían poder pensar como un estafador / hacker.

Aquí hay un extracto de un artículo que presenté en Singapur sobre este tema. Esto habla de cómo estamos utilizando Deep Learning / Machine Learning para detectar y prevenir fraudes. Esperemos que esto ayude.

—-

Amigos, recientemente fui invitado por un nuevo trabajo para ser orador en la Cumbre de Aprendizaje Profundo en Finanzas celebrada en Singapur . En primer lugar, quería agradecer a la gente @ rework por organizar este fantástico evento e invitar a muchos oradores talentosos de la industria y la academia. La agenda completa de 2 días fue una gran plataforma para aprender más sobre los últimos acontecimientos en esta área.

Estoy vinculando la presentación completa aquí. Comparte tus pensamientos …

https://www.linkedin.com/pulse/d

Con respecto a mi presentación, el tema fue “Aprendizaje profundo y detección de fraude en Fintech Lending”. Algunos de los puntos clave que se trataron durante esta presentación son:

  • Tipos de tecnología
  • Impulsores clave para el fraude en préstamos fi ntech
  • Modus operandi (MO) de fraude común en préstamos fi ntech
  • ¿Por qué el aprendizaje profundo para la detección de fraudes?
  • Ejemplos de áreas de aplicación de aprendizaje profundo en detección de fraude
  1. Detección de anomalías utilizando Autoencoder / Replicator Neural Network
  2. Análisis de redes sociales (SCN)
  3. Demostración del clasificador de aprendizaje profundo Multi Layer Perceptron (MLP) construido con Python, Tensor fl ujo y Keras junto con parámetros estadísticos vitales como precisión, logloss, precisión, recuperación, fscore, etc.

Espero que esto ayude.

¡Aclamaciones!

Gracias por sus votos a favor de antemano. Me mantienen en marcha! ¡Gracias!

Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

No estoy lo suficientemente expuesto a los aspectos técnicos e industriales del área de aplicación de análisis e inteligencia artificial sobre problemas de seguridad, y todavía estoy en la fase de lectura y exploración.

Hace unos meses, un amigo y yo hicimos una revisión de la literatura sobre la intersección de los dos campos de seguridad de la información e inteligencia artificial, y fue una tremenda oportunidad para los principiantes de investigar documentos y revistas científicas realizadas por profesionales de la seguridad e investigadores que están aplicando IA. , Análisis o ciencia de datos para resolver problemas de seguridad. Básicamente, la revisión de la literatura fue solo un trabajo en el que comparamos entre los diferentes enfoques y metodologías seguidos, por qué se siguieron en primer lugar, cuándo aplicar y cuándo no aplicar la ciencia de datos sobre seguridad, algunas dificultades que podrían enfrentarse , junto con algunos ejemplos de las principales industrias de todo el mundo que lo están implementando.

Había tantos hallazgos que eran nuevos para nosotros. Por ejemplo:

1- ¿Por qué ciencia de datos de seguridad?

Las industrias desean desarrollar soluciones que vayan más allá de las simples herramientas SEIM, la detección de anomalías y errores.

2- cuando?

Si hay datos asociados con el problema de seguridad que está tratando de resolver. La mayoría de los problemas de seguridad resueltos por la ciencia de datos son problemas de detección. Los datos nunca han sido un problema, pueden generarse internamente o descargarse en línea. Hay tantos repositorios de seguridad en línea que cargan datos de red para fines de análisis. Aquí están algunos:

Los conjuntos de datos MIT Lincoln DARPA.

Netresec: archivos pcap disponibles públicamente.

Contagio: “Recurso increíblemente detallado y perspicaz”

Corpora digital: un repositorio que proporciona datos forenses

Malware_Traffic_Analysis: un blog que se centra en el tráfico de red relacionado con infecciones de malware.

SecRepo: Muestras de datos relacionados con la seguridad que se crean internamente o se señalan.

API DShield

Para la etapa de preprocesamiento, los escenarios son diferentes. Si se aplicó Machine-Learning, podría simplemente aplicar “clasificación” o “agrupamiento” o una combinación de ambos. Dependiendo de las etiquetas de datos. La etapa de Normalización también es esencial, eliminar la duplicación y decidir qué hacer con los datos perdidos.

3- ¿Cómo?

Para los geeks es codificación. Los más populares son R y Python. La distribución Anaconda de Pyhton es buena si se aplica Machine-Learning en los datos de seguridad que tiene. Dominar la sintaxis de aprendizaje del kit de ciencia ficción facilitará el trabajo.

O bien, herramientas como Weka y RapidMiner que ahorran tiempo y son menos intimidantes e intimidantes de la codificación excesiva no es realmente lo que desea hacer.

4- Ejemplos de problemas de detección que se pueden resolver con la ciencia de datos:

Fugas de datos en aplicaciones de Android.

Pasando por alto las técnicas de ofuscación seguidas de hacks.

Ataques de desautorización DoS

Detección de páginas web maliciosas.

Seguridad de soluciones en la nube.

Y hay muchos más.

5- Los desafíos que pueden enfrentarse cuando la ciencia de datos se utiliza para solucionar problemas de detección y otros problemas de seguridad en general son muchos.

Los atacantes pueden explotar el sistema de aprendizaje automático que funciona con los datos de detección, lo que hace que falle y, por lo tanto, los sistemas producirán errores. Otro problema es que algunos atacantes podrían alterar los procesos de entrenamiento, y hay algunos ataques matemáticos que se pueden aplicar en este punto. Los ataques a la integridad apuntan a falso negativo y los ataques a la disponibilidad apuntan a falso positivo.

Sin embargo, la ciencia de los datos de seguridad está emergiendo de manera increíble. Algunas compañías importantes como IBM, Kasprsky, Cisco ya han ido en esta dirección. El MLSEC es un excelente proyecto de código abierto que funciona en la intersección del aprendizaje automático y la seguridad. ¡Cosas realmente geniales allí!

Esta cosa es realmente fascinante. Todavía no soy un experto, ¡tengo ganas de hablar para siempre sobre eso!

La detección de fraude es, literalmente, una de las aplicaciones más interesantes de la ciencia de datos. Estás ayudando a atrapar a los malos, lo que en casos extremos podría resultar en enjuiciamiento penal. Entonces definitivamente hace una buena conversación.

Pero hay una serie de desafíos en este esfuerzo. Por ejemplo, a menudo encuentro situaciones de desequilibrio de clase en las que el 99% de los datos no son fraudulentos y solo el 1% son fraudulentos. Cuando introduce estos datos en un modelo, el modelo pronosticará que todo será no fraudulento porque será correcto el 99% del tiempo. El desequilibrio de clase podría mitigarse a través de técnicas como el aumento de peso, la reducción de peso, la clasificación errónea sensible al costo, SMOTE, etc. Pero cuando el desequilibrio es extremo, por ejemplo, 99.99% vs. 0.01%, ninguna de estas medidas es suficiente porque simplemente tiene muy pocos datos fraudulentos .

Un segundo problema es etiquetar correctamente sus datos. No se detectan muchas transacciones fraudulentas y, posteriormente, se etiquetan erróneamente como no fraudulentas. Esto no solo agrava el problema del desequilibrio de clase, sino que el modelo también tendrá más dificultades para identificar patrones específicos de fraude.

Finalmente, supongamos que sus sofisticados esfuerzos de minería / modelado de datos han detectado y detenido el fraude con éxito. Justo cuando estás a punto de darte una palmadita en la espalda, los malos se inventan y diseñan nuevas e ingeniosas formas de fraude que tu sistema no puede detectar. Por lo tanto, la detección y mitigación de fraudes es una carrera constante que nunca termina.

Creo que la detección de fraudes es realmente interesante porque estás cazando, deteniendo y superando a los malos a gran escala. Intentan constantemente encontrar nuevas lagunas para sortear los modelos de detección existentes y constantemente intentamos encontrar formas de definir esas lagunas mediante programación. La mayor parte de mi trabajo se dedica a la limpieza y extracción de nuevas características de conjuntos de datos y la optimización de modelos para las necesidades individuales de los clientes. Mi compañía Simility es una startup de detección de fraude de 20 personas en Palo Alto, CA.

Retiro de precisión en el aprendizaje automático

El compromiso inherente en la detección de fraudes es equilibrar la compensación entre atrapar a los estafadores y aumentar la fricción para los buenos usuarios. Paso tiempo con los clientes para saber cuáles son sus prioridades, luego ajusto sus modelos para atrapar a tantos estafadores como sea posible sin demasiados falsos positivos. En nuestros informes a los clientes, uno de los puntos de datos más importantes es la Matriz de confusión, que muestra la cantidad de estafadores capturados y la cantidad perdida frente a la cantidad de usuarios buenos capturados incorrectamente frente a la cantidad ignorada.

Grandes conjuntos de datos

Esto podría ser específico de nuestra empresa porque muchos de nuestros clientes son empresas importantes, pero trabajamos con conjuntos de datos muy grandes. También ampliamos significativamente sus conjuntos de datos existentes al crear muchas señales de una sola columna de datos. Por ejemplo, si comenzamos con una columna de datos para la dirección de un usuario, entonces creamos muchas señales a partir de eso, como la relación vocal-consonante en el nombre de la calle, latitud, longitud, índice de criminalidad, etc.

Tener estos grandes conjuntos de datos a mi disposición es excelente como científico de datos porque no necesito sobreajustar los datos con técnicas estadísticas complejas para obtener importancia. El desafío es asegurarme de que conozco la capacidad de nuestros servidores al ejecutar consultas grandes o modelos de aprendizaje automático. A veces, otros miembros del equipo intentarán ejecutar las cosas al mismo tiempo y se respaldará. Pero eso es parte de la diversión.

Conjuntos de datos de limpieza

No estoy seguro de si esto es exclusivo de nuestra empresa, pero parte de mi trabajo implica limpiar los conjuntos de datos para prepararlos para nuestros modelos. Muchos de nuestros clientes son empresas de comercio electrónico y puede haber algunos datos basura que debemos eliminar. Pero una vez que se limpia, los conjuntos de datos tienen muchas funciones.

En conclusión, encuentro la detección de fraudes muy interesante desde la perspectiva de la ciencia de datos. Cada cliente plantea nuevos desafíos únicos en forma de nuevos tipos de fraude que necesitamos para descubrir cómo detectar.

More Interesting

¿Cuál es el mejor instituto de capacitación en Pune para ciencia de datos y cursos de big data?

¿Qué son las certificaciones de Big Data? ¿Es necesario tener una buena carrera en el dominio de big data?

Soy ingeniero industrial (nunca he estado en ciencias de la computación) pero estoy interesado en la ciencia de datos. ¿Qué tengo que hacer?

¿Cómo funciona Elasticsearch? ¿Y cómo funciona para la minería de datos y big data?

¿Es la ciencia de datos un tema extremadamente aburrido?

¿Puedo convertirme en un buen científico de datos o ingeniero de aprendizaje automático si no tengo experiencia de mercado en el desarrollo de software?

¿Cuál tiene una mejor oportunidad de carrera, desarrollo web, estructuras de datos, codificación algorítmica, ciencia de datos o algo más para un estudiante de BTech CSE en cuarto año en India?

¿Se considera que R no es adecuado para Big Data en comparación con Python?

¿Por qué tantos anuncios de trabajo para Big Data requieren habilidades de Excel?

¿Cuál es la diferencia entre análisis inferencial y descriptivo de datos?

¿Por qué los tutoriales de regresión lineal en los sitios web de aprendizaje de ciencia de datos no discuten la necesidad de satisfacer supuestos de regresión como la linealidad o la homocedasticidad? ¿Las suposiciones de verificación rara vez se hacen en la práctica?

A medida que las empresas manejan cada vez más datos, ¿las soluciones de Big Data serán obsoletas?

¿Cuáles son las perspectivas de un programa de certificación en análisis de negocios ofrecido por NMIMS, IIM-L, IIM-Rachi o ISB?

¿Qué aspectos del aprendizaje automático teórico y aplicado requieren una formación formal en qué subdisciplinas de las matemáticas y / o estadísticas?

¿Cuál es el mejor instituto de capacitación en ciencia de datos?