¿Qué información buscará un científico de datos en un conjunto de datos de un procesador de pagos en línea que consta de transacciones, información comercial y otra información sobre negocios comerciales?

¡Genial, este es (más o menos) mi trabajo! Administro análisis para Boku, una compañía de pagos móviles. Somos un equipo muy pequeño y apoyamos a toda la empresa en cualquier proyecto basado en datos.

Lo que hace que nuestros datos de transacción sean únicos es que no sabemos quién es el cliente, ¡solo su número de teléfono! Y procesamos millones de transacciones, pero en un número relativamente pequeño de comerciantes en comparación con un procesador de pagos más convencional.

Algunos desafíos interesantes que enfrentamos

Vimos este número hace 7 meses. ¿Es la misma persona?
¿Cómo encontramos más información sobre nuestros clientes?
¿Por qué las personas eligen comprar usando el móvil?
¿Cómo podemos predecir el comportamiento de la transacción, como el uso repetido y el gasto de por vida?
¿Cómo cambian estas métricas en función de la segmentación del cliente?
¿Qué posibilidades hay de que un cliente que compra en un comerciante realice transacciones en otro? ¿Qué pares / categorías de comerciantes son comunes? ¿Cómo podemos usar esa información?
¿Dónde abandonan los clientes durante el proceso de pago y qué podemos hacer al respecto?
¿Cómo pronosticamos el crecimiento con fines presupuestarios?
¿Cómo modela deudas incobrables y devoluciones de cargo en datos limitados del cliente? ¿Qué herramientas podemos usar para reducir las tasas de devolución de cargo? ¿Cuán efectivos serán?
¿Cómo identifica y controla los problemas de facturación con los operadores móviles?
¿Qué puntos de precio deberíamos permitir que utilicen los comerciantes, dada la demografía del mercado que puede afectar los saldos prepagos, etc.
¿Cómo podemos modelar el potencial de entrar en un nuevo mercado basado en indicadores económicos?

Esa es solo la punta del iceberg, y son todas las preguntas que hemos hecho en la última semana más o menos. No se trata de big data o aprendizaje automático, pero definitivamente estamos resolviendo problemas de ciencia de datos.

Las fuentes de datos incluyen nuestros propios datos de transacciones, datos financieros de fuentes públicas, datos de encuestas, datos económicos de lugares como el banco mundial, etc.

Las herramientas incluyen MySQL, Python y Excel. Estamos incursionando en el raspado de registros también.

Los proyectos se mueven rápidamente: hacemos docenas de análisis grandes y pequeños cada semana, y también estamos directamente involucrados en la toma de decisiones comerciales y de productos. También somos responsables del uso de una herramienta de BI general para que la empresa acceda a los datos, y trabajamos estrechamente con el equipo de Finanzas en proyectos relacionados con FP&A, como proyectar flujos de efectivo, condiciones de pago, precios, costos de mensajes, etc.

¡Uf!

¿Existe algún algoritmo de clasificación que esté en su lugar, estable y que tenga un tiempo de ejecución lineal?

¿Qué es más rápido: insertar 200,000 filas de datos o actualizar 200,000 filas de datos SQL?

¿Cómo podrían relacionarse dos conjuntos de datos y datos completamente diferentes para generar datos completamente nuevos y un conjunto de datos, y cómo el lenguaje de programación, las herramientas de modelado de datos y Excel me ayudan a realizar dicho análisis de datos?

¿Cuál es la diferencia entre Data science, Big Data y Hadoop?

¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?

¿Orientación profesional para personas de 25 años de edad con inclinación cuantitativa con datos / habilidades de programación?

Estoy trabajando en un proyecto con este tipo exacto de datos.
Tenemos que predecir qué clientes realmente usarán un cupón en línea si se les da. El cupón es específico para una marca y ubicación.
Lo primero que hicimos fue limpiar los datos del comerciante para que podamos saber qué marca representaba. ¿Es la tienda “801919491” un Dunkin Donut?
Luego descubrimos la lealtad de un cliente a una marca a través del análisis RFM. También queríamos saber a dónde iba cada cliente a gastar dinero. Los principales lugares de gasto también se extrajeron a través de datos de transacciones de clientes.

Sean Owen

More Interesting

¿Qué significa cuando una curva ROC no es suave?

¿Qué nuevas empresas recomendarías como lugar de trabajo para un científico de datos junior? No solo en EE. UU., Sino en todo el mundo

¿Cuáles son los casos de uso que aprovechan la tecnología Big data y Blockchain en los servicios financieros?

¿De dónde obtiene sus datos el pitchbook?

R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?

¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados en Big Data?

¿Cuáles son las tecnologías actuales utilizadas en el análisis de datos?

¿Cuál es el instituto superior para enseñar ciencia de datos con R?

¿Cuál debería elegir, Data Science en UC Berkeley (programa MIDS) por $ 65,000, o Data Science en la Universidad de Illinois (MCS-DS) por $ 20,000?

¿Cuáles son algunas ideas de proyectos de ciencia de datos de baloncesto?