¿Cómo utilizan los ISP los datos científicos?

Trabajé un poco con el equipo de almacenamiento de datos en mi último trabajo, un pequeño proveedor de servicios de Internet y de banda ancha.

Mucho de lo que hicieron fue exactamente lo que esperarías. Determinar la efectividad de las campañas publicitarias. Analizar la penetración en el mercado. Pero con un ligero sesgo hacia cosas específicas de una compañía de cable. Como cuántas suscripciones de hbo se vendieron después del comienzo de la temporada de GofT. O lo que afectaría a los clientes estacionales en nuestro balance final.

Personalmente, utilicé algunas técnicas de ciencia de datos para ayudar con el análisis de correo no deseado, tratando de encontrar formas súper eficientes de detectar tendencias de manera efectiva, formas ideales de recopilar y almacenar esa información para poder utilizarla en el menor tiempo posible. Las cuentas de clientes comprometidas eran un problema constante y nunca pudimos encontrar una buena pistola para fumar sólida, como ser hackeada al revisar el correo electrónico a través de un wifi público inseguro o algo así. Finalmente, se me ocurrió una técnica efectiva de usar esencialmente una consulta estática de ip por parte del propietario de RIR. Realmente trivial, ya que todo el espacio ipv4 había sido asignado. Con el tiempo, será menos efectivo a medida que los RIR comiencen a compartir bloques entre sí, pero había un plan en marcha para ocuparse de eso.

Pero todas las diversas técnicas que utilicé tenían que ser muy, muy rápidas. Los registros del servidor de correo generalmente no superan las 100,000,000 líneas por día. En realidad no es una locura, pero es suficiente para que no pueda permitirme ninguna latencia en ningún lugar de mis procesos de extracción o transformación.