¿Es el big data realmente una respuesta al complejo panorama de amenazas en línea del malware sigiloso, los ataques dirigidos y la ingeniería social, o requiere un gran replanteamiento?

En resumen, no lo hará a menos que haya un salto importante y rentable en la calidad.

Examinar una pila de observaciones sin intentar comprender la dinámica de un contexto específico, como cómo y por qué los humanos hacen lo que hacen, puede ser solo un ejercicio costoso de “descubrimiento”. Esto se aplica a todo el bombo que afirma que los grandes datos se pueden aplicar en todas partes. El descubrimiento en frío no es trivial de implementar, especialmente sin un conocimiento más profundo y más amplio de algoritmos y matemáticas.

Grande no significa inteligente o que necesariamente descubrirás algo oculto que no es trivial o que no es obvio. ¿Existe alguna técnica especial para descubrir patrones o la calidad y la variación en los datos es alta? El plegamiento de proteínas y los proyectos de LHC deben ser grandes debido a la naturaleza del problema. Los objetivos a menudo se declaran de antemano.
Por lo general, no es realista (y costoso) incluir exabytes en, por ejemplo, un clúster de Hadoop, ejecutar las herramientas básicas de estadísticas incorporadas en él y luego esperar una comprensión realmente sofisticada y sensible de esos datos. No es fácil implementar, por ejemplo, un algoritmo de red neuronal rápida de manera distribuida en Hadoop, sabiendo automáticamente cuántas capas usar y así sucesivamente; la mayoría de los ejemplos y algos existentes en el mundo no están tan cerca (fundamentos del aprendizaje automático) no se enseñan con tanta frecuencia como el dominio de una pila tecnológica). También apreciamos que el almacenamiento de datos, el aprendizaje automático y los algoritmos distribuidos en paralelo no son absolutamente lo mismo. Se combinan como peldaños para progresar en términos de hacer cosas como aprender sobre lo que podría ser malware, sobre la marcha, detección de anomalías, etc. Un buen ASIC que ejecuta una FFT en valores discretos de netflow es más aplicable y práctico de implementar para los análisis en tiempo real más comunes para la empresa promedio, en comparación con un clúster del tamaño de Google: no necesita una gran cantidad de datos para hacer este trabajo. El tipo de patrones que Amazon encuentra en su montón de observaciones sobre patrones de compra hace un uso muy específico, elegante y prudente de algoritmos que se adaptan al objetivo en cuestión.
En términos de seguridad, no faltan buenas herramientas para detener el malware: las firmas no son una mala forma de hacerlo. Pero hay otros vectores continuamente pasados ​​por alto que el usuario promedio de Big Data no puede resolver fácilmente y que no son problemas atractivos para cuantificar: debilidades de proceso, análisis arquitectónico y análisis de comportamiento humano (ingeniería social).

Usemos un ejemplo práctico para el análisis de seguridad:

Por ejemplo, hacer un análisis espectral en una topología de red para revelar debilidades no requiere grandes datos. Requiere conocer algunos conceptos básicos sobre algoritmos gráficos, álgebra y matemática matricial. ¿Qué buscaría aparte de la inspección visual? Flujos, aislamiento de segmentos (subgrafos) y dependencias (grados y autovalores o valores singulares). Matlab o R pueden hacer este trabajo fácilmente. Me diría muchísimo sobre lo que se puede penetrar, y desde dónde y cómo fluyen los datos. Me permite hacer preguntas sobre el diseño y los procesos de acceso.
Si su gráfico tiene millones de nodos, entonces podemos hablar sobre dividir el problema y hacer una multiplicación de bloques, preocupándonos por la convergencia, la propagación de errores, la clase de complejidad, etc. Pero, ¿con qué frecuencia encuentra una topología tan grande? Son caballos para cursos.

Antecedentes: 13 años en aprendizaje automático y diseño de sistemas distribuidos, dos veces en la escuela de posgrado, y 7 años en las trincheras desde un desarrollador hasta el jefe de la hélice principal, rodeados de muchas personas muy inteligentes.

Los datos no responden nada, se pueden usar para decirle cómo están las cosas y ocasionalmente por qué.