¿Cuáles son algunos modelos matemáticos o técnicas estadísticas que son útiles para los científicos que trabajan con grandes datos?

Para el aprendizaje supervisado, las máquinas de vectores de soporte lineal (SVM) son excelentes para grandes datos porque pueden manejar funciones muy grandes
espacios y están garantizados para cubrir ya que son métodos convexos sin entrenamiento excesivo.
Pueden reducir un espacio de funciones masivo a algo más manejable. También paralelizan naturalmente
si haces el parámetro grid-search en paralelo.

Una limitación es que necesitan ejecutarse en la memoria, aunque con máquinas modernas puede obtener
64 GB de memoria y análisis de submuestra en datos muy grandes
Los algoritmos centrales pueden hacerse paralelos
en máquinas de memoria compartida (aunque no intentaría ejecutar tal cosa con Map_reduce en
su forma actual)

Ver, sin embargo, “Ampliar el aprendizaje automático”
http://www.cs.umass.edu/~ronb/sc…
para detalles sobre cómo escalar SVM y métodos relacionados a arquitecturas de memoria distribuida
Para el aprendizaje no supervisado, y para los métodos de datos puramente grandes que requieren reducción de mapas, son métodos no supervisados
como el Hashing sensible a la localidad (LSH) y las técnicas de proyección aleatoria relacionadas

escalado (normalización / estandarización), imputación de valores faltantes, re-muestreo, validación cruzada, reducción de dimensionalidad son solo algunas de las cosas con las que deberá familiarizarse, ya que se usan todo el tiempo.

También deberá estar familiarizado con la mayoría de las distribuciones disponibles:
Lista de distribuciones de probabilidad.

Diría que la reducción de dimensiones (PCA, Factor Analysis, etc.) está ahí arriba, especialmente si está trabajando con un conjunto de características muy grande, y eso lo está ralentizando o analíticamente no está seguro de lo que debería mirar. importante para la visualización y el análisis exploratorio de datos por las mismas razones.