¿Cuáles son las aplicaciones de las estadísticas en el campo de la informática?

Permíteme darte algunos problemas en los que estoy trabajando en este momento (léase: les dije a los estudiantes de doctorado que trabajen).

Los enfoques modernos para administrar las térmicas y el rendimiento del procesador han tenido el efecto secundario no deseado de eliminar la reproducibilidad del rendimiento. Si ejecuto un punto de referencia sintético 350 veces en procesadores 4200, el mejor momento / peor momento puede ser 0.85. Hemos observado variaciones a nivel de hyperthreads, procesadores, sockets y, por supuesto, en Linux mismo. Estadísticamente, ¿cómo pasa de 350 ejecuciones * 2100 nodos * 2 sockets / nodo * 36 hiperthreads / mediciones de socket a una atribución de ruido a la variación de fabricación, ubicación de subprocesos, ubicación de socket y efectos del sistema operativo?
Teniendo en cuenta los datos recopilados anteriormente, ¿cómo determinaría el nivel de “unicidad” de cada procesador? Si tuviera 4200 contenedores, ¿qué tan diferente sería cada contenedor del siguiente (y cómo mediría eso)? Si elige un número menor de contenedores, ¿cómo hace para elegir ese número?
El patrón de comunicación “plantilla” es bastante común en las aplicaciones de física: realiza una pequeña cantidad de trabajo, envía los resultados a sus “vecinos”, espera a que sus vecinos le envíen sus resultados, y solo luego continúe con el siguiente bit de trabajo. Como puede imaginar, dar más trabajo a unos pocos procesadores significa que el resto del sistema estará inactivo la mayor parte del tiempo: el equilibrio de carga es fundamental para una utilización eficiente. Sin embargo, los procesadores baratos no hacen muy bien la reproducibilidad del rendimiento. Deje que un gráfico acíclico dirigido represente el patrón de comunicación de un programa con los pesos de los nodos como la cantidad de cálculo y las aristas de las dependencias de datos. Si los pesos de los nodos se extraen de alguna distribución, ¿cuál es la distribución esperada de la ruta crítica del DAG?
Dado todo lo anterior, la comunicación basada en stencil puede simplemente no ser el modelo correcto para usar. Una alternativa es “bolsa de tareas” (o, en ocasiones, “DAG de tareas”). Las tareas de cálculo específicas ya no están ancladas a procesadores individuales. En cambio, pueden asignarse a cualquier procesador que esté libre y “cercano”. Estadísticamente, ¿este enfoque amplifica o amortigua los efectos de la irreproducibilidad del rendimiento?
Nos gusta pensar que, con suficiente tiempo y talento, las personas inteligentes pueden hacer que el código se ejecute más rápido, y tenemos un historial bastante extenso de esto en una máquina reproducible por rendimiento. Dado todo lo anterior, ¿cómo demuestra que los cambios que realizó en su código dieron como resultado un cambio estadísticamente significativo en el tiempo de ejecución? Tenga en cuenta que probablemente no podrá tomar prestada la supercomputadora durante una semana para hacer 350 A / B para ver si ha empujado la mediana.

educación enEstadísticainformáticainvestigación en informática

¿Dónde puedo encontrar documentos seminales sobre GPGPU?

¿Qué es .ASP?

¿Qué hace a un gran investigador de aprendizaje automático? ¿Qué tipo de propiedades poseen esos individuos realmente excepcionales? ¿Es increíble la intuición, la ambición, una comprensión aguda de los dominios, o simplemente un celo religioso sobre el campo?

¿Cuáles son algunas buenas implementaciones de MapReduce para gráficos, lo que significa un marco de gráficos de código abierto altamente distribuido y de uso general, y qué tan bien funcionaron para usted en la práctica?

¿Qué debo especializar en sistemas inteligentes o computación en la nube?

¿Cómo ayudará el aprendizaje de la computación en la nube en el futuro?

A2A. El usuario de Quora ya ha respondido esta pregunta, por lo que agregaré que la ciencia de datos es el mejor ejemplo de estadísticas en el campo de la informática. De hecho, el programa de maestría en ciencias de datos en Stanford está en el departamento de estadística, ver MS en Estadística: Ciencia de datos.

Creo que el siguiente artículo de la Asociación Estadounidense de Estadística lo dice todo, ver Estadísticas que pierden terreno ante la informática.

El danés Karim

CS incorpora programación y estadística (ciencia matemática) y es lo último que necesitará hacer significados a partir de los datos. Con las estadísticas, podrá determinar las limitaciones de los algoritmos computacionales y explorar las posibilidades de modelados y simulaciones. Es por eso que las estadísticas se han encontrado útiles en la extracción y compresión de datos, así como en otras áreas como la bioinformática.

El danés Karim

Fuera de las otras respuestas, muchos métodos de análisis numérico y algoritmos numéricos, como los “métodos de Monte Carlo” se basan en gran medida en la probabilidad y las estadísticas.

La teoría de colas (QT) se trata de estadísticas. QT se utiliza en la programación de recursos (procesadores y memoria), redes y muchos otros problemas de CS.

En las redes, también estamos lidiando constantemente con paquetes “perdidos”, fallas, llegadas y salidas estimadas, etc.

En esencia, no veo cómo alguien puede estudiar CS sin un fondo muy sólido en Probabilidad y Estadística.

Ifeoluwa Egbetade

El aprendizaje automático es probablemente el más obvio, ya que extiende los modelos estadísticos utilizando un enfoque algorítmico.

El danés Karim

More Interesting

¿Qué startups de aprendizaje automático tienen más probabilidades de convertirse en empresas multimillonarias?

¿Qué áreas de CS tienen la fruta más baja para la investigación?

¿Cuál es la mejor manera de hacer investigación CS en Stanford como estudiante?

¿Cuál es el software más útil para un estudiante de informática?

¿Cuáles son los trabajos de investigación que un graduado de CS debería haber leído antes de seguir una carrera como desarrollador de software?

¿Está bien enviar un correo a un autor pidiéndole que me proporcione el código fuente de su trabajo?