¿Alguna vez ha considerado la informática distribuida de alto rendimiento?
El problema es este: debido a que los modelos grandes, como los sistemas complejos de aprendizaje profundo, necesitan una gran cantidad de datos para entrenar, no se puede hacer en una máquina (por lo general). Entonces, la gente tiene que usar grupos de computadoras para manejar tales problemas.
Hacer que los algoritmos funcionen en máquinas físicamente separadas que pueden estar ubicadas en lugares muy diferentes del mundo es una tarea difícil. Los ingenieros desarrollaron marcos de programación para esto, comenzando con Hadoop, hasta Spark, y luego sistemas de aprendizaje automático sobre clústeres distribuidos como Spark MLlib y H2O.
- ¿Cuáles son las aplicaciones de big data y Hadoop en educación?
- [EE. UU.] ¿Cómo es el puesto de Asociado Junior en Mu Sigma?
- Soy un desarrollador de Ruby on Rails. ¿Cómo hago una transición a un rol de Data Scientist?
- Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido
- ¿Cuál es la forma más eficiente de comparar datos EEG e identificar tendencias?
Ser capaz de diseñar sistemas confiables y robustos que puedan manejar la ciencia de datos a escala en grandes grupos en red es uno de los avances clave en el ML moderno. Pero este es un problema en el que aún hay que trabajar.
¡Parece que esto se sentaría muy bien con ambas áreas de interés!