Sigo recordándoles a todos esto sobre ciencia de datos: no hay reglas establecidas. No acepte ningún debate como resuelto.
La ciencia de datos se trata de utilizar la tecnología para tomar decisiones que ayuden a un negocio, un gobierno o una causa. La ciencia de datos implica comprender todos los datos disponibles y luego diseñar sistemas humanos y de TI para que actúen sobre esos datos.
Hay dos cosas que son exclusivas de esta ciencia en comparación con todas las demás ramas: en primer lugar, estamos lejos de donde queremos estar, nuestra ambición solo sigue aumentando y la aplicación exitosa de la tecnología apenas se está cumpliendo. La semana pasada estuve en un panel donde el consenso era que necesitamos nuevos materiales para diseñar nuevos chips para alimentar nuevas computadoras que posiblemente puedan resolver las demandas actuales de la ciencia de datos. Claramente, todo lo que hemos aprendido hasta ahora no será aplicable allí.
- ¿Hadoop está saliendo? ¿Se avecina una tecnología que pueda reemplazar toda la forma en que MapReduce consulta en un grupo de máquinas? ¿No puede simplemente automatizar la forma en que ejecuta estas consultas? ¿Es esto lo que Blaze está tratando de lograr?
- ¿Cuáles son los beneficios de los diferentes tipos de esquemas en el contexto del almacenamiento de datos?
- ¿Cuáles son algunos usos analíticos de big data?
- ¿Menos marcas en IA afectarán mis posibilidades de admisión a un curso de maestría en ciencias de datos en una universidad estadounidense de renombre?
- ¿Qué tan confiables son las estadísticas oficiales del gobierno en los Estados Unidos?
En segundo lugar, cada aspecto de la cadena de valor de la ciencia de datos está pasando por trastornos. IoT y el enfoque en datos no estructurados ha cambiado la disponibilidad de datos por órdenes de magnitud. Las nuevas técnicas informáticas (nube, en memoria, cuántica) han cambiado la forma de resolver cualquier problema. Los nuevos algoritmos (y algunas veces los antiguos) están siendo equipados con esta potencia de datos e informática para aumentar su precisión múltiple.
Daré un ejemplo personal. Durante el desarrollo de Coseer, una IA destinada al lenguaje natural, hemos estado jugando con el algoritmo más exitoso, el aprendizaje profundo. Simplemente no pudimos hacerlo funcionar hasta que cuestionamos el status quo. Eventualmente entendimos que Deep Learning no está destinado a nuestro problema, y desarrollamos una pila completamente diferente llamada Calibrated Quantum Mesh. CQM ahora está funcionando maravillosamente, dando resultados más precisos sin la necesidad de datos anotados por humanos.
Un buen científico de datos debe cuestionar el status quo en cada paso del camino.