Decir que hay una gran cantidad de científicos de datos falsos es asumir que sabes cómo es una versión real de esta posición. Si publicara su pregunta sobre cómo conocemos a un científico de datos real cuando la vea , se encontrará con la misma incertidumbre.
Por ejemplo, ¿cuál de estos es el científico de datos “más real”?
- Un doctorado en inteligencia artificial que nunca ha trabajado en software de producción empresarial;
- Un físico con profundo conocimiento en simulaciones físicas, pero sin experiencia en modelado basado en datos;
- Un estadístico experto en muestreo, interpretación y estimación, pero que solo ha trabajado en modelos paramétricos;
- Un neurocientífico con vasta experiencia en el diseño de experimentos de investigación, que nunca ha escrito una línea de código;
- Un graduado con una Maestría en Aprendizaje Automático que nunca ha validado un modelo frente a usuarios del mundo real;
- Un desarrollador de software que comprende las mejores prácticas, que nunca ha intentado probar un software con salida no determinista;
- Un recién graduado de Data Science cuya “experiencia” proviene de cursos y talleres;
- Un matemático que se centra en la teoría de la optimización pero no puede explicar su relevancia a las partes interesadas sin antecedentes técnicos.
¿A quién elegirias? Nadie puede decir con razón quién en esta o en cualquier otra lista sería el mejor Científico de Datos, o cualquier otro tipo de practicante de aprendizaje automático. Data Science está en su infancia, convirtiéndose en el campo que debe ser para soportar la próxima generación de productos. El desarrollo de productos es mucho más complejo que un conjunto de teorías básicas que solo tienen sentido en el vacío. Más desafiante que un enfoque académico para diseñar un algoritmo de aprendizaje que nunca ve la luz del día. Más intenso que un análisis de taller sobre cómo crear un modelo utilizando conjuntos de datos limpios.
- Cómo obtener un gran conjunto de datos para simular big data
- ¿Puedo comenzar a aprender ciencia de datos y big data a los 34 años o es demasiado tarde?
- ¿Cuáles son los beneficios de la construcción de datos?
- ¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?
- ¿Cuánta profundidad matemática para la ciencia de datos?
Esta es la razón por la cual no hay UNA persona o UN trasfondo que pueda definirse como “real”. Al igual que cualquier sistema exitoso en la naturaleza, Data Science se beneficia de la variedad , donde diferentes antecedentes y opiniones pesan sobre cómo resolver problemas. La única métrica de “real” es la auténtica pasión que uno tiene que aportar al proceso de resolución de problemas y poner este nuevo tipo de producto frente a personas reales. La ciencia de datos no es donde vive la elegancia matemática o el diseño académico inicial. Es un mundo desordenado, que es mucho más complejo que cualquier cosa para la que un grado o antecedentes específicos puedan prepararte. Los únicos “falsos” que viven aquí son aquellos que persiguen el salario por encima del aprendizaje, o que piensan que “inteligente” se define por su capacidad de arrojar fórmulas ingenuas en una pizarra que nadie usa. Esos individuos no duran mucho, y se filtran por el proceso natural de mantener nuestros esfuerzos responsables ante lo único que importa; construyendo un producto que la gente quiere usar.
Data Science está adquiriendo importancia, ya que solo ahora estamos sentando las bases de este campo. Puedo decirte que si entras en Data Science pensando que funcionará como el aprendizaje automático académico, vas a fracasar. Si cree que la creación de productos de aprendizaje automático se ve exactamente igual que la Agile convencional, va a fallar. Si cree que la validación estadística es la verdadera señal para que los datos funcionen dentro de una aplicación predictiva, va a fallar. Y si crees que las matemáticas son más importantes que los conceptos de alto nivel, todos pueden entender que vas a fracasar.
Obtener ROI del mundo real de nuestros esfuerzos proviene de la variedad y la abstracción. Se necesita una combinación de muchas habilidades y muchos antecedentes para llegar a una pieza tangible de software que mejore la experiencia de sus usuarios. Ninguna compañía tiene Data Science “resuelto”, o puede afirmar que posee la innovación para los productos que cambian el juego del mañana. Si le apasiona usar datos y trabajar con equipos de personas para crear algo que está cambiando la naturaleza misma de cómo usamos la tecnología, entonces únase a nosotros. Es complejo, desordenado, lleno de errores y está muy lejos de los entornos idealizados detrás de las torres de marfil. Pero también vale la pena. Eso es lo real.