AlphaGo, Google Translator, el auto sin conductor … no son una amenaza tan grande para la ciencia de datos como lo son para los métodos de ingeniería de software.
La ciencia de datos es lo que usa para dar sentido a sus datos y, en cierto sentido, elaborar una historia detrás de los datos. Luego, usted toma decisiones como un agricultor que está tratando de decidir qué plantar, almacenar para decidir qué vendería el próximo año o experimentar lo que desea diseñar … Puede que el aprendizaje profundo sea aplicable aquí y allá, pero un análisis científico de datos para evitar Las conclusiones “falsas” no van a desaparecer.
Lo que perceptron y ahora el aprendizaje profundo está mostrando es que sus cláusulas if / while / case … en un software pueden reemplazarse con esencialmente aritmética y, lo que es más importante, que los coeficientes de esa aritmética se pueden aprender de los datos (reales o generados). Eso significa que, digamos que está pensando en un servicio, en lugar de escribir software al tener requisitos y reglas para su entrada y salida, todo lo que necesita es tener datos reales o sintéticos y una estructura (red) correcta. La propagación hacia atrás con la ayuda de la arquitectura de procesamiento actual (por ejemplo, GPU) hace el trabajo pesado. Es un cambio alucinante en cómo pensamos en el desarrollo de software.
- ¿Cuál es la mejor manera de ingresar al campo de la carrera de ciencias de datos / análisis?
- ¿Cómo manejar los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?
- ¿Cómo compararía el aprendizaje de la ciencia de datos de cursos pagos como Cloudera y cursos gratuitos como Udacity y Coursera?
- ¿Deben analizarse los datos en la fuente o debe construirse un almacén de datos?
- ¿Cuáles son algunos buenos libros que tratan sobre ciencia de datos usando Python? ¿Qué versión de python es más adecuada para ello?