Los científicos de datos toman una gran cantidad de datos y brindan información que ayuda a optimizar el proceso, planificar acciones de crecimiento y suavizar la funcionalidad de una organización. Un científico de datos realiza rigurosamente numerosas operaciones en grandes conjuntos de datos utilizando su eficiencia estadística y de computación. Todo su análisis combinado con el conocimiento industrial ayuda a descubrir soluciones ocultas a los desafíos comerciales. Personalmente, esto es lo que más me emociona de la ciencia de datos.
Data Science es un campo vasto, sabiendo que Python no es lo suficientemente bueno. Hay muchas otras cosas que debes saber para ser un ingeniero de ciencia de datos.
Estas son las habilidades que tendrá que desarrollar además de Python para sobresalir en el campo de la ciencia de datos.
- ¿Cuál es una buena fuente o explicación sobre la tasa de error de fonema (PER) y la tasa de error independiente de la posición, o la tasa de error de letras?
- ¿Cuáles son los documentos más importantes en el aprendizaje activo?
- ¿Cuáles son algunas aplicaciones destacadas de los métodos de máxima verosimilitud?
- Tengo muchos datos de clientes. ¿Qué algoritmos de aprendizaje automático serían mejores para predecir qué productos desea comprar cada cliente?
- ¿Puedo usar una CPU para generar datos (aumento) cuando el entrenamiento de flujo de tensor en GPU es de forma paralela?
Habilidades básicas
Data Science es una mezcla de ingeniería de software, matemática y ciencia de datos. Estas tres son las habilidades básicas y uno debe ser competente en ello. Profundizando en esto
Probabilidades y estadísticas
Uno puede aprender sobre algoritmos con la ayuda de teorías de probabilidad y estadística. Algunos modelos como los modelos de mezcla gaussiana, los modelos naive bayes y los modelos ocultos de Markov exigen una comprensión sólida de la probabilidad y las estadísticas. Aprende la teoría de la medida. Las estadísticas ayudan como medida de evaluación del modelo, como curvas receptor-operador, matrices de confusión, valores p, etc.
Modelado de datos
Los ingenieros de Data Science también tienen que analizar datos no estructurados. Esto se basa principalmente en la ciencia del modelado de datos, el proceso de evaluar la estructura básica de un conjunto de datos, ubicar patrones y cerrar la brecha donde no hay rastros de datos. El modelado de datos es la base del desarrollo de algoritmos firmes que se pueden mejorar con el tiempo.
Habilidades en programación
Sus habilidades de programación y desarrollo de software serán las más importantes, ya que Data Science se trata de desarrollar algoritmos productivos.
Programación y fundamentos informáticos
Hay muchos cálculos sobre una cantidad extremadamente grande de datos en Data Science. Por lo tanto, uno debe ser claro con
- Estructuras de datos como colas, matrices multidimensionales, pilas de árboles, gráficos, etc.
- Complejidad como problemas NP-completos, P vs. NP, notación big-O.
- Algoritmos como búsqueda, optimización, programación dinámica, clasificación.
- Constitución informática como caché, puntos muertos, memoria, ancho de banda, procesamiento distribuido.
Una vez que conozca profundamente estos fundamentos, también es responsable de saber cómo aplicarlos y desplegarlos durante la programación.
Diseño de software
El científico de datos entrega el “software”. Si miramos de cerca, el software es un componente muy pequeño, sin embargo, un cambio de juego en una gran comunidad de productos y servicios. Por lo tanto, es importante formar sistemas y algoritmos que puedan integrarse efectivamente con dicho software. Al tener un fuerte dominio de la API, las bibliotecas dinámicas ayudarán en el diseño de software adecuado y el desarrollo efectivo de interfaces.
Matemáticas Aplicadas y Algoritmos
Las implementaciones universales de Data Science son fácilmente accesibles a través de bibliotecas como Theano, scikit-learn, Spark MLlib, TensorFlow, H2O, etc. Sin embargo, elija un modelo apropiado para implementarlas de manera efectiva como árbol de decisión, vecino más cercano, red neuronal, conjunto de modelos múltiples, admite máquinas de vectores, etc. Debe tener conocimientos sobre optimización convexa, programación cuadrática, gradiente decente, ecuaciones diferenciales parciales, lagrange, etc. Además, es importante tener una idea sobre los méritos y deméritos de diferentes enfoques, como el sobreajuste y la falta de ajuste, la fuga de datos, sesgo y varianza, datos faltantes, fuga de datos.
Lenguajes de programación
Data Science no se limita a ningún lenguaje específico. Encontrará bibliotecas en diferentes lenguajes de programación como C, C ++, R y Python. Entre todos estos lenguajes de programación, el mejor lenguaje en mi opinión para seguir adelante es Python.
Los científicos de datos se enamoran fácilmente del lenguaje python debido a su fácil sintaxis. Python garantiza una eficiente informática científica y procesamiento de datos, gracias a sus útiles bibliotecas como SciPy, NumPy y Pandas. Algunas bibliotecas especializadas de ML como Theano, scikit-learn y TensorFlow desarrollan fácilmente algoritmos con diversas plataformas informáticas.
Con tanta expectación de Data Science ya en 2017, estoy seguro de que Data Science emergerá más en los próximos años. ML específicamente, desempeñará un papel importante en moldear el futuro de las plataformas en línea.
Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.
El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.
Algunos enlaces rápidos
- Programa – http://www.greyatom.com/full-sta…
- Chatee con un consejero académico: le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co…
- Panel de discusión en GreyAtom – https://www.youtube.com/watch?v=… https://www.youtube.com/watch?v=…
Bono – Recurso de ciencia de datos curados (2018)