Soy un gran desarrollador de datos con antecedentes de Java, escrito en MR, Hive, Spark, Scala, Sqoop y Tableau. ¿Qué sigue para aprender a ser analista de datos / científico de datos?

Comienza a pensar en términos de números y probabilidades 🙂

Habilidades tecnológicas difíciles para un científico de datos:

Estadística

Aprenda los conceptos importantes a fondo: espacios de probabilidad, distribuciones, teorema de Bayes, conceptos de muestreo aleatorio, estimación de punto y conjunto, prueba de hipótesis.
Encontré este excelente libro en línea gratuito: Probabilidad, Estadística matemática, Procesos estocásticos. Léalo y absorba al menos hasta el capítulo 8 sobre pruebas de hipótesis. Tiene excelentes ejercicios de aprendizaje. Haz todos los ejercicios si es posible. Debido a mi experiencia en el procesamiento de señales de EE, había aprendido y utilizado la teoría de probabilidad y procesos estocásticos en el pasado. Sin embargo, la estadística es un tema mucho más general que la teoría de la probabilidad que se enseña en EE. Entonces, para aprender estadísticas, encuentro este libro en línea como una gran herramienta.
En la práctica, es probable que no esté inventando nuevos métodos o algoritmos estadísticos, sino que solo utilizará los existentes. Pero el conocimiento de las estadísticas lo ayudará a comprender, evaluar o ajustar estos métodos existentes, especialmente todos los métodos modernos de aprendizaje automático.

Aprendizaje automático (ML):

Desde mi experiencia, recomiendo tomar el curso de aprendizaje automático de Coursera por el profesor Andrew Ng. Tomé este curso recientemente para repasar mi oxidado conocimiento de ML de mis días de IIT hace 25 años. Encontré que el profesor Ng es un excelente maestro que ha creado un curso para principiantes diseñado fantásticamente que se adapta a una amplia gama de antecedentes estudiantiles.
Para conocer las razones estadísticas detrás de los diversos algoritmos de ML: lea un libro más avanzado como Introducción al aprendizaje automático de Alpaydin. La mayoría de los algoritmos de ML modernos son realmente métodos estadísticos que estiman directa o indirectamente la distribución de probabilidad inversa bayesiana, es decir, la probabilidad de salida dada por los datos de entrenamiento dados.
Habilidades prácticas (yo mismo todavía no estoy allí 🙂)

Idiomas: R parece lo más importante. A continuación están Python y Scala. Octave es útil para la creación rápida de prototipos de sus propios algoritmos de ML personalizados o recién inventados.
Bibliotecas: Mahout, MLib.
Practica los problemas en sitios como Kaggle.

Habilidades blandas:

Habilidades de visualización de datos: hay buenos libros y herramientas para esto. Yo mismo sé muy poco, pero tengo habilidades formales.
Habilidades de presentación de datos:

Supongo que las mejores presentaciones no provienen de un estilo elegante, sino de la claridad de los propios pensamientos sobre el tema y los resultados del proyecto.
Aún así, el estilo también es importante: puede ser mejor aprender de las diapositivas de otras personas además de la propia creatividad.

¿Qué es el metanálisis y cómo se usa (si lo hay) en ciencia de datos?

¿Cuánto se relacionan estos términos como ciencia de datos, aprendizaje automático, inteligencia artificial e internet de las cosas con el mundo venidero? ¿De dónde puedo aprender estos temas? ¿Cuánto están relacionados con la ingeniería de comunicación electrónica?

¿Cuáles son los posibles casos de uso del aprendizaje automático / ciencia de datos / análisis predictivo en ciudades inteligentes?

¿Dónde puedo obtener un conjunto de datos para hacer predicciones de incendios forestales?

¿Por qué los científicos usan palabras no rigurosas como “ultra intenso”?

¿Qué tan importante es la causalidad en la ciencia de datos?

Algunas habilidades más que puede necesitar para convertirse en un analista de datos / científico de datos:

Sepa cómo configurar la infraestructura de datos
Sepa cómo proporcionar análisis de datos y crear visualizaciones de datos.
Experiencia con bases de datos y lenguajes de consulta de bases de datos (como SQL o MySQL.
Experiencia con lenguajes de programación estadística (como R o Python)
Estar cómodo con las matemáticas (como álgebra lineal, cálculo y probabilidad)
Una buena comprensión de las estadísticas (como pruebas de hipótesis y estadísticas resumidas)
Comprensión de las herramientas y técnicas de aprendizaje automático.
Comprensión de la disputa o mezcla de datos y las herramientas relacionadas
Habilidades de ingeniería de software (como computación distribuida, algoritmos y estructuras de datos)

Si te ha gustado leer esta respuesta, vota a favor y asegúrate de seguirme para obtener más información: Sateesh Rai

Sateesh Rai

Depende completamente de su interés. Mencionó la tecnología que utilizó para el análisis. ¿Qué pasa con el aspecto matemático y empresarial? Puede aprender estadísticas / aprendizaje automático si desea abrir las piernas en esta área. Si desea dominar algunos de los aspectos comerciales (venta minorista, cadena de suministro, análisis web, marketing mix, análisis de riesgos, etc.), intente desarrollar habilidades en estas áreas. Si Business Intelligence lo entusiasma, vaya a Tableau, Qlikview, D3.js, etc. O, en caso de que quiera seguir aprendiendo más tecnología, pruebe R, Python, SAS.

Sairam Asapu

Es importante pensar en qué es lo que más le interesa. ¿Le fascina desarrollar algo basado en la tecnología de big data o cómo los big data pueden ayudar a las empresas?

Big Data and Analytics es una de las opciones. Si está interesado en Analytics / Data Science, ¿los números o el algoritmo son su fuerte o si desea desarrollar estas habilidades?

La ciencia de datos requiere algunas habilidades diferentes, pero el conocimiento funcional, las herramientas analíticas y las técnicas analíticas saben cómo son fundamentales.

Para aprender estas habilidades tienes algunas opciones diferentes …

Sairam Asapu

4 módulos Hadoop tableau spark and scala Best Bigdata Online e instituto de capacitación en el aula en hyderabad. Con conceptos avanzados completos. Capacitados por profesionales expertos certificados

llámenos: -9052699906

[correo electrónico protegido]

Vinay Kumar

More Interesting

¿Es la ciencia de datos un tema extremadamente aburrido?

¿Cómo se relacionan la regresión lineal y el descenso de gradiente? ¿Es el descenso de gradiente un tipo de regresión lineal y es similar a los mínimos cuadrados ordinarios (OLS) y los mínimos cuadrados generalizados (GLS)?

¿Qué se sigue investigando en bosques aleatorios?

¿Existe una forma más eficiente de almacenar tablas y filas sin tener que repetir ID?

Cómo realizar análisis de datos antes y después de desarrollar una aplicación

Cómo pasar del freelance de ingeniería de software al freelance de machine learning / data science

¿Cómo es útil el análisis de datos?

¿Cómo aportamos el tipo de credibilidad a nuestra implementación y análisis de big data que disfrutan las prácticas tradicionales de gestión de la información basadas en modelos canónicos?