¿Cómo se transfiere una persona trabajadora a tiempo completo a la ciencia de datos?

No tengo experiencia con el escenario específico. Dicho esto, puedo hacer una suposición educada de lo que sería una forma razonable de hacerlo dadas un par de circunstancias:

Ya estás en un entorno donde ves pasar datos que podrían ser interesantes para explorar.
Tienes cierta libertad sobre cómo manejas tus responsabilidades.
También tiene un margen de maniobra que le permite reclamar un nicho.
La analítica ya no es un espacio reclamado e institucionalizado en la empresa.

Lo anterior significa que:

Ese conocimiento analítico podría ser valioso dentro de la empresa.
Puede insertar algo de eso en su trabajo.
Puede convertirse en la persona a la que recurrir para problemas de análisis.
Todavía no hay un camino establecido, y un proceso, lo que dificultaría avanzar en él de una manera diferente.

Una vez establecidas las condiciones, se reduce a tres cosas:

Comience a adquirir una base sólida de estadísticas y técnicas comunes de LD.
Desarrolle familiaridad con un conjunto de herramientas que le permite llevar el punto 1 a la práctica.
Comience a insertar estas cosas en su trabajo, en lugares donde sea relevante.

Los dos primeros probablemente requerirán sacrificios de su tiempo libre durante bastante tiempo. No existe tal cosa como un almuerzo gratis. Una vez que está ocupado aplicando el punto 3, se ha ‘transferido’ a la ciencia de datos para todos los efectos.

Sin embargo, si no es así como lo ve, por ejemplo:

También quieres un título de ‘ciencia de datos’, ve a hablar con RRHH. Me he dado cuenta de que en varias compañías no les importa demasiado qué título tiene su contrato. 😉
También desea el salario de ‘ciencia de datos’, ya podría estar ganando. Al final, es una profesión como cualquier otra. Y algunos salarios que llegan a la prensa parecen ser más atípicos que la regla.
También quería alejarse de su trabajo actual y luego hablar nuevamente con personas de la empresa si la movilidad interna es plausible. O comience a buscar trabajo una vez que tenga algunas victorias con las que pueda presumir en las entrevistas.

¿Cuál es el panorama del big data en 2016?

¿Qué tecnología tiene un futuro más brillante, el desarrollo de software full stack o el desarrollo de big data de Hadoop?

Como licenciado en Ciencias de la Computación, ¿debería seguir un aprendizaje teórico de aprendizaje automático o un aprendizaje de aprendizaje automático aplicado?

¿Cómo genera LinkedIn exactamente la lista de usuarios que "los espectadores de este perfil también vieron"?

¿Cuáles son los algoritmos de agrupamiento o clasificación para datos de series temporales? ¿Es posible usar estos algoritmos para detectar valores atípicos en datos de series temporales?

¿Cuál es la mejor placa base para Intel i7 6700K y GTX 1080?

Todo el concepto de big data, o datos totales, y cómo recopilarlo y llevarlo al lago de datos puede sonar aterrador, pero se vuelve menos si divide el problema de recopilación de datos en subconjuntos. Puede visitar este enlace más información: Big Data, Data Science – Clases de capacitación de cursos combinados en línea | Big Data, Data Science – Cursos combinados de cursos en línea

Datos de fuentes tradicionales: sus sistemas de contabilidad transnacionales, sistemas de recursos humanos, etc., ya se están utilizando como fuentes de datos para análisis. Los procesos ETL ya están en su lugar para recopilar estos datos. Básicamente terminas con dos opciones. Duplique estos procesos ETL, intercambie el objetivo del EDW al lago de datos, o replique su EDW en el lago de datos, copiando físicamente los datos o abrazando virtualmente la arquitectura del lago de datos virtual (una variación del almacén de datos virtual) .

Datos estructurados de Internet de las cosas: la principal complejidad con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingestión adecuada y oportuna. Pero estos datos suelen estar muy estandarizados y los requisitos de transformación de datos anteriores no son inmensos.

Datos no estructurados: la recopilación de archivos multimedia, los datos textuales es una cosa que facilitan las plataformas de big data como Hadoop. Debido a que su almacenamiento no tiene esquemas, todo lo que se necesita es “volcar” realmente estos datos en el lago de datos y resolverlos más tarde. Dadas las herramientas ETL y las API / conectores adecuados, así como el rendimiento correcto, la recopilación de grandes datos no es Es la parte más difícil de la ecuación de Big Data.

Almacenamiento de datos Las plataformas de Big Data son polimorfos: pueden almacenar todo tipo de datos, y estos datos pueden representarse y accederse a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos No-SQL de consistencia relajada hasta las bases de datos relacionales de tercera forma normal e incluso de quinta norma, desde la lectura directa hasta el acceso de estilo columnar al SQL transnacional, hay una respuesta para cada almacenamiento y acceso a datos Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Al aprovisionarlo en la nube, se vuelve elástico. Conceptualmente, al menos, almacenar big data es la parte más fácil de la ecuación de big data. Donde se vuelve difícil es cómo hacerlo funcionar en la realidad. Desde la plataforma principal de Hadoop hasta las distribuciones comerciales y las plataformas híbridas que ofrecen los proveedores de bases de datos, hay muchas opciones, muchos puntos de precio, muchas variaciones diferentes del concepto y muchos niveles de habilidad requeridos.

Uso de datos Una vez que tenga todos estos datos en el lago de datos, ¿cómo los reúne? Transformar y conciliar datos, garantizar la coherencia entre las fuentes, verificar la calidad de los datos: esta es la parte difícil de la historia de Big Data y donde hay la menor automatización y ayuda disponibles. Si necesita crear una aplicación sobre datos específicos fuente o para informar sobre un conjunto de datos coherente, existen muchas soluciones que automatizarán el proceso y lo harán perfecto. Pero traspase los límites de las fuentes, explore y aproveche los datos heterogéneos, aquí es donde está usted solo. Y aquí es donde los proveedores que afirman facilitar el big data deberían intervenir y ayudar.

Michiel Van Herwegen

Avanzar hacia la ciencia de datos requiere un amplio conocimiento del dominio. Como los datos utilizados en Data Science son muy grandes de analizar y se deben evaluar varios factores al sacar una conclusión de un problema. Por lo tanto, el conocimiento del dominio juega un papel clave en la elección del camino para la ciencia de datos.

Sugiero practicar Data Science como freelance durante los días iniciales y luego avanzar a tiempo completo una vez que tenga el conocimiento suficiente en el campo deseado.

participe en concursos de Keggle para mejorar sus habilidades de ciencia de datos.

Narasimha Harsha

More Interesting

Quiero ser un científico de datos. ¿Qué tipo de trabajo puedo hacer para mi tesis después de aprender Hadoop?

¿Qué necesitaría para configurar una arquitectura de Big Data?

Con experiencia en informática, ¿vale la pena aprender R y ciencia de datos?

¿Cuáles son las perspectivas de un programa de certificación en análisis de negocios ofrecido por NMIMS, IIM-L, IIM-Rachi o ISB?

¿Vale la pena gastar 3 lakh para el curso de ciencia de datos en INSOFE? ¿Realmente proporcionan ubicaciones?

¿Qué tipo de proyectos tiene un científico de datos en su currículum?

Planificación de MS en Informática o Ciencia de Datos. También teniendo en cuenta que tomaré un préstamo, ¿qué país / colegio / universidad sugeriría?

¿Qué tipo de datos se almacenan y qué tipo de análisis se realiza en datos de proyectos arqueológicos?

¿Qué puede hacer Java por un científico de datos que Python / R no puede?