¿Qué hace un científico de datos?

El mes pasado tuve la oportunidad de ser el anfitrión del ex Jefe de Científicos de Datos de EE. UU. Y el co-entrenador del término ciencia de datos “DJ Patil”. En su charla sobre Data Science y la oportunidad, Ahead, así como sus experiencias como Jefe de Científicos de Datos en la Casa Blanca, dijo: “Data Science es un deporte de equipo” y lo dice porque Data Science es tan vasto en sí mismo y tiene muchas caras.

La ciencia de los datos generalmente se considera como un término general bajo el cual se encuentran el abastecimiento de datos y la limpieza de datos, la disputa de datos, el desguace web, la regresión / series de tiempo, las funciones de costos, los árboles condicionales, las técnicas de conjunto, las redes neuronales, el agrupamiento, la PNL, Hadoop, HDFS, Chispa, Cuentacuentos, Tableau, Despliegue.

Una ciencia de datos de pila completa es la que ha trabajado en todos estos departamentos, incluidos el aprendizaje automático, Big Data, visualización de datos, modelos de ciencia de datos productivos y tiene suficiente conocimiento de todos estos.

La ingeniería de ciencia de datos de pila completa es la integración de científicos de datos e ingenieros de ciencia de datos. Un científico de datos de pila completa tiene una amplia comprensión de la empresa en la que trabaja y quiénes son los clientes. ¿Qué están vendiendo como producto? ¿Qué pretenden vender e integrar en su negocio como una idea?

¿Cuál es el objetivo de establecer el negocio? ¿Cuáles son los principios y la economía subyacentes de la empresa? ¿Con quién están compitiendo? ¿Cuál es la base de clientes de la empresa? ¿Una base de clientes pequeña o grande? ¿Quiénes son el público objetivo? ¿Qué desafíos del negocio intenta resolver? ¿Qué debe adoptar para resolver los problemas o desafíos que enfrenta la empresa? ¿Qué análisis y métodos adoptados por él pueden proliferar las ganancias de la empresa? ¿Cómo recopilar datos, hacer interpretaciones para producir soluciones para los desafíos que enfrenta la empresa? Y muchos más.

Simplificado, un ingeniero de ciencia de datos prepara los datos para ser analizados por un científico de datos.

Un científico de datos de Full stack tiene un don y experiencia en:

Acción-Planificación-Habilidades ejecutivas

  • Análisis y resolución de problemas: participar en la resolución de problemas de alto nivel utilizando un tiempo y recursos mínimos.
  • Inquisición endogámica de buscar más y más información y ser creativo con cada problema a resolver.
  • Comunicar técnicas y enfoques para resolver un problema de manera efectiva a los otros coadjutores y tomadores de decisiones en la empresa.
  • La traducción de datos para generar beneficios para el negocio de una manera que requiera menos tiempo.
  • Seleccionar y aplicar con precisión las habilidades relevantes de las matemáticas y las estadísticas para dilucidar un desafío.
  • Empleando habilidades de piratería y conocimiento de dominio siempre que sea necesario.
  • Construir un ingenioso plan de acción para que los tomadores de decisiones implementen y logren sus objetivos.
  • La traducción de datos para generar beneficios para el negocio de una manera que requiera menos tiempo.
  • Seleccionar y aplicar con precisión las habilidades relevantes de las matemáticas y las estadísticas para dilucidar un desafío.
  • Construir un ingenioso plan de acción para que los tomadores de decisiones implementen y logren sus objetivos.
  • Realización de investigaciones unidireccionales para formular preguntas y sacar conclusiones.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

  • Programa – http://www.greyatom.com/full-sta…
  • Chatee con un consejero académico: le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co…

De 2013 a 2015, fui el científico jefe de datos en una compañía de ciberseguridad llamada Pindrop Security, una empresa emergente increíble en Atlanta enfocada en identificar el fraude telefónico. Comencé como su primer científico de datos, y durante un período de dos años, construí un equipo de ciencia de datos completo con varios científicos de datos a tiempo completo, pasantes y contratistas. Antes de eso, trabajé en varias compañías de ciberseguridad como científico de datos o ingeniero de datos. Ahora, ayudo a las personas a aprender ciencia de datos y entrar en carreras de ciencia de datos como Director de Educación de Ciencia de Datos en Springboard. Compartiré con ustedes ejemplos de los diferentes tipos de proyectos en los que he trabajado o administrado, y con suerte eso le dará una visión general de alto nivel de la amplitud del trabajo de un científico de datos.

Escribí sobre esto en profundidad en este artículo El proceso de ciencia de datos. Resumiré los diversos aspectos a continuación.

1] Producto
El producto principal de Pindrop fue un sofisticado sistema de aprendizaje automático diseñado para analizar el audio de las llamadas telefónicas que ingresan a los centros de llamadas para determinar la probabilidad de que sea fraudulento. Al igual que cualquier sistema de aprendizaje automático del mundo real, no fue perfecto. Un sistema de aprendizaje automático comete dos tipos de errores: falsos positivos (por ejemplo, identificar algo como fraude cuando no lo es) y falsos negativos (por ejemplo, perder una instancia real de fraude). Ambos tipos de errores fueron costosos para los clientes de diferentes maneras y gran parte del trabajo de mi equipo implicó la mejora constante del producto principal, incluyendo:

  • Encontrar mejores técnicas para reducir las instancias de falsos positivos y negativos
  • Asegurarse de que el sistema de aprendizaje automático sea lo suficientemente “inteligente” para mantenerse al día con las nuevas tendencias en fraude
  • Ayudar al equipo de ingeniería a implementar y escalar el producto para manejar grandes volúmenes de llamadas telefónicas
  • Trabajar con gerentes de producto para incorporar nuevas mejoras de manera oportuna

En las empresas donde el producto principal se basa en la ciencia de datos, se deben asignar muchos recursos y tiempo de ciencia de datos para mejorar el producto central y asegurarse de que esté actualizado con las últimas tecnologías y tendencias.

2] Investigación
Además de mejorar el producto existente, un equipo de ciencia de datos tiene una importante función de investigación: proponer nuevas posibilidades de producto. Mi equipo y yo trabajábamos constantemente en la búsqueda de nuevas vías para identificar llamadas telefónicas fraudulentas: nuevas fuentes de datos, nuevos algoritmos, nuevas formas de combinarlos. A veces, esta investigación estaba dirigida a mejorar la detección de tipos conocidos de fraude, y en otras ocasiones, trabajábamos para detectar nuevos tipos de fraude.

La diferencia entre las funciones de Investigación y Producto es que la investigación es intrínsecamente más arriesgada, es decir, implica probar enfoques que pueden no funcionar. Además, el objetivo de la investigación generalmente es desarrollar nuevos productos o características que se implementarían en unos pocos meses, mientras que el trabajo del producto generalmente se implementará de inmediato.

El trabajo involucrado tanto en las funciones de Producto como de Investigación es muy técnico, requiere algoritmos fuertes y habilidades de programación.

3] Ventas y Bizdev
“¡Raj, tenemos una perspectiva que podría conducir a un acuerdo de $ 10 millones! ¿Puedes venir a esta llamada de ventas en 15 minutos y explicar todo esto del aprendizaje automático? ”- Correo electrónico del Jefe de Ventas

Esto es más típico de las startups más pequeñas que las grandes empresas con roles bien definidos. Como el único científico de datos en una startup, a menudo he tenido que atender llamadas de ventas para explicar aspectos de nuestra tecnología a clientes potenciales durante su proceso de debida diligencia. Como resultado, tuve que aprender a comunicarme con los clientes en un entorno comercial y desarrollar un gran aprecio por el proceso de ventas.

Como parte del desarrollo empresarial, a menudo recibía un conjunto de datos de un cliente potencial que tenía curiosidad sobre lo que el aprendizaje automático podía hacer por ellos. Esto significaba que yo (o alguien de mi equipo) tenía que tomar eso como un proyecto, analizar los datos, crear un prototipo y luego recibir una llamada de ventas para presentar los resultados al cliente junto con el equipo de ventas o bizdev .

4] Comercialización
El aspecto de marketing del trabajo de un científico de datos puede ser realmente divertido. A menudo se me pedía que escribiera o contribuyera a publicaciones de blog y artículos sobre varios ataques de fraude que estaban en progreso, o sobre nuevos desarrollos en nuestra tecnología. A veces, tenía que ejecutar análisis para agregar datos y gráficos a nuestros libros blancos. En otras ocasiones, me entrevistaba o respondía a preguntas de periodistas sobre temas específicos en fraude, seguridad o ciencia de datos que necesitaban aportes de expertos. Siempre es divertido verte citado como un experto

Con suerte, lo que está sacando de esta publicación es que el trabajo de un científico de datos es extremadamente interfuncional, trabajando con varios equipos y personas en una empresa. Esto significa que además de tener habilidades técnicas sólidas tanto en algoritmos como en programación, debe tener serias habilidades de comunicación y personas. Esto es exactamente lo que hace que la ciencia de datos sea tan difícil y tan valiosa.

¿Le emociona trabajar en la intersección de producto, ingeniería y negocios? Los cursos de ciencias de datos de Springboard están diseñados para ayudarlo a hacer la transición a una carrera de ciencias de datos.


Raj Bandyopadhyay es el Director de Educación de Ciencia de Datos en Springboard . Es responsable de crear y mantener el plan de estudios de ciencias de datos de Springboard y también proporciona apoyo profesional específico para ciencias de datos para los estudiantes. Antes de esto, trabajó como científico de datos durante varios años, principalmente en el sector de ciberseguridad. Tiene una maestría / doctorado en informática de la Universidad de Rice y una licenciatura en informática de IIT Bombay.

En general, los científicos de datos deberían ser los siguientes para ser contratados.

¡Un científico de datos debería ser un buen programador!


Según la definición, los científicos de datos trabajan con datos. Esto implica muchas actividades, como el muestreo y el preprocesamiento de datos, la estimación del modelo y el posprocesamiento (por ejemplo, análisis de sensibilidad, despliegue del modelo, prueba posterior, validación del modelo). Aunque muchas herramientas de software fáciles de usar están en el mercado hoy en día para automatizar esto, cada ejercicio analítico requiere pasos personalizados para abordar las especificidades de un problema comercial en particular. Para realizar con éxito estos pasos, la programación debe hacerse. Por lo tanto, un buen científico de datos debe poseer habilidades de programación sólidas, por ejemplo, R, Python, SAS … El lenguaje de programación en sí no es tan importante como tal, siempre y cuando esté familiarizado con los conceptos básicos de programación y sepa cómo usarlos. para automatizar tareas repetitivas o realizar rutinas específicas.

¡Un científico de datos debe tener habilidades cuantitativas sólidas!


Obviamente, un científico de datos debe tener una amplia experiencia en estadísticas, aprendizaje automático y / o minería de datos. La distinción entre estas diversas disciplinas se está volviendo cada vez más borrosa y en realidad no es tan relevante. Todos proporcionan un conjunto de técnicas cuantitativas para analizar datos y encontrar patrones relevantes para el negocio dentro de un contexto particular (por ejemplo, gestión de riesgos, detección de fraudes, análisis de marketing …). El científico de datos debe saber qué técnica se puede aplicar cuándo y cómo. Él / ella no debe enfocarse demasiado en los detalles matemáticos subyacentes (por ejemplo, optimización), sino que debe comprender bien qué problema analítico resuelve una técnica y cómo deben interpretarse sus resultados. En este sentido, la capacitación de ingenieros en ciencias de la computación e ingeniería empresarial / industrial debe apuntar a una visión integrada y multidisciplinaria, con graduados recientes formados tanto en el uso de las técnicas como en la perspicacia comercial necesaria para llevar a buen término nuevos esfuerzos.

También es importante en este contexto pasar suficiente tiempo validando los resultados analíticos obtenidos para evitar situaciones a menudo denominadas masaje de datos y / o tortura de datos por los cuales los datos se tergiversan (intencionalmente) y / o se dedica demasiado tiempo a discutir correlaciones espurias. Al seleccionar la técnica cuantitativa óptima, el científico de datos debe tener en cuenta las especificidades del problema empresarial. Los requisitos típicos para los modelos analíticos son: capacidad de acción (¿en qué medida el modelo analítico está resolviendo el problema comercial?), Desempeño (¿cuál es el desempeño estadístico del modelo analítico?), Capacidad de interpretación (¿se puede explicar fácilmente el modelo analítico? para los tomadores de decisiones?), eficiencia operativa (¿cuánto esfuerzo se necesita para configurar, evaluar y monitorear el modelo analítico?), cumplimiento normativo (¿está el modelo en línea con la regulación?) y costo económico (¿cuál es el costo de la instalación, ejecutando y manteniendo el modelo?). Sobre la base de una combinación de estos requisitos, el científico de datos debe ser capaz de seleccionar la mejor técnica analítica para resolver el problema comercial.

¡Un científico de datos debe sobresalir en habilidades de comunicación y visualización!

Nos guste o no, pero la analítica es un ejercicio técnico. En este momento, existe una gran brecha entre los modelos analíticos y los usuarios comerciales. Para cerrar esta brecha, la comunicación y

¡Las instalaciones de visualización son clave! Por lo tanto, un científico de datos debe saber cómo representar modelos analíticos y sus estadísticas e informes que lo acompañan de manera fácil de usar, por ejemplo, utilizando enfoques de semáforos, instalaciones OLAP (procesamiento analítico en línea), reglas de negocio si … entonces … ser capaz de comunicar la cantidad correcta de información sin perderse en detalles complejos (por ejemplo, estadísticos) que inhibirán el despliegue exitoso de un modelo. Al hacerlo, los usuarios comerciales comprenderán mejor las características y el comportamiento de sus datos (grandes), lo que mejorará su actitud y aceptación de los modelos analíticos resultantes. Las instituciones educativas deben aprender a equilibrar, ya que se sabe que muchos títulos académicos preparan a los estudiantes que están sesgados a tener demasiado conocimiento analítico o demasiado práctico.

¡Un científico de datos debe tener una sólida comprensión empresarial!


Si bien esto puede ser obvio, hemos sido testigos (también) de muchos proyectos de ciencia de datos que fallaron ya que el analista respectivo no entendió el problema comercial en cuestión. Por “negocio” nos referimos al área de aplicación respectiva, que podría ser, por ejemplo, predicción de abandono o calificación crediticia en un contexto comercial real o astronomía o medicina si los datos respectivos a analizar provienen de dichas áreas.

¡Un científico de datos debe ser creativo!


Un científico de datos necesita creatividad en al menos dos niveles. Primero, a nivel técnico, es importante ser creativo con respecto a la selección de características, la transformación de datos y la limpieza. Estos pasos del proceso de descubrimiento de conocimiento estándar tienen que adaptarse a cada aplicación en particular y, a menudo, la “suposición correcta” podría marcar una gran diferencia. En segundo lugar, el big data y el análisis es un campo en rápida evolución. Nuevos problemas, tecnologías y desafíos correspondientes aparecen de manera continua. Es importante que un científico de datos se mantenga al día con estas nuevas tecnologías y tenga suficiente creatividad para ver cómo pueden crear nuevas oportunidades de negocio.

Conclusión:

Hemos proporcionado una breve descripción de las características que se deben buscar al contratar científicos de datos. Para resumir, dada la naturaleza multidisciplinaria de big data y análisis, un científico de datos debe poseer una combinación de habilidades: programación, modelado cuantitativo, comunicación y visualización, comprensión empresarial y creatividad. La siguiente figura muestra cómo representar dicho perfil.

Fuente: http://www.kdnuggets.com/2014/09/hiring-data-scientist-what-to-look-for.html

Trabajo para Vizzuality, una organización impulsada por la misión que emplea a tres científicos de datos, pero no soy uno de ellos. Cuando se unieron al equipo por primera vez, tuve que escribir los perfiles de su personal y dar la bienvenida a los blogs, y al hacerlo me di cuenta de que no tenía idea de lo que hace un científico de datos o cómo su papel se ajusta al proceso de desarrollo de visualizaciones de datos, mapas y otros datos. basadas en aplicaciones (que es en lo que se especializa mi organización). Entonces, decidí que la mejor manera de aprender era pasar un día con uno de mis compañeros de equipo y pensé en compartir mi experiencia en Quora, ya que era uno de los lugares a los que iba cuando quería averiguarlo. lo que hacen los científicos de datos.

Presentando a Benjamin.

Benjamin se unió a nuestro equipo como científico de datos en enero de 2017 después de pasar muchos años como investigador en proyectos destinados a comprender mejor el clima de la Tierra. Cuando hablo con él, está claro que le encanta hablar de ciencia y que tiene una habilidad especial para explicarle cosas, dos cualidades que llegué a ver son importantes para un científico de datos. Déjame explicarte por qué al echarle un vistazo a su día.

Análisis de los datos.

Benjamin suele estar en la oficina a las 8:30 a.m., y después de compartir una actualización de su trabajo con el resto del equipo a través de Slack, se sumerge en algunas tareas de análisis de datos. Por ejemplo, hoy está explorando un conjunto de datos con Jupyter Notebook y Python; y está pensando qué tipo de visualizaciones estadísticas interactivas permitirían a las personas ver los datos sin revelar ningún detalle lo suficientemente específico como para identificar a una persona individual. Dado que el conjunto de datos contiene información confidencial, Benjamin también está considerando dónde podrían almacenarse los datos de manera segura y cómo se podrían realizar consultas sin exponer la base de datos. En una fecha posterior, discutirá las opciones con el cliente para ver cuál prefiere.

Resolución de problemas

A media mañana, Benjamin recibe una solicitud urgente para ayudar a resolver un problema lo antes posible. Nuestros desarrolladores necesitan una forma de extraer información de ubicación y hora de píxeles en un mapa web personalizado. El mapa web es parte de una aplicación que ayudará a las personas a monitorear los bosques. Si somos capaces de extraer coordenadas precisas de longitud y latitud de un píxel que indica dónde pudo haber ocurrido la deforestación, será mucho más fácil para las personas investigarlo en la vida real. Benjamin y Alicia, otro miembro de nuestro equipo de ciencia de datos, se propusieron crear un ejemplo de canalización de software para extraer la información. Les lleva un poco de tiempo, por lo que se detienen a la hora del almuerzo para repostar.

Unas horas después del almuerzo, Benjamin y Alicia llegan a una solución que creen que funcionará. Lo prueban y se sienten satisfechos con él, formalizan las notas que han estado escribiendo en un Jupyter Notebook y lo envían a Github para que cualquiera pueda verlo y replicarlo. El siguiente paso fue revisar la solución con Álvaro, uno de los desarrolladores que trabajan en la aplicación, para asegurarse de que se pueda integrar en la aplicación sin ningún problema. Aunque funcionó, los desarrolladores decidieron optar por una solución diferente que extraería la información en una etapa anterior. Sin embargo, este tiempo y esfuerzo no se desperdiciarán, ya que la solución podría ser adecuada para otro proyecto en el futuro. Entonces, por ahora, se guarda en nuestra carpeta ‘tutoriales’.

El intercambio de conocimientos.

La última cita del día de Benjamin fue con Ariadna, uno de nuestros diseñadores. Juntos están diseñando una página web que tiene como objetivo comunicar ciencia climática compleja a una audiencia que probablemente no ha estudiado ciencias desde la escuela secundaria. Ariadna es un ejemplo perfecto del público objetivo; ella se preocupa por el cambio climático pero no sabe mucho sobre la ciencia detrás de esto. Al combinar el conocimiento climático de Ben y las habilidades de diseño de Ariadna, esperan crear algo accesible, fácil de usar y lleno de hechos y cifras que ayuden a las personas a comprender el papel del carbono en el cambio climático.

Esta tarde, Benjamin está enseñando a Ariadna sobre el ciclo del carbono, explicando conceptos como el movimiento del carbono entre la atmósfera y la biosfera. Le pregunté a Ariadna qué cosa le sobresalió durante la conversación que tuvo con Benjamin y ella dijo: “Estoy aprendiendo muchas cosas que no sabía antes. Una de las cosas más sorprendentes que he descubierto con él es cuánto varía el almacenamiento de carbono entre las estaciones y cómo hay personas que realmente pueden calcular la cantidad de carbono en la Tierra mirando los puntos oscuros en la luna o las estrellas. ”

Datos y diseño.

Al darme cuenta de que había más en esta lección que solo enseñarle a un colega cómo funciona el ciclo del carbono, le pregunté a Benjamin su perspectiva sobre por qué los científicos de datos trabajan con diseñadores. Explicó que usar las visualizaciones incorrectas podría ser engañoso. Ariadna podría crear el diseño más hermoso que jamás hayas visto, pero si no transmite los hechos, o si los estira, no tiene sentido. Los científicos y diseñadores de datos tienen que trabajar juntos para garantizar que los datos lideren el diseño y que se comuniquen de una manera que no sea confusa o abrumadora para el usuario. Si un diseñador comprende los detalles y el contexto de los datos para los que está diseñando, es más probable que el diseño logre sus objetivos.

Resumen.

A las cinco y media de la tarde, Benjamin concluyó sus tareas del día y se dirige a casa. Mi día de aprendizaje de él me ha hecho darme cuenta de que un científico de datos hace mucho más que simplemente revisar y analizar datos. Pasan mucho tiempo escuchando y hablando con la gente:

  • con clientes para comprender su dominio y espacio de problemas, para asegurarse de obtener el producto que realmente desean;
  • con diseñadores para crear visualizaciones que equilibren mejor la estética con la precisión científica;
  • y con los desarrolladores para garantizar que los datos finalmente requeridos estén empaquetados de manera óptima y listos para usar.

En un papel que abarca al maestro, el asesor y el solucionador de problemas, un científico de datos debe ser excelente para comunicarse y apasionado por su tema. ¡Después de lo que escuché hoy, diría que Benjamin encaja perfectamente con esa descripción y definitivamente cambió mis ideas preconcebidas sobre lo que hacen los científicos de datos todo el día!

“Data Scientist” es un neologismo para un estadístico que tiene conocimientos de informática. Pero la alfabetización informática en este caso es la familiaridad con las nuevas tecnologías que son clave para algunos nuevos modelos de negocios que han surgido en los últimos cinco años. Hay muy poco o nada en esta disciplina que los profesionales de Business Intelligence no entiendan bien, una disciplina que tiene entre 20 y 30 años, dependiendo de a quién le pregunte. (Y nada en Business Intelligence que no sea bien entendido por los profesionales de la Investigación de Operaciones que se remonta a la Segunda Guerra Mundial).

Aquí está mi resumen general de Business Intelligence:
Los cuatro pilares de la inteligencia empresarial (con más claridad sobre la descripción general)

Los cuatro pilares
Hay cuatro áreas de especialización para un profesional de BI.

  • Interfaz
  • Back End
  • Gobernancia
  • Inferencia

El back end – Arquitectura y proceso
El trabajo de back-end se trata principalmente de gestión de datos y modelado de datos. Hay dos tipos principales de herramientas que uno usa en el back-end. El primero es una herramienta ETL. El segundo es una base de datos. ETL significa extraer, transformar y cargar. Es una herramienta o un conjunto de tecnologías utilizadas para identificar fuentes de datos, recopilarlas, traducirlas a un formato estándar y cargarlas en una base de datos. Una base de datos es una herramienta que tiene un almacén de datos y le da una estructura particular para que pueda consultarse en parte o en su totalidad. La base de datos hace que los datos estén “en vivo”. La forma en que se almacenan los datos en la base de datos se denomina modelo. La tarea más importante que puede tener un profesional de BI es diseñar un modelo de datos adecuado, porque esto determina la facilidad y la velocidad con la que los datos estarán accesibles durante muchos años. Cuando los datos almacenados en una base de datos no están disponibles de manera fácil o fácil, lo llamamos ‘cárcel de datos’. Todos los datos que no tienen ningún propósito para los humanos, relativamente hablando en una cárcel de datos. El trabajo de un profesional de BI es liberar datos de esa cárcel para que puedan formar parte de una sociedad productiva.

The Front End – Visualización y experiencia del usuario
El trabajo de front end se trata de presentación. Es la disposición y visualización de los datos para el usuario final de una manera convincente y accesible para que el significado de los datos se pueda comunicar fácilmente. Un diseñador front-end es responsable de la experiencia del usuario al navegar e interpretar los datos. Hay una gran cantidad de herramientas gráficas que se utilizan en las interfaces. Generalmente son tablas y gráficos. Pero también son alertas. Pueden ser texto, gráficos, sonidos y multimedia. Se pueden presentar en línea a través de computadoras de escritorio y dispositivos móviles o sin conexión a informes impresos. Se pueden entregar de forma interactiva o de acuerdo con los horarios. El diseñador front end debe conocer a su audiencia y asegurarse de que los usuarios no se confundan ni se sientan frustrados al acceder a los datos. La presentación de datos debe ser precisa y nítida y fomentar el consumo habitual.

Gobierno – Seguridad y ciclo de vida
El trabajo de gobernanza se trata del metaproceso de la entrega de inteligencia empresarial. Comienza con la gestión de metadatos considerando la procedencia y la seguridad de los datos durante la vida útil de la aplicación. ¿Quién está autorizado para usar estos datos? ¿Quién está autorizado para cambiar estos datos? ¿Cuáles son las fuentes alternativas de datos y cómo se concilian? ¿Cuánto tiempo estarán en vivo los datos, cuándo y dónde se archivarán? ¿Cuándo y cómo debe ser destruido? ¿Qué pasa cuando algo cambia? La gobernanza también puede incluir la resolución de preguntas sobre el costo de mantener la aplicación y el alcance de las tecnologías utilizadas para entregarla con respecto a las actualizaciones y desaprobaciones.

Inferencia – Estadísticas y prácticas
Inferencia es el término que uso para describir ‘ciencia de datos’. Este es un nuevo aspecto de Business Intelligence que gestiona los aspectos interpretativos de los datos en sí. Es necesario porque la escala de los conjuntos de datos de la aplicación de BI ha crecido exponencialmente. Por lo tanto, se debe tener especial cuidado cuando se realizan imputaciones y métricas compuestas complejas sobre estos conjuntos grandes. Para ciertas métricas, la interpretación directa es sencilla. Cuantos carros “159”. Para otros, se debe tener más cuidado. ¿Cuánto le gusta a la gente esos autos? “3.5”. Un profesional de BI en esta especialización asegura que los datos se toman tan en serio como sea posible, y ayuda a equilibrar los instintos y la comprensión de los tomadores de decisiones frente a lo que dice el sistema informático. Deben comprender los objetivos comerciales y la aplicación del análisis estadístico a la administración. Siempre deben establecer la clara distinción entre el mapa y el territorio.

Todas estas áreas de especialización deben participar para una integración holística de un sistema de BI en un proceso de negocio de mejora continua de la calidad.

El “científico de datos” es un poco un mito, en mi opinión. No quiere decir que no estén disponibles, pero son mucho más raros de lo que se entiende popularmente y son más una excepción que una regla. Lo comparo con el título de “Web Master” de la burbuja de las puntocom: estas supuestas personas que podrían hacer programación completa, desarrollo front-end, marketing, todo. Todos esos roles / habilidades siempre fueron especializados y siguen siéndolo hoy. Se supone que los “científicos de datos” son arquitectos de bases de datos, entienden la informática distribuida, tienen un profundo conocimiento de las estadísticas Y alguna área de negocio o experiencia en el campo. Eso es mucho pedir cuando cualquiera de esos conjuntos de habilidades puede tomar una carrera para construir.

Los científicos de datos con los que he trabajado suelen tener un doctorado en inteligencia artificial o aprendizaje automático y son comunicadores efectivos, lo que les da la capacidad de dirigir a los analistas, personas de DevOps, programadores y DBA a su disposición para resolver problemas con soluciones basadas en datos. Esbozan la solución deseada y dejan que sus equipos completen los vacíos.

Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico ”.

En cualquier día, se puede requerir que un científico de datos:

  • Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria
  • Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.
  • Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.
  • Limpie y pode a fondo los datos para descartar información irrelevante
  • Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.
  • Diseñe soluciones basadas en datos para los desafíos más apremiantes.
  • Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.
  • Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos
  • Recomendar cambios rentables a los procedimientos y estrategias existentes.

In Analyzing The Analyzers: un estudio introspectivo de científicos de datos y su trabajo (libro electrónico gratuito, requiere registro, resumen
aquí), Harlan D. Harris y sus coautores describen cuatro tipos de científicos de datos:

  • Empresarios de datos : enfocados en productos y ganancias;
  • Piratas informáticos : centrados en la piratería, visualización y herramientas de código abierto;
  • Desarrolladores de datos : se centró en escribir software para realizar tareas analíticas, estadísticas y de aprendizaje automático, a menudo en entornos de producción;
  • Investigadores de datos : apliquen su capacitación científica y las herramientas y técnicas que aprendieron en la academia a los datos de la organización.

Una personalidad de científico de datos “típica” es una mezcla de los cuatro tipos.
Los autores recomiendan habilidades “en forma de T”: tener un poco de comprensión en los cuatro tipos y una formación más profunda en uno o dos tipos.

La base de datos es estadística y matemática. Los datos tienen que ver con números y si procesas un título en matemáticas o estadística, la mitad de tu trabajo ya está hecho. Los estudiantes universitarios que están dispuestos a tomar grandes datos como profesión deben construir una base de su carrera con algo relacionado con la ingeniería, las estadísticas y las matemáticas. La certificación es imprescindible no solo para los nuevos candidatos sino también para los profesionales experimentados

Agregue su conjunto de habilidades con una herramienta aritmética de la siguiente manera y será seleccionado en estas categorías.

  • SAS
  • Stata
  • Matlab
  • R
  • SPSS

La certificación es imprescindible no solo para los nuevos candidatos sino también para los profesionales experimentados

La certificación es un elemento de impulso en su currículum. Si posee una certificación de las habilidades necesarias para ingresar a esta plataforma de big data, su currículum se incluirá fácilmente en la categoría preseleccionada. Incluso las personas que ya están trabajando en el dominio de big data deberían realizar cursos de certificación. Esto se debe a que la tecnología sigue actualizándose todos los días con nuevas características y para mantenerse en los trabajos mejor posicionados, también necesita actualizar sus habilidades con frecuencia. Por lo tanto, junto con los nuevos aspirantes, incluso las personas con experiencia deben continuar con las actividades de certificación. Junto con la continuación de los trabajos, no es una tarea fácil para las profesiones continuar las clases junto con los trabajos. La solución a este problema es asistir a clases en línea. Hoy en día hay cientos de empresas de aprendizaje electrónico que ofrecen cursos sobre todas las tecnologías en línea. Entonces, sentado en casa, de acuerdo con su flexibilidad, puede aprender las habilidades actualizadas y obtener la certificación para abrir más ámbitos para su carrera. Siga preparando sus habilidades y su carrera siempre estará en el camino correcto.

Creo que esto depende de la compañía. Mi trabajo involucra:

  • Diseñando, ejecutando y reportando experimentos
  • Definición de conjuntos de datos y canalizaciones de datos
  • Hacer un montón de análisis de datos (es decir, obtener, limpiar, explorar, modelar, interpretar y reportar datos)

Como líder, también hablo con mucha gente y defino (o ayudo a definir) muchas cosas como eventos, API, bases de datos, paneles, métricas, KPI, etc.

En cuanto a lo que estudio, depende mucho de las necesidades de la empresa. Tengo un puñado de proyectos que me señalan en varias direcciones. Durante este proceso, he estudiado y leído artículos sobre:

  • Estadística y aprendizaje automático (no debería ser sorprendente, supongo)
  • Gestión de proyectos para proyectos de datos.
  • Todo tipo de tecnología no automatizada, no del lado del servidor
  • Cosas de economía conductual, cognitiva y toma de decisiones

¡Siempre estoy aprendiendo algo nuevo! ¡Es una de las ventajas geniales de mi trabajo! 🙂

Un científico de AD es alguien que sabe cómo extraer significado e interpretar datos, lo que requiere herramientas y métodos de las estadísticas y el aprendizaje automático, además de ser humano. Pasan mucho tiempo en el proceso de recopilación, limpieza y munging. datos, porque los datos nunca están limpios. Este proceso requiere persistencia, estadísticas y habilidades de ingeniería de software, habilidades que también son necesarias para comprender los sesgos en los datos y para depurar la salida de registro del código.

Una vez que ponen los datos en forma, una parte crucial es el análisis exploratorio de datos, que combina la visualización y el sentido de los datos. encuentran patrones, construyen modelos y algoritmos, algunos con la intención de comprender el uso del producto y la salud general del producto, y otros para servir como prototipos que finalmente se incorporan al producto. pueden diseñar experimentos, y son una parte fundamental de la toma de decisiones basada en datos. Se comunican con los miembros del equipo, ingenieros y liderazgo en un lenguaje claro y con visualizaciones de datos para que, incluso si sus colegas no están inmersos en los datos, entenderá las implicaciones.

Las tareas específicas incluyen:

· Identificar los problemas de análisis de datos que ofrecen las mayores oportunidades para la organización.

· Determinar los conjuntos de datos y variables correctos

· Recopilación de grandes conjuntos de datos estructurados y no estructurados de fuentes dispares.

· Limpiar y validar los datos para garantizar la precisión, integridad y uniformidad.

· Diseñar y aplicar modelos y algoritmos para extraer las tiendas de big data.

· Análisis de los datos para identificar patrones y tendencias.

· Interpretar los datos para descubrir soluciones y oportunidades.

· Comunicar los resultados a las partes interesadas mediante la visualización y otros medios.

Una vez que ponen los datos en forma, una parte crucial es el análisis exploratorio de datos, que combina la visualización y el sentido de los datos. encuentran patrones, construyen modelos y algoritmos, algunos con la intención de comprender el uso del producto y la salud general del producto, y otros para servir como prototipos que finalmente se incorporan al producto. pueden diseñar experimentos, y son una parte crítica de la toma de decisiones basada en datos. Se comunican con los miembros del equipo, los ingenieros y el liderazgo en un lenguaje claro y con visualizaciones de datos para que, incluso si sus colegas no están inmersos en los datos, entenderá las implicaciones.

La vida de un científico de datos –

Los científicos de datos son grandes expertos en datos. Toman una enorme cantidad de puntos de datos desordenados (no estructurados y estructurados) y usan sus formidables habilidades en matemáticas, estadísticas y programación para limpiarlos, masajearlos y organizarlos. Luego aplican todos sus poderes analíticos: conocimiento de la industria, comprensión contextual, escepticismo de los supuestos existentes, para descubrir soluciones ocultas a los desafíos comerciales.

Responsabilidades del científico de datos –

“Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”.

En cualquier día, se puede requerir que un científico de datos:

Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria

Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.

Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.

Limpie y pode a fondo los datos para descartar información irrelevante

Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.

Diseñe soluciones basadas en datos para los desafíos más apremiantes.

Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.

Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos

Recomendar cambios rentables en los procedimientos y estrategias existentes.

Cada empresa tendrá una visión diferente de las tareas laborales. Algunos tratan a sus científicos de datos como analistas de datos glorificados o combinan sus deberes con ingenieros de datos; otros necesitan expertos en análisis de alto nivel capacitados en aprendizaje automático intenso y visualizaciones de datos.

A medida que los científicos de datos alcanzan nuevos niveles de experiencia o cambian de trabajo, sus responsabilidades cambian invariablemente. Por ejemplo, una persona que trabaja sola en una empresa mediana puede pasar una buena parte del día en la limpieza de datos y munging. Se le puede pedir a un empleado de alto nivel en una empresa que ofrece servicios basados ​​en datos que estructurar proyectos de big data o crear nuevos productos.

Bien,
No sé si mi posición o mi respuesta serían de alguna utilidad aquí, pero aquí va
Trabajo como analista de datos junior (el cliente es una empresa farmacéutica), siendo específico para el análisis de mercado.

¿Un cliente nos daría un proyecto para trabajar sobre cómo sería el resultado de un medicamento aprobado en el mercado? .
Recopilamos, analizamos, concluimos y luego damos un resultado integral de un medicamento aprobado XYZ sobre dónde se ubicaría en el mercado y dónde estará en los próximos años, qué tan bien puede competir con sus contrapartes. La mayoría de estos objetivos venir bajo análisis predictivo.
Para obtener un resultado exacto o algo cercano a lo que hemos predicho, el requisito básico es “DATOS” y cuando decimos DATOS en realidad queremos decir un volcado de ellos.
Un mínimo de 10 años de datos que contiene estas clases específicas
1. Área de terapéutica *
2. Costo del medicamento.
3. Área de mercado considerada * – Investigación de mercado
Mi trabajo implica

Conversión de estos datos en bruto en informes gráficos o estadísticos utilizando “R” o “SAS”.
Luego envíelos al nivel superior para análisis / análisis predictivo y calculador

Hay muchos tipos diferentes de roles dentro de Data Science.

En tecnología, los científicos de datos pueden ser parte de la construcción del producto. Construyen todo, desde motores de recomendación, pilas de búsqueda, etc. que van directamente al producto que ven los usuarios finales.

Los científicos de datos en tecnología también pueden centrarse más en analizar los datos de uso y encontrar información dentro de este mar de datos para ayudar a la compañía a tomar decisiones de datos más informadas sobre su hoja de ruta del producto.

En finanzas, el Data Scientist (aunque generalmente no se llama Data Scientist en finanzas pero es esencialmente similar) puede analizar datos para ayudar a crear nuevas estrategias comerciales e incluso implementar estas nuevas estrategias comerciales.

No hay una definición clara todavía. Es un poco como un “webmaster” de tiempos pasados, una frase general que significa diferentes cosas dependiendo de a quién le pregunte, que en realidad son realizadas por diferentes grupos de personas, porque hacer todo el trabajo por un individuo probablemente sea imposible. Por lo tanto, tenga cuidado al solicitar dicho puesto (el gerente de contratación puede tener expectativas poco realistas) o las tareas reales pueden no cumplir con las suyas.

Solo piense en lo que se necesita para ejecutar un proyecto de ciencia de datos. La lista hace que parezca una progresión lineal, pero es bastante iterativa y debe pensar en cada etapa como un mini proyecto de ciencia de datos.

  • Identifique un problema comercial u oportunidad que pueda resolver con datos
  • vender el proyecto a los tomadores de decisiones para su aprobación / financiación / recursos
  • obtener la aceptación de otros departamentos que se verán afectados, en particular los equipos de TI
  • obtener los datos de la tubería de datos de producción, o construir la tubería de datos para obtener datos
  • procesar / limpiar / transformar datos para prepararlos para un análisis posterior
  • analizar los datos para obtener información
  • Cree y pruebe el número de modelos matemáticos para seleccionar el mejor modelo que resolverá el problema o aproveche la oportunidad que identificó
  • volver a las partes interesadas para presentar sus hallazgos, explicar su solución y obtener la aprobación para la implementación
  • implemente su solución en el entorno de producción
  • la canalización de datos debe incorporar la transformación de datos que su modelo necesita, de manera escalable
  • el modelo necesita ser re-implementado y validado en una plataforma requerida por el sistema de producción, que a menudo es diferente de la plataforma que usó para desarrollar el modelo matemático. También debe asegurarse de que el modelo se ajuste al nivel de producción en términos de experiencia del usuario final.
  • Monitoreo continuo para detectar la degradación del rendimiento del modelo, ya que las propiedades matemáticas de los nuevos datos pueden comenzar a desviarse de las horas extra de los datos originales.
  • Actualice el modelo cuando la desviación sea lo suficientemente significativa, lo que significa que debe pasar por casi todo el proceso nuevamente.

¿Puede hacerlo una sola persona?

La vida de un científico de datos

Los científicos de datos son grandes expertos en datos. Toman una enorme cantidad de puntos de datos desordenados (no estructurados y estructurados) y usan sus formidables habilidades en matemáticas, estadísticas y programación para limpiarlos, masajearlos y organizarlos. Luego aplican todos sus poderes analíticos: conocimiento de la industria, comprensión contextual, escepticismo de los supuestos existentes, para descubrir soluciones ocultas a los desafíos comerciales.

Responsabilidades del científico de datos

“Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”.

En cualquier día, se puede requerir que un científico de datos:

Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria

Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.

Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.

Limpie y pode a fondo los datos para descartar información irrelevante

Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.

Diseñe soluciones basadas en datos para los desafíos más apremiantes.

Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.

Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos

Recomendar cambios rentables en los procedimientos y estrategias existentes.

Cada empresa tendrá una visión diferente de las tareas laborales. Algunos tratan a sus científicos de datos como analistas de datos glorificados o combinan sus deberes con ingenieros de datos; otros necesitan expertos en análisis de alto nivel capacitados en aprendizaje automático intenso y visualizaciones de datos.

A medida que los científicos de datos alcanzan nuevos niveles de experiencia o cambian de trabajo, sus responsabilidades cambian invariablemente. Por ejemplo, una persona que trabaja sola en una empresa mediana puede pasar una buena parte del día en la limpieza de datos y munging. Se le puede pedir a un empleado de alto nivel en una empresa que ofrece servicios basados ​​en datos que estructurar proyectos de big data o crear nuevos productos.

Póngase en contacto con nosotros en [correo electrónico protegido] para obtener capacitación en Data scientist !!

Gracias por A2A.

He tenido la oportunidad de entrenar / trabajar con algunos de los científicos de datos en ciernes de varias compañías. Déjame compartir mi experiencia aquí:
En primer lugar, nadie (sí, nadie) realmente sabe cuál es la definición correcta de un científico de datos. Esto significa que las personas no están seguras de qué esperar de las sesiones de capacitación. Muy a menudo, cubro lo básico, que incluye modelado de solución de problemas, técnicas estadísticas básicas, recolección y limpieza de datos, algo de programación y herramientas. En esencia, se espera que un científico de datos trabaje en un dominio específico y convierta la información en conocimiento y use este conocimiento para obtener ideas para una mejor toma de decisiones. Los detalles del nivel esencial variarán de una organización a otra.

Un científico de datos representa una evolución desde el rol comercial o analista de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadísticas, análisis y matemáticas.

Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es curioso, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Limpie los datos (80%), ejecute algunos algoritmos en los datos (10%) y explique lo que significa a través de visualizaciones y debates a no expertos (10%).

Un científico de datos es realmente un científico que tiene acceso a más mediciones (datos) que nunca. Utilizan todas las herramientas a su disposición para verificar una hipótesis y descubrir verdades sobre la condición humana.

Un alquimista de datos convierte los números de coma flotante comunes en oro. Sí, se trata de utilizar el proceso científico para encontrar la verdad, pero realmente se trata de ganar dinero para nuestros clientes.

Es cierto que utilizamos herramientas desarrolladas en la comunidad científica para procesar, administrar y analizar grandes cantidades de datos. Utilizamos estadísticas para hacer y validar predicciones, matemática aplicada para modelar nuestros problemas, informática para computar nuestros modelos e ingeniería para construir los sistemas para aplicar todas estas cosas.

Otra razón por la que me gusta el término Alquimista es que en este momento gran parte de mi trabajo consiste en recopilar datos para luego utilizarlos como parte del análisis posterior. Es como crear nuevos metales o mezclarlos para crear amalgamas. Agrega más seguimiento a una aplicación o inserta la entrada del usuario en un flujo y, de repente, surge un nuevo conjunto de datos. No solo soy responsable de modelar el proceso que estamos tratando de mejorar, sino también de crear el sistema que implementa el proceso y luego medirlo.