¿Qué habilidades necesito para ser un científico de datos en Quora?

En general, los científicos de datos deberían ser los siguientes para ser contratados.

Esto no es solo para quora sino para todas las empresas.

¡Un científico de datos debería ser un buen programador!


Según la definición, los científicos de datos trabajan con datos. Esto implica muchas actividades, como el muestreo y el preprocesamiento de datos, la estimación del modelo y el posprocesamiento (por ejemplo, análisis de sensibilidad, despliegue del modelo, prueba posterior, validación del modelo). Aunque muchas herramientas de software fáciles de usar están en el mercado hoy en día para automatizar esto, cada ejercicio analítico requiere pasos personalizados para abordar las especificidades de un problema comercial en particular. Para realizar con éxito estos pasos, la programación debe hacerse. Por lo tanto, un buen científico de datos debe poseer habilidades de programación sólidas, por ejemplo, R, Python, SAS … El lenguaje de programación en sí no es tan importante como tal, siempre y cuando esté familiarizado con los conceptos básicos de programación y sepa cómo usarlos. para automatizar tareas repetitivas o realizar rutinas específicas.

¡Un científico de datos debe tener habilidades cuantitativas sólidas!


Obviamente, un científico de datos debe tener una amplia experiencia en estadísticas, aprendizaje automático y / o minería de datos. La distinción entre estas diversas disciplinas se está volviendo cada vez más borrosa y en realidad no es tan relevante. Todos proporcionan un conjunto de técnicas cuantitativas para analizar datos y encontrar patrones relevantes para el negocio dentro de un contexto particular (por ejemplo, gestión de riesgos, detección de fraudes, análisis de marketing …). El científico de datos debe saber qué técnica se puede aplicar cuándo y cómo. Él / ella no debe enfocarse demasiado en los detalles matemáticos subyacentes (por ejemplo, optimización), sino que debe comprender bien qué problema analítico resuelve una técnica y cómo deben interpretarse sus resultados. En este sentido, la capacitación de ingenieros en ciencias de la computación e ingeniería empresarial / industrial debe apuntar a una visión integrada y multidisciplinaria, con graduados recientes formados tanto en el uso de las técnicas como en la perspicacia comercial necesaria para llevar a buen término nuevos esfuerzos.

También es importante en este contexto pasar suficiente tiempo validando los resultados analíticos obtenidos para evitar situaciones a menudo denominadas masaje de datos y / o tortura de datos por los cuales los datos se tergiversan (intencionalmente) y / o se dedica demasiado tiempo a discutir correlaciones espurias. Al seleccionar la técnica cuantitativa óptima, el científico de datos debe tener en cuenta las especificidades del problema empresarial. Los requisitos típicos para los modelos analíticos son: capacidad de acción (¿en qué medida el modelo analítico está resolviendo el problema comercial?), Desempeño (¿cuál es el desempeño estadístico del modelo analítico?), Capacidad de interpretación (¿se puede explicar fácilmente el modelo analítico? para los tomadores de decisiones?), eficiencia operativa (¿cuánto esfuerzo se necesita para configurar, evaluar y monitorear el modelo analítico?), cumplimiento normativo (¿está el modelo en línea con la regulación?) y costo económico (¿cuál es el costo de la instalación, ejecutando y manteniendo el modelo?). Sobre la base de una combinación de estos requisitos, el científico de datos debe ser capaz de seleccionar la mejor técnica analítica para resolver el problema comercial.

¡Un científico de datos debe sobresalir en habilidades de comunicación y visualización!

Nos guste o no, pero la analítica es un ejercicio técnico. En este momento, existe una gran brecha entre los modelos analíticos y los usuarios comerciales. Para cerrar esta brecha, la comunicación y

¡Las instalaciones de visualización son clave! Por lo tanto, un científico de datos debe saber cómo representar modelos analíticos y sus estadísticas e informes que lo acompañan de manera fácil de usar, por ejemplo, utilizando enfoques de semáforos, instalaciones OLAP (procesamiento analítico en línea), reglas de negocio si … entonces … ser capaz de comunicar la cantidad correcta de información sin perderse en detalles complejos (por ejemplo, estadísticos) que inhibirán el despliegue exitoso de un modelo. Al hacerlo, los usuarios comerciales comprenderán mejor las características y el comportamiento de sus datos (grandes), lo que mejorará su actitud y aceptación de los modelos analíticos resultantes. Las instituciones educativas deben aprender a equilibrar, ya que se sabe que muchos títulos académicos preparan a los estudiantes que están sesgados a tener demasiado conocimiento analítico o demasiado práctico.

¡Un científico de datos debe tener una sólida comprensión empresarial!


Si bien esto puede ser obvio, hemos sido testigos (también) de muchos proyectos de ciencia de datos que fallaron ya que el analista respectivo no entendió el problema comercial en cuestión. Por “negocio” nos referimos al área de aplicación respectiva, que podría ser, por ejemplo, predicción de abandono o calificación crediticia en un contexto comercial real o astronomía o medicina si los datos respectivos a analizar provienen de dichas áreas.

¡Un científico de datos debe ser creativo!


Un científico de datos necesita creatividad en al menos dos niveles. Primero, a nivel técnico, es importante ser creativo con respecto a la selección de características, la transformación de datos y la limpieza. Estos pasos del proceso de descubrimiento de conocimiento estándar tienen que adaptarse a cada aplicación en particular y, a menudo, la “suposición correcta” podría marcar una gran diferencia. En segundo lugar, el big data y el análisis es un campo en rápida evolución. Nuevos problemas, tecnologías y desafíos correspondientes aparecen de manera continua. Es importante que un científico de datos se mantenga al día con estas nuevas tecnologías y tenga suficiente creatividad para ver cómo pueden crear nuevas oportunidades de negocio.

Conclusión:

Hemos proporcionado una breve descripción de las características que se deben buscar al contratar científicos de datos. Para resumir, dada la naturaleza multidisciplinaria de big data y análisis, un científico de datos debe poseer una combinación de habilidades: programación, modelado cuantitativo, comunicación y visualización, comprensión empresarial y creatividad. La siguiente figura muestra cómo representar dicho perfil.

Fuente-http: //www.kdnuggets.com/2014/09/hiring-data-scientist-what-to-look-for.html

Un científico de datos es mejor estadístico que cualquier ingeniero de software y mejor ingeniero en comparación con cualquier estadístico. Se dice que el científico de datos es el “trabajo más sexy del siglo XXI. Analicemos cómo convertirse en un científico de datos (¿Cuáles son las habilidades necesarias?)

1.¿Cuáles son los roles y las responsabilidades de los científicos de datos?

Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio. En otras palabras, los científicos de datos utilizan su conocimiento de estadísticas y modelos para convertir los datos en información práctica sobre todo, desde el desarrollo de productos hasta la retención de clientes y nuevas oportunidades de negocio.

Los científicos de datos deben tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

  1. Captura de datos y preprocesamiento
  2. Análisis de datos y reconocimiento de patrones
  3. Presentación y visualización

Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:

2. Herramientas para extracción de datos y preprocesamiento

a. SQL

Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

si. Tecnologías de Big Data

Esta es una habilidad imprescindible para todos los científicos de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo)

do. UNIX

Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

re. Pitón

Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

3. Herramientas para análisis de datos y coincidencia de patrones

Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

a. SAS

Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

si. R

R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos ya que la mayoría de las cosas se implementan en R.

do. Máquina inclinada

El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis avanzado, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están captando la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).

Aprende más habilidades aquí …

Nuestra página de empleos tiene una lista de cualidades que buscamos en los candidatos. Aquí hay más información sobre cómo funcionan estas interfaces con los datos en Quora y por qué son importantes:

  • BS, MS, Ph.D. en un campo científico o cuantitativo , una formación técnica formal suele ser muy útil. Tener una educación estadística rigurosa es deseable, junto con algunos antecedentes de cursos de programación y buenas habilidades matemáticas. Esto no significa que tenga que tener un título de CS o Stats: hemos tenido candidatos extremadamente competentes que provienen de otros orígenes, incluidas las ciencias sociales, y que recogieron sus habilidades en el camino.
  • Excelente intuición estadística y conocimiento de varios enfoques analíticos : esto es tan importante o quizás más que tener una formación formal en estadísticas. Tendemos a plantear preguntas en entrevistas que son informales y conformadas a través del contexto del producto, por lo que tener la capacidad de resolver muchos conjuntos de problemas difíciles podría no garantizar el éxito. Debe poder traducir su conocimiento estadístico en formas de examinar problemas reales, para poder identificar rápidamente dónde y cuándo puede confiar en que los efectos son causales, y si no, cuáles son las vías a través de las cuales sus datos pueden sufrir una selección , sesgo o correlación no causal. Específicamente, entender y ser creativos en torno al diseño de pruebas A / B es algo que buscamos.
  • Curiosidad y pasión por Quora : esto es cierto para la mayoría de los puestos aquí, pero ser un verdadero fanático y usuario activo de Quora es definitivamente apreciado. Trabajar en datos en torno a un producto matizado y multidimensional como Quora puede ser muy desafiante. Si no es un usuario real, o tiene una familiaridad casual con el producto, puede estar muy equivocado acerca de su análisis. Esto puede resultar en un trabajo más lento, resultados incompletos y una falta de independencia al tratar de resolver una pregunta. Conocer bien el producto cuando entra también le da a sus compañeros de trabajo más fe en su trabajo y habilidades, lo cual es muy importante para los analistas de datos.
  • Excelentes habilidades de comunicación y capacidad para explicar su análisis claramente : el análisis de datos es un producto para ingenieros, diseñadores y PM. En Quora estas personas están súper ocupadas. Les gusta consumir datos y confiar en ellos, pero esos datos deben venderse y presentarse de manera eficiente para que puedan encajar de manera óptima en el proceso de desarrollo del producto. Ser un comunicador claro y efectivo ayuda mucho con eso. Saber cómo confiar en gráficos, cuadros y otras visualizaciones para transmitir su punto es clave.
  • Familiaridad con Python o lenguaje de script similar : trabajamos principalmente en Python. Estar familiarizado con él o con un lenguaje similar no es un requisito firme, pero ayuda mucho. Saber programar en algún idioma es un requisito, excepto en circunstancias muy especiales. Las expectativas aquí serán más altas para las personas que han pasado mucho tiempo en un entorno tecnológico o científico.
  • Un verdadero deseo de aprender y mejorar usted mismo y el equipo que lo rodea : los rasgos más importantes para ser una persona de datos exitosa son ser curiosos y estar siempre dispuestos a aprender. Con un equipo pequeño y un producto profundo, necesita poder obtener constantemente nueva información y habilidades para tener éxito. Cada día trae nuevas tareas y preguntas que se espera que explore y complete principalmente de forma independiente. Tener antecedentes y una personalidad que sea compatible con el aprendizaje es algo que se necesita para convencernos de que puede hacer bien este trabajo.
  • La experiencia de trabajar con grandes conjuntos de datos y herramientas informáticas distribuidas (Hadoop, Hive) es una ventaja : trabajamos con datos bastante grandes. Principalmente trabajamos con Hive cuando lo tratamos, que es un entorno que es muy fácil de manejar si conoce SQL. Sin embargo, estamos constantemente tratando de mejorar nuestras capacidades de datos y tener una formación técnica y práctica con sistemas distribuidos puede ayudarlo a mejorar nuestros sistemas.

Para convertirse en un científico de datos, creo que primero debe entender qué es la ciencia de datos.

Anteriormente, casi tomó una década de investigación antes de que los científicos pudieran descifrar el ADN humano por primera vez. En el escenario actual, después de 13 años de progreso, se realiza el mismo trabajo en 24 horas.

¡Guauu!

Aquí es donde nos damos cuenta de que con el tiempo la tecnología también ha agudizado sus herramientas de procesamiento de datos. Ya no hay necesidad de darle una segunda suposición.

Entonces, ¿qué es realmente la ciencia de datos?

Ah, sí, es un término que solemos escuchar mucho en estos días, pero ¿sabes realmente lo que significa?

Bueno, en realidad es un arte de tomar grandes cantidades de datos y manipularlos para que tenga sentido de una forma u otra, generalmente ayudando a resolver respuestas y desafíos de una manera muy simple.

En resumen, los científicos son mitad piratas informáticos, mitad analistas, usan datos para crear productos y encontrar ideas y también es alguien que genera una hipótesis, recopila datos, analiza datos y luego comunica los resultados y toma medidas . Por lo tanto, debe ser muy bueno con las matemáticas, las estadísticas y muy bueno con la programación como R y Python.

¿Cuáles son las habilidades básicas que necesita para convertirse en un científico de datos?

  1. Aprende sobre programación
  1. Lenguaje R que se usa ampliamente entre estadísticos y mineros de datos para desarrollar software estadístico y análisis de datos.
  2. Python es un lenguaje de programación de alto nivel que es potente, rápido, amigable, abierto y fácil de aprender.
  • Matemáticas y Estadística
  • Dominar algoritmos y estructuras de datos
  • Modelado de datos para construir modelos predictivos
  • Visualización de datos
  • Por último, pero no menos importante, la comunicación: requiere mucho más esfuerzo explicar los tecnicismos a una persona no técnica, por lo tanto, la comunicación juega un papel importante. Sus datos no deberían ser tan atractivos como parecen, sino que deberían ser explicables a sus colegas.
  • ¿Cuáles son las ventajas de ser un científico de datos?

    1. Su trabajo es siempre de alta calidad.
    2. Excelente paquete salarial
    3. Su combinación de habilidades los hace sobresalientes
    4. Obtenga la oportunidad de trabajar con personas inteligentes
    5. Siempre tienen la oportunidad de marcar la diferencia.

    Muchas industrias específicas requieren una gran demanda de personas bien informadas en ciencia de datos. No es sorprendente que la arena más grande sea el sector de la tecnología con aproximadamente el 41% de la perspectiva de la fuerza laboral en demanda total.

    ¿Cómo adquieres estas habilidades y encuentras un trabajo de científico de datos?

    Mi respuesta simple es ” Aprender y prosperar “.

    ¿Dónde puedes obtener estas habilidades?

    Básicamente, cuanto más aprenda, más podrá hacer y mayor será su demanda a medida que aumente la cantidad de datos y más personas quieran utilizarlos.

    Con las tecnologías funcionando a gran velocidad, las personas se apresuran a aprender la última tecnología que está en tendencia en el mercado. ¿Y por qué no? Son uno de los trabajos más sexys del siglo.

    Nota: Udemy, Coursera, Udacity , Simplilearn y edWisor, etc. son recursos en línea que puede implicar para adquirir las habilidades para ser un científico de datos.

    Mientras que Udemy, Coursera, Udacity y Simplilearn le ofrecen un buen plan de estudios y buenas habilidades de aprendizaje, pero se enfoca principalmente en dar certificaciones y no asegurar el trabajo.

    Por otro lado, edWisor | Get Skilled Get Hired le ofrece aptitudes de aprendizaje de buena fe con proyectos para trabajar que le ayudarán a mejorar su conocimiento práctico. Además de una bonificación adicional una vez que haya completado la carrera profesional, obtendrá una garantía de empleo.

    La demanda de científicos de datos se elevará un 28% para 2020.

    Echa un vistazo para obtener más información aquí: http://www.edwisor.com

    Buena suerte y los mejores deseos en su viaje para convertirse en un científico de datos.

    ¡Aclamaciones!

    2017 es el año del científico de datos. Hoy en día, muchas empresas se están dando cuenta de la importancia de los datos y la experiencia posterior que los analistas de big data aportan. Si acaba de completar sus estudios y está confundido acerca de qué carrera desea seguir, entonces definitivamente puede explorar una carrera en Big Data Analytics . Si eres bueno analizando datos y puedes comunicar resultados de manera efectiva, entonces esta es la carrera adecuada para ti. Sin embargo, muchos analistas de Big Data o científicos de datos terminan trabajando en cuadros y gráficos en Excel o trabajan con Google Analytics y otro tipo de análisis de rutina.

    Para superar los trabajos de rutina y explorar su potencial como científico de datos maestros en 2017, estas son las 5 habilidades principales para que el Científico de datos desarrolle:

    1. Habilidades cuantitativas : Cuantitativas es la primera habilidad más en la lista de habilidades requeridas para el científico de datos. La primera y más importante habilidad requerida para convertirse en un excelente científico de big data en 2017 es una habilidad cuantitativa. Si eres alguien que ama las matemáticas, los problemas y encuentra las soluciones a los problemas, entonces has elegido la carrera correcta. Un científico de datos maestros posee excelentes calificaciones en Matemáticas / Estadística y experiencia en el manejo de datos cuantitativos. Sin embargo, si usted es alguien que se ejecuta con la sola mención de la palabra “Matemáticas”, entonces esta carrera no es para usted y es posible que desee explorar otras opciones.
    2. Habilidades analíticas : esta es una de las habilidades importantes para Data Scientist. La industria analítica es dinámica y evoluciona a un ritmo rápido. El conocimiento de más de una herramienta de interfaz gráfica de usuario (GUI) como Hadoop, Hive, Pig, R, SAS, etc. es absolutamente esencial para sobresalir en este campo. La mayoría de estas herramientas están disponibles gratuitamente en línea. Hoy en día, hay muchos programas de certificados disponibles que ofrecen capacitación para estas herramientas. Algunos de estos son programas en línea donde puede obtener fácilmente estas habilidades desde la comodidad de su hogar. Sin embargo, deberá seguir actualizando sus conocimientos a medida que surjan nuevas herramientas. El conocimiento de la minería de datos también será beneficioso.

    Para conocer más habilidades requeridas para científicos de datos , marque aquí

    Puede consultar el desglose de habilidades y otros atributos relevantes de datos [correo electrónico protegido] , aquí

    1) Intente tomar algunos de los programas matemáticos básicos que omitió. Geometría de línea recta, cálculo innovador, diferencia. Eq., Posibilidad, La investigación es lo más importante. Después de eso, tome algunos programas de Device Study. Estudie algunos de los principales libros de ML y manténgase al día con las publicaciones para tener una idea del área.

    2) Infórmese sobre lo que están haciendo las principales organizaciones de información. Después de 1 o 2 programas de aprendizaje automático, debe tener suficientes calificaciones para cumplir con la mayoría de los documentos educativos. Aplique algunos de estos métodos en información real.

    3) Si se trata de grandes conjuntos de datos, familiarícese con los métodos y recursos más nuevos (Hadoop, NoSQL, Ignite, etc.) colocándolos en ejercicio en su lugar de trabajo (o fuera del trabajo).

    Complete aquí: ¿Cómo puede convertirse en un buen científico de datos?

    Algunas habilidades que son vitales como científico de datos incluyen las siguientes:
    Aprendizaje automático
    Java
    Hadoop
    Minería de datos / Almacén de datos
    Análisis estadístico
    Pitón
    Análisis de los datos
    Modelado de datos
    Análisis de Big Data
    SQL
    R
    SAS

    Estos son aplicables no solo para Quora sino también para otros lugares de empleo.

    Referencia:
    Científico de datos, salario de TI

    More Interesting

    ¿Cuál es el mejor hardware de computadora para juegos y análisis de datos?

    ¿Cuál es la diferencia entre los datos espacio-temporales con otro tipo de datos?

    ¿Cuáles son las aplicaciones de la ciencia de datos en física?

    ¿Cuál es el mejor esquema de partición de disco para un Hadoop DataNode? ¿Es una pequeña partición RAID5 una mejor opción, o tal vez el sistema operativo debería coexistir en la primera partición DataNode, para evitar problemas de espacio en disco?

    ¿Hay compañías tecnológicas en el Área de la Bahía que patrocinarán a los estudiantes aceptados en los programas de Stanford MS?

    Estoy trabajando actualmente. Quiero convertirme en un científico de datos. ¿Cuáles fueron los conceptos y tecnologías centrales que necesito aprender?

    ¿Qué perspectivas tiene un candidato a doctorado (en ciencia de datos y salud) en consultoría de estrategia / gestión en Australia?

    Para alguien que esté interesado en la "Ciencia de datos", ¿sería más útil una clase sobre combinatoria o procesos estocásticos?

    Visualización de datos: ¿Existe una versión de "Cliffs Notes" de Grammar of Graphics?

    ¿Qué campo prefiere si reinicia su carrera ahora, Machine Learning, Data Science, Quant?

    Cómo realizar análisis de datos con una cantidad masiva de datos a nivel individual

    ¿Qué asignaturas optativas de Matemáticas / Estadísticas son las mejores para obtener una buena base para el análisis de datos en Australia?

    Si mi interés principal son las series temporales, ¿debería enfocar mi energía en aprender Python o R?

    Cómo realizar análisis de datos antes y después de desarrollar una aplicación

    ¿Cuál es el mejor curso fuera de línea para big data y data science en Navi Mumbai?