Cómo convertirse en un científico de datos

Estrictamente hablando, no existe la “ciencia de datos” (ver ¿Qué es la ciencia de datos?). Ver también: Vardi, Science tiene solo dos patas: http://portal.acm.org/ft_gateway…

Aquí hay algunos recursos que he recopilado sobre el trabajo con datos, espero que les sean útiles (nota: soy un estudiante universitario, esta no es una opinión experta de ninguna manera).

1) Aprenda sobre factorizaciones matriciales

  • Tome el curso de álgebra lineal computacional (a veces se llama álgebra lineal aplicada o computaciones matriciales o análisis numérico o análisis matricial y puede ser un curso de CS o matemática aplicada). Los algoritmos de descomposición matricial son fundamentales para muchas aplicaciones de minería de datos y generalmente están subrepresentados en un plan de estudios estándar de “aprendizaje automático”. Con TBs de datos, las herramientas tradicionales como Matlab dejan de ser adecuadas para el trabajo, no puede simplemente ejecutar eig () en Big Data. Los paquetes de computación matricial distribuida como los incluidos en Apache Mahout [1] están tratando de llenar este vacío, pero debe comprender cómo funcionan los algoritmos numéricos / rutinas LAPACK / BLAS [2] [3] [4] [5] para poder úselos adecuadamente, ajústelos para casos especiales, cree los suyos propios y escale hasta terabytes de datos en un grupo de máquinas de productos básicos. [6] Por lo general, los cursos numéricos se basan en álgebra y cálculo de pregrado, por lo que debe ser bueno con los requisitos previos. Recomendaría estos recursos para auto estudio / material de referencia:
  • Ver Jack Dongarra: Cursos y ¿Cuáles son algunos buenos recursos para aprender sobre análisis numérico?

2) Aprenda sobre computación distribuida

  • Es importante aprender cómo trabajar con un clúster de Linux y cómo diseñar algoritmos distribuidos escalables si desea trabajar con grandes datos (¿Por qué la obsesión actual con los grandes datos, cuando generalmente son más grandes los datos, se hace más difícil incluso? análisis básico y procesamiento?).
  • Crays y máquinas de conexión del pasado ahora se pueden reemplazar con granjas de instancias de nube baratas, los costos de computación se redujeron a menos de $ 1.80 / GFlop en 2011 frente a $ 15M en 1984: http://en.wikipedia.org/wiki/FLOPS .
  • Si desea aprovechar al máximo su hardware (alquilado), también se está volviendo cada vez más importante poder utilizar toda la potencia del multinúcleo (consulte http://en.wikipedia.org/wiki/Moo…)
  • Nota: este tema no forma parte de una pista estándar de Machine Learning, pero probablemente pueda encontrar cursos como Sistemas distribuidos o Programación paralela en su catálogo CS / EE. Vea los recursos informáticos distribuidos, un curso de sistemas en UIUC, trabajos clave y para empezar: Introducción a las redes informáticas.
  • Después de estudiar los conceptos básicos de las redes y los sistemas distribuidos, me enfocaría en las bases de datos distribuidas, que pronto se volverán omnipresentes con el diluvio de datos y alcanzarán los límites de la escala vertical. Vea trabajos clave, tendencias de investigación y para empezar: Introducción a las bases de datos relacionales e Introducción a las bases de datos distribuidas (HBase en acción).

3) Aprenda sobre análisis estadístico

  • Comience a aprender estadísticas codificando con R: ¿Cuáles son las referencias esenciales para R? y experimentar con datos del mundo real: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • Cosma Shalizi compiló algunos excelentes materiales sobre estadísticas computacionales, revisó sus diapositivas de conferencias y también ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
  • Descubrí que aprender estadísticas en un dominio particular (por ejemplo, procesamiento del lenguaje natural) es mucho más agradable que tomar Stats 101. Mi recomendación personal es el curso de Michael Collins en Columbia (también disponible en Coursera).
  • También puede elegir un campo donde el uso de estadísticas cuantitativas y principios de causalidad [7] es inevitable, por ejemplo, biología molecular [8], o un subcampo divertido como la investigación del cáncer [9], o incluso un dominio más estrecho, por ejemplo, análisis genético de angiogénesis tumoral [10] y trata de responder preguntas importantes en ese campo en particular, aprendiendo lo que necesitas en el proceso.

4) Aprenda sobre la optimización

  • Este tema es esencialmente un prerrequisito para comprender muchos algoritmos de aprendizaje automático y procesamiento de señales, además de ser importante por derecho propio.
  • Comience con las conferencias en video de Stephen P. Boyd y también ¿Cuáles son algunos buenos recursos para aprender sobre la optimización?

5) Aprenda sobre el aprendizaje automático

  • Antes de pensar en algoritmos, observe cuidadosamente los datos y seleccione las características que lo ayudan a filtrar la señal del ruido. Vea esta charla de Jeremy Howard: en Kaggle, es una desventaja saber demasiado
  • Consulte también ¿Cómo aprendo el aprendizaje automático? y ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?
  • Estadísticas vs aprendizaje automático, lucha !: http://brenocon.com/blog/2008/12…
  • Puede estructurar su programa de estudios de acuerdo con los catálogos de cursos en línea.
    y planes de estudio de MIT, Stanford u otras escuelas superiores. Experimentar con
    muchos datos, piratear algún código, hacer preguntas, hablar con buenas personas, configurar un rastreador web en su garaje: la anatomía de un motor de búsqueda
  • Puede unirse a una de estas nuevas empresas y aprender haciendo: ¿Qué nuevas empresas están contratando ingenieros con fortalezas en aprendizaje automático / PNL?
  • La opción alternativa (y bastante cara) es inscribirse en un CS
    programa / pista de Machine Learning si prefieres estudiar en un curso formal
    ajuste. Ver: ¿Qué hace que valga la pena un Máster en Informática (MS CS) y por qué?
  • Intenta evitar la sobreespecialización. El enfoque de amplitud a menudo funciona mejor cuando se aprende un nuevo campo y se enfrentan problemas difíciles, vea el Segundo viaje del HMS Beagle sobre las aventuras de un ingenioso joven minero de datos.

6) Aprenda sobre la recuperación de información

  • El aprendizaje automático no es tan genial como parece: http://teddziuba.com/2008/05/mac…
  • ¿Cuáles son algunos buenos recursos para comenzar el entrenamiento de Recuperación de información y por qué se prefieren estos sobre otros?

7) Aprenda sobre la detección y estimación de señales

  • Este es un tema clásico y “ciencia de datos” por excelencia en mi opinión.
    Algunos de estos métodos se utilizaron para guiar la misión Apolo o detectar
    submarinos enemigos y todavía están en uso activo en muchos campos. Esto es
    a menudo parte del plan de estudios de EE.
  • Buenas referencias son las diapositivas de la conferencia de Robert F. Stengel sobre control y estimación óptimos: Página de inicio de Rob Stengel, Señales y sistemas de Alan V. Oppenheim. y ¿Cuáles son algunos buenos recursos para aprender sobre la estimación y detección de señales? Un buen tema para enfocarse primero es el filtro de Kalman, ampliamente utilizado para el pronóstico de series temporales.
  • Hablando de datos, es probable que desee saber algo sobre la información: su transmisión, compresión y filtrado de la señal del ruido. Los métodos desarrollados por los ingenieros de comunicación en los años 60 (como el decodificador Viterbi, que ahora se usa en aproximadamente mil millones de teléfonos celulares, o la wavelet de Gabor ampliamente utilizada en el reconocimiento de Iris) son aplicables a una sorprendente variedad de tareas de análisis de datos, desde la traducción automática estadística hasta la comprensión de organización y función de redes moleculares. Un buen recurso para empezar es la teoría de la información y la comunicación confiable: Robert G. Gallager: 9780471290483: Amazon.com: Libros. Además, ¿cuáles son algunos buenos recursos para aprender sobre la teoría de la información?

8) algoritmos maestros y estructuras de datos

  • ¿Cuáles son los recursos más fáciles de aprender para aprender sobre algoritmos?

9) práctica

  • Ponerse en forma para el deporte de la ciencia de datos
  • Carpintería: http://software-carpentry.org/
  • ¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
  • Herramientas: ¿Cuáles son algunas de las mejores herramientas de análisis de datos?
  • ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Si decides ir a una maestría:

10) estudiar ingeniería

Iría por CS con un enfoque en IR o Machine Learning o una combinación de ambos y tomaría algunos cursos de sistemas en el camino. Como “científico de datos”, tendrá que escribir una tonelada de código y probablemente desarrollar algoritmos / sistemas distribuidos para procesar cantidades masivas de datos. La Maestría en Estadística le enseñará cómo hacer análisis de modelado y regresión, etc., no cómo construir sistemas, creo que esto último se necesita con más urgencia en estos días ya que las herramientas antiguas se vuelven obsoletas con la avalancha de datos. Hay una escasez de ingenieros que puedan construir un sistema de minería de datos desde cero. Puede recoger estadísticas de libros y experimentos con R (consulte el punto 3 anterior) o tomar algunas clases de estadísticas como parte de sus estudios de CS.

Buena suerte.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric…
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma…
[7] Amazon.com: Causalidad: modelos, razonamiento e inferencia (9780521895606): Judea Pearl: Libros
[8] Introducción a la biología, video conferencias MIT 7.012
[9] Hanahan y Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc
[10] La organización caótica de la vasculatura asociada a tumores, de The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Cuando comencé a leer sobre ciencia de datos en Internet, en ese momento solía usar solo C y Matlab. Era bastante competente en esto, pero cualquier cosa y todo lo que había hecho hasta ese momento era ingeniería informática. Estaba generando muchos datos, y estaba creando algunas parcelas. Cuando estaba rodeado de una enorme cantidad de datos, y comencé a ver a otros usar esos datos, comencé a buscar varios cursos y métodos para aprender diferentes cosas, y estaba confundido sobre dónde comenzar, qué aprender, etc. . Afortunadamente, casi siempre estaba rodeado de varias personas que estaban profundamente involucradas con la ciencia de datos.

Trabajo con personas que escriben programas C / C ++ que generan GB de datos, personas que administran TB de datos distribuidos en bases de datos gigantes, personas que son programadores de primer nivel en SQL, Python, R y personas que han configurado una base de datos de toda la organización para trabajar con Hadoop, Sap, Business Intelligence, etc.

Mi inspiración para todos y cada uno sería la siguiente:

  1. Aprenda todos los conceptos básicos de Coursera, pero si realmente tengo que comparar lo que obtendrá de Coursera en comparación con la inmensidad de la ciencia de datos, digamos ~ Coursera es tan bueno como comer un burrito en Chipotle Mexican Grill. Ciertamente puede saciarse, y tiene algunas cosas para comer allí.
  2. El camino hacia el valor agregado de la ciencia de datos es realmente bastante profundo, y lo considero equivalente a un buffet de cinco estrellas que ofrece 20 cocinas y unas 500 recetas diferentes.
  3. Coursera es ciertamente un buen punto de partida, y uno debería repasar estos cursos, pero personalmente nunca pagué dinero a Coursera, y podría aprender fácilmente una variedad de cosas poco a poco con el tiempo.
  4. Kaggle es un recurso realmente bueno para que los ingenieros en ciernes analicen las ideas de otras personas y se basen en ellas.

Mi propio aprendizaje provino de construir cosas. Comencé con SQL , luego aprendí Python, luego aprendí R, luego aprendí muchas bibliotecas en Python y R. Luego aprendí html, programación GUI decente usando script VB, programación C #. Entonces aprendí Scikit aprender. Finalmente hablé con varios estadísticos en mi lugar de trabajo cuyo trabajo diario es sacar conclusiones de los datos, y en el proceso aprendí el script JMP / JSL. Aprendí muchas estadísticas en el proceso.

Aquí hay una secuencia general de cómo progresé.

Lo primero que quiero inspirar a todos es aprender la “ciencia”. La ciencia de datos es 90% de ciencia y 10% de gestión de datos. Sin conocer la ciencia, y sin saber lo que quieres lograr y por qué quieres lograrlo, no podrás utilizar lo que aprendes en Coursera de ninguna manera. Casi puedo garantizarte eso.

He visto a mis amigos pasar por algunos de esos cursos, pero al final del día, no construyen nada, no sacan conclusiones correctas y realmente no “usan” nada de lo que aprenden. Más que eso, ni siquiera usan las habilidades que adquieren.

La forma en que todo esto me sucedió es la siguiente:

  1. Me sumergí profundamente en los datos, entendí su estructura, entendí sus tipos. Comprendí por qué incluso estábamos recopilando todos esos datos, cómo los recopilamos, cómo los almacenamos y cómo los procesamos antes de almacenarlos.
  2. Aprendí cómo se pueden manejar los datos con estos lenguajes de programación de manera efectiva. Aprendí a limpiar los datos, procesarlos tanto como quería y trazarlos con todas las formas posibles. Solo trazar los datos me llevó horas y horas ver cómo varios gráficos podían mostrar los datos de una manera en comparación con otra.
  3. Aprendí de mis amigos que administran bases de datos cómo lo hicieron y qué pasó en segundo plano. Aprendí las estructuras de las tablas de la base de datos.
  4. Luego aprendí cómo trazar algunas parcelas relevantes y calcular el retorno de la inversión para hacer cualquier cosa. Aquí es donde la ciencia de datos comenzó a unirse. No hay trama que no pueda trazar. Básicamente, cada trama que vi en Internet, aprendí a trazarla. Esto es extremadamente importante, y esto es lo que lo llevará a contar historias.
  5. Luego aprendí a automatizar las cosas, y esto es realmente sorprendente, porque podrías hacer algunas cosas automáticamente, lo que te ahorraría mucho tiempo.
  6. La automatización fue muy fácil con Python, R, VBscript, programación C #.
    Les puedo decir que, en términos generales, no hay nada que no esté automatizado para mí. Tengo un programa de computadora para cualquier cosa, y la mayoría de mis cosas se hacen con un clic de botón ~ O digamos, unos pocos clics.
  7. Entonces aprendí a escribir informes. Lo que aprendí es que tenía que enviar muchos datos y tramas a otros por correo. Y créeme, la gente no tiene tiempo ni interés. Pero si hace tramas coloridas, escriba un informe coherente que demuestre lo que quiere decir y empaque información enorme y poderosa en pocas tramas realmente coloridas, puede presentar un caso.
  8. Entonces aprendí a contar historias. Lo que esto simplemente significa es que debe poder decirle al vicepresidente de la compañía cuáles son los principales problemas de su división. Y de la forma en que debería poder derivar estas conclusiones es creando tramas atractivas que cuenten una historia. Sin esto, no serías capaz de convencer a nadie. La gente no está interesada en los números. Todo lo que recuerdan son nombres, lugares, cosas, inspiración y por qué alguien quiere hacer algo. Un verdadero científico de datos también es un verdadero presentador de los datos.
  9. Luego leí todos los blogs posibles en Internet para ver cómo otros hacían estas cosas. Cómo las personas escribían sus programas, cómo creaban varias tramas, cómo automatizaban las cosas, etc. También obtuve muchas ideas de cómo alguien usó sus habilidades para hacer un proyecto increíble. Esta es una manera realmente agradable de ver cómo otros imaginan. Luego, puedes tomar prestada su imaginación y construir cosas, y eventualmente a medida que las cosas te resulten más fáciles, comenzarás a imaginar las cosas tú mismo.

Solo eche un vistazo a la cantidad de blogs disponibles desde donde puede aprender muchas cosas.

La guía definitiva para blogs de ciencia de datos.

He revisado muchos de estos blogs y los he leído en profundidad. Esto llevó semanas de esfuerzos y múltiples sábados y domingos experimentando con datos y lenguajes de programación.

Mis sitios web más utilizados:

  1. Desbordamiento de pila
  2. Tutoriales de programación de Python
  3. La red completa de archivos R
  4. Seaborn: visualización de datos estadísticos
  5. Su hogar para la ciencia de datos
  6. 16+ libros gratuitos de ciencia de datos
  7. ipython / ipython
  8. vinta / awesome-python
  9. scikit-learn: aprendizaje automático en Python
  10. Grace: Galería
  1. Echa un vistazo a las parcelas increíbles aquí.
  • Programación práctica para principiantes totales
  • Aprende python de la manera difícil
  • Youtube. ¡Si! Simplemente escriba su pregunta aquí y debería obtener una respuesta.
  • Mundo sapo
  • Tutorial SQL
  • CodeAcademy: Python
  • http://mahout.apache.org/
  • http://www.netlib.org/lapack/
  • http://www.netlib.org/eispack/
  • http://www.netlib.org/scalapack/
  • RegExr: Aprenda, construya y pruebe RegExr
  • Regex para JavaScript, Python, PHP y PCRE
  • StatsModels: Estadísticas en Python: ¡Este es un asesino! Puedes hacer mucho con esto.
  • Instalación de NLTK – documentación de NLTK 3.0
  • Libros más leídos:

    1. Python de aprendizaje
    2. El arte de la programación en R El arte de la programación en R http://shop.oreilly.com/product/
    3. Realmente no creo que sea una persona de libros, pero me gusta leerlos de vez en cuando cuando estoy en el modo “No hay manera sino leer el manual”. He leído muchos libros de estadísticas y los actualizaré aquí.

    Ahora le daría un enfoque más integral, para que tenga mucha inspiración a la que aferrarse.

    ¿Cómo se ve el trabajo de un ingeniero típico y cómo puede ayudar la ciencia de datos en esas líneas?

    1. Toma de decisiones: en mi trabajo, tengo varias decisiones que tomar y varias acciones que tomar en un día. Además, tengo varias partes interesadas para actualizar, varias personas a las que orientar, varios conjuntos de datos para ver y varias herramientas y máquinas para manejar. Algunas de estas máquinas son máquinas físicas que fabrican cosas, y otras son simplemente programas de computadora y plataformas de software que crean configuraciones para estas máquinas.
    2. Datos: la mayoría de los datos que tenemos están en varios servidores que se distribuyen en varias unidades, o están en alguna unidad compartida, o en alguna unidad de disco duro disponible en un servidor.
    3. Bases de datos: estos servidores de bases de datos se pueden usar para obtener datos con SQL o extracción directa de datos, o tomándolos de alguna manera (por ejemplo, copiando por FTP), a veces incluso copiando manualmente y pegando en Excel, CSV o bloc de notas. Por lo general, tenemos varios métodos para extraer datos directamente de los servidores. Hay varias plataformas SQL como TOAD, Business Intelligence e incluso en plataformas integradas.
    1. SQL se puede aprender fácilmente usando estas plataformas, y uno puede crear muchos scripts SQL.
    2. Incluso puede crear guiones que puedan escribir guiones.
    3. Te inspiraría a aprender SQL, ya que es uno de los lenguajes más utilizados para obtener datos.
  • Datos nuevamente: los datos en estas bases de datos pueden estar altamente estructurados o algo desestructurados, como comentarios humanos, etc.
    1. Estos datos a menudo pueden tener un número fijo de variables o un número variable de variables.
    2. A veces también pueden faltar datos, y a veces se pueden ingresar incorrectamente en las bases de datos.
    1. Cada vez que se encuentra algo como esto, y se envía una respuesta inmediata a los administradores de bases de datos, y corrigen los errores si hay alguno en el sistema.
    2. Por lo general, antes de configurar un proyecto gigante completo de configuración de una base de datos, varias personas se unen y discuten cómo deberían verse los datos, cómo deberían distribuirse en varias tablas y cómo deberían conectarse las tablas.
    3. Estas personas son verdaderos científicos de datos, ya que saben lo que el usuario final querrá diariamente una y otra vez.
    4. Siempre intentan estructurar los datos tanto como sea posible, porque hace que sea muy fácil manejarlos.
  • Programación y programación: al utilizar varias secuencias de comandos programadas para ejecutarse en momentos específicos, o a veces configuradas para ejecutarse de manera ad hoc, obtengo y vuelco datos en varias carpetas en una computadora dedicada. Tengo un HDD bastante grande para almacenar muchos datos.
    1. Por lo general, agrego nuevos datos a los conjuntos de datos existentes y elimino los datos más antiguos de manera oportuna.
    2. A veces tengo programas que se ejecutan con comandos de suspensión, que en horarios programados simplemente comprueban algo rápidamente y vuelven a dormir.
  • Más secuencias de comandos: Además, hay varias secuencias de comandos que se configuran para procesar estos conjuntos de datos y crear un montón de decisiones a partir de ellos.
    1. La limpieza de datos, la creación de valiosas tablas dinámicas y gráficos es uno de los mayores retrasos de tiempo para cualquiera que intente obtener un valor de esto.
    2. Para lograr algo como esto, primero debe comprender sus datos de entrada y salida, y debe ser muy capaz de hacer todo tipo de cálculos manuales, generar hojas de Excel y visualizar datos.
    3. Ciencia: con lo que te inspiraría es que antes de que hagas ciencia de datos, hagas ciencia, aprendas la física detrás de tus datos y los entiendas dentro y fuera. Diga ~ Si trabaja en una industria de camisetas, debe conocer todos los aspectos de un cambio de camiseta, debe tener acceso a toda la información posible sobre camisetas, y debe saber muy bien lo que quieren los clientes y como, sin siquiera mirar ninguno de los datos.
    4. Sin comprender la ciencia, la ciencia de datos no tiene valor, y tratar de lograr algo con ella puede ser un esfuerzo infructuoso.
    5. Advertencias: he visto a muchas personas sin saber qué planear contra qué.
    1. Lo peor que he visto es que las personas trazan casi algunas variables aleatorias entre sí y sacan conclusiones de ellas.
    2. Es cierto que las correlaciones existen en muchas cosas, pero siempre debe saber si hay alguna causalidad.
    3. Ejemplo: existe una correlación significativa entre el número de premios Nobel y el consumo de chocolate per cápita de varios países; ¿Pero es una causalidad? ¡Tal vez no!

    1. Volver a los programas: por lo general, hay una secuencia en la que se ejecutan todos los scripts y se crean todo tipo de tablas y gráficos para ver.
    1. Algunas secuencias de comandos son secuenciales, mientras que algunos programas son simples ejecutables. Los ejecutables generalmente se escriben para la velocidad, y C, C ++, C # etc. se pueden usar para ellos.
    2. Los scripts se pueden escribir en Python, VB, etc.
  • Toma de decisiones: cuando se cumplen ciertas condiciones {If / Then}, más programas informáticos se disparan automáticamente y ejecutan más análisis de datos.
  • Ciencia de datos: esto generalmente se desarrolla en muchas estadísticas, clasificación, regresión.
    1. Aquí es donde entra el aprendizaje automático. Uno puede usar lenguajes de programación como Python o R para hacer esto.
    2. Basado en los resultados de los algoritmos de aprendizaje automático, se ejecutan más programas de computadora y se generan más tramas o se activan más programas.
  • Trazado: en última instancia, muchos trazados se almacenan de manera coherente para que los humanos tomen decisiones.
  • Informes autosostenibles: los informes son programas autoactivados y autosostenidos que me dicen qué hacer.
  • La sensación de ser ironman: generalmente miro los resultados de todos los informes en 10 minutos y tomo decisiones sobre qué hacer a continuación durante muchas horas. De vez en cuando miro los informes nuevamente para redefinir las decisiones o cambiarlas sobre la marcha si esto tiene que hacerse.
  • ¿Cuáles son las ventajas de hacer todo esto?

    1. En primer lugar, cuando una computadora hace algo, lo haría a una velocidad mucho más rápida que un humano.
    2. Una computadora lo hará incansablemente y sin cesar.
    3. Los programas de computadora necesitan una cantidad suficiente de capacitación y múltiples niveles de prueba para diferentes entradas, pero una vez que todo esté hecho, seguiría haciendo ese trabajo para siempre hasta que el espacio de muestra cambie o algo cambie drásticamente en la entrada.
    4. Al programarlo al nivel en que todo el resultado se configura en un tablero, es muy fácil ver cuál debe ser el orden de los proyectos.

    ¿Cómo creas ahora valor a partir de algo como esto?

    1. ¡Uno siempre debe estar detrás de la ciencia! y al conocer sus datos lo mejor posible, podrá ordenar la implementación de sus proyectos.
    2. La decisión que tomaría y las acciones que tomaría serían más difíciles, mejores, más rápidas y más fuertes.
    3. Sería capaz de sacar conclusiones y generar algunos proyectos lean sigma.
    4. Podrá actualizar a las partes interesadas con bastante anticipación y estar en la cima de sus proyectos.
    5. Podrías concentrarte solo en el aspecto científico en lugar de solo tratar de crear tramas manualmente.
    6. Podrá descubrir tendencias en sus datos más fácilmente y decir las cosas de una forma u otra si los datos le indican que tome decisiones a favor de una opción sobre otra.
    7. Por último, pero no menos importante, puede reducir significativamente los esfuerzos humanos y automatizar todas las cosas por usted.
    1. Incluso tengo scripts que me presionan o completan formularios.
    2. Tengo varios programas de análisis de imágenes que analizan imágenes y toman decisiones sobre la marcha sin que los humanos las miren.

    Espero que esta respuesta sea elaborada y te dé una idea de en qué puedes trabajar. Intentaré agregar a esto a medida que más se me ocurra.

    Por último, pero no menos importante: simplemente conociendo SQL, C, Python y R y VB dot Net, puedo decirte que puedes distorsionar algo de la realidad. No hay absolutamente ningún límite para esto. Solo que lleva tiempo, paciencia y construir sistemáticamente las cosas una tras otra.

    ¡Manténgase bendecido e inspírese!

    Si quieres lograr el éxito, sigue los cinco pasos que me han funcionado bien.

    El primer paso debe ser aprender lo básico. El mejor curso de aprendizaje automático hasta ahora es Machine Learning por Andrew Ng. Debería ser tu primer paso para completarlo. He tenido la costumbre de escuchar este curso durante el viaje a la sede de Microsoft durante mi pasantía.

    Después de eso, puedo recomendar un curso complementario Neural Networks de Geoffrey Hinton.

    Si ha terminado, proceda a aprender cursos de nivel intermedio .

    Esos han funcionado para mí cuando los vi con un grupo de amigos del Machine Learning Research Group, junto con la pizza obligatoria 🙂

    • Udacity Deep Learning
    • Tutorial de Tensorflow
    • Curso oficial de redes neuronales convolucionales de Stanford
    • Video curso de aprendizaje profundo de Nando de Freitas
    • Libro de aprendizaje profundo de Ian Goodfellow

    Después de eso, lea los últimos y más importantes documentos de nivel experto de conferencias y revistas.

    La mejor manera de hacerlo es participar en un grupo de estudio o lista de distribución en su empresa. He oído que Google, Microsoft y NVIDIA tienen buenos. Nosotros en Sigmoidal tenemos un canal dedicado de Slack para descubrir y estudiar trabajos recientes.

    • Conferencia internacional sobre aprendizaje automático
    • Descubrimiento de conocimiento y minería de datos
    • Sistemas de procesamiento de información neuronal
    • Aprendizaje automático
    • Journal of Machine Learning Research
    • Transacciones sobre conocimiento e ingeniería de datos
    • Revista de Investigación de Inteligencia Artificial

    Recopilando suficiente conocimiento, puede comenzar a convertirse en Practicante compitiendo en concursos en las plataformas Kaggle y TopCoder .

    He conocido a muchas personas compitiendo juntas en competencias y resolviendo problemas mundiales como cáncer de mama o sobrecalentamiento de la estación espacial internacional

    Varias personas que conocí durante el concurso están trabajando para mí ahora. 🙂 Es por eso que, después de tener éxito en los concursos, podrá asegurar fácilmente un trabajo de nivel de entrada, convirtiéndose en un científico de datos profesional

    Desde mi perspectiva, la “triple amenaza” de un buen científico de datos es:

    • conocimiento de programación
    • conocimiento estadístico
    • habilidades de comunicación

    Obviamente tienes la parte 1 bastante bien manejada. Probablemente debería considerar aprender un lenguaje de programación que sea más útil para el trabajo exploratorio de datos, como Python o R.

    También querrás algunas estadísticas de fondo. Si elige adquirir Python, Think Stats (Probability and Statistics for Programmers) es una excelente manera de hacerlo. Si estás en la escuela en este momento, tal vez puedas agregar algunas clases de estadísticas a tu plan de estudios para obtener los fundamentos básicos o inscribirte en un curso de Coursera u otro MOOC.

    Finalmente, odio decírtelo, pero los científicos de datos deben transmitir sus hallazgos y hacerlos útiles para las personas, y esto está absolutamente relacionado con el “diseño”. Las diferentes compañías desglosan los roles de manera diferente, por lo que si nunca desea tener que producir una aplicación web o visualización, necesitará encontrar un lugar donde eso no sea parte del trabajo. Supongo que las compañías más grandes son aquellas donde los roles están más especializados, pero no puedo decirlo con certeza. Casi todos los científicos de datos que conozco tienen que producir al menos tramas presentables, y la mayoría hace mucho más que eso.

    También puede examinar los roles de “ingeniería de datos”. Estas son típicamente las personas que programan para implementar y escalar modelos que los científicos de datos han desarrollado. Estos roles suelen ser más pesados ​​en programación / desarrollo y no requieren tanta información estadística profunda o comunicación orientada al usuario como lo hace un rol de ciencia de datos.

    Algunos de mis colegas escribieron una publicación bastante sólida aquí, evaluando los pros y los contras de la autoaprendizaje (MOOC), los programas de maestría y los bootcamps:
    ¿Cómo me convierto en un científico de datos? Una evaluación de 3 alternativas

    Al ser un principiante, hay ciertos aspectos que primero debe considerar antes de ingresar en la ciencia de datos.

    La EDUCACIÓN

    • Técnico
    • Matemáticas (por ejemplo, álgebra lineal, cálculo y probabilidad) y Estadística (32%) (por ejemplo, pruebas de hipótesis y estadísticas resumidas)
    • Ciencias de la computación (19%)
    • Ingeniería (16%) (por ejemplo, computación distribuida, algoritmos y estructuras de datos) Minería de datos y visualización de datos, etc.
  • Habilidades no técnicas
    • Conocimiento de la industria
    • Curiosidad intelectual
    • Visión para los negocios
    • Habilidades de comunicación

    Las habilidades:

    • Estadística
    • Estadísticas básicas
    • análisis estadístico
  • Análisis predictivo usando R y Python
    • Analítica predictiva
    • Programación R y Python
    • Análisis exploratorio de datos
    • Análisis de valor perdido
    • Análisis de valores atípicos
    • Escalado de características
    • Técnicas de muestreo, R y Python
    • Aprendizaje automático
    • Árbol de decisión
    • Métrica de error
    • Bosque al azar
    • Regresión lineal
    • Regresión logística
    • Visualizaciones
    • KNN
    • Bayes ingenuos
    • Análisis de conglomerados
    • Extracción de textos
    • Modelos de implementación
  • Herramientas de visualización
    • Cuadro
  • Bases de datos
    • MongoDB

    Los científicos de datos no nacen, ¡están hechos!

    Entonces, ¿qué puedo hacer para desarrollar estas habilidades?

    • Aprende las habilidades necesarias para ser un científico de datos
    • Trabajar en proyectos de ciencia de datos.
    • Ser contratado como científico de datos.

    ¿Dónde puedo aprender estas habilidades?

    Hay muchos recursos en línea en Internet, pero no tengo la impresión errónea de que el camino hacia la ciencia de datos es tan simple como tomar algunos MOOC. A menos que ya tenga una sólida formación cuantitativa, el camino para convertirse en un científico de datos será un desafío, pero vale la pena.

    • Desafíos de codificación en línea : los desafíos en línea pueden ayudarlo a identificar dónde le faltan las habilidades, esto le brinda una autosatisfacción. por ejemplo, HackerEarth y HackerRank
    • Crea un proyecto en GitHub y Kaggle .

    Por otro lado, hay una plataforma, edWisor. Puede aprender ciencia de datos completa aquí mientras trabaja en proyectos de ciencia de datos. También tienen una cartera de proyectos basada para que uno pueda mostrar las habilidades al reclutador, etc. Además, edwisor también ayuda a los aspirantes a científicos de datos a ser contratados en compañías basadas en productos.

    Además de edWisor, también tiene Udacity, Udemy, Simplilearn, etc. para aprender estas habilidades, pero no hay confiabilidad en la garantía de empleo. Prueba tu suerte.

    Espero que estas respuestas completen tu respuesta.

    ¡La mejor de las suertes!

    Voy a extraer una guía de trabajos de ciencia de datos que creé, y específicamente una sección que habla sobre las habilidades y herramientas que necesita, así como los recursos necesarios para convertirse en un científico de datos. Divulgación completa: trabajo para una compañía que ayuda a las personas a entrar en una carrera de ciencia de datos con un campamento de ciencia de datos en línea flexible y completo que ofrece tutoría personalizada de expertos y entrenamiento profesional.


    Habilidades de ciencia de datos

    La mayoría de los científicos de datos utilizan una combinación de habilidades todos los días, algunas de las cuales se han enseñado en el trabajo o no. También provienen de diversos orígenes. No hay ninguna credencial académica específica que los científicos de datos tengan que tener.

    Todas las habilidades discutidas en esta sección pueden ser autoaprendidas. Hemos presentado algunos recursos para ayudarlo a comenzar ese camino. Considérelo una guía sobre cómo convertirse en un científico de datos.

    Una mente analítica

    Cómo convertirse en un científico de datos con una mente analítica

    Necesitará una mentalidad analítica para que le vaya bien en la ciencia de datos. Gran parte de la ciencia de datos implica resolver problemas con una mente aguda y aguda.

    Recursos

    Mantenga su mente aguda con libros y rompecabezas. Un sitio como Lumosity puede ayudarlo a asegurarse de que sea cognitivamente inteligente en todo momento.

    Matemáticas

    Cómo convertirse en un científico de datos con matemáticas

    Las matemáticas son una parte importante de la ciencia de datos. Asegúrese de conocer los conceptos básicos de matemáticas universitarias, desde cálculo hasta álgebra lineal. Cuantas más matemáticas conozcas, mejor.

    Cuando los datos se hacen grandes, a menudo se vuelven difíciles de manejar. Tendrá que usar las matemáticas para procesar y estructurar los datos con los que está tratando.

    No podrás dejar de conocer el cálculo y el álgebra lineal si te perdiste esos temas en la universidad. Necesitará comprender cómo manipular matrices de datos y tener una idea general detrás de las matemáticas de los algoritmos.

    Recursos

    Esta lista de 15 cursos MOOC de Matemáticas puede ayudarlo a ponerse al día con las habilidades matemáticas. El MIT también ofrece un curso abierto específicamente sobre las matemáticas de la ciencia de datos.

    Estadística

    Cómo convertirse en un científico de datos con estadísticas

    Debe conocer las estadísticas para inferir ideas de conjuntos de datos más pequeños en poblaciones más grandes. Esta es la ley fundamental de la ciencia de datos. Las estadísticas allanarán su camino sobre cómo convertirse en un científico de datos.

    Necesitas conocer estadísticas para jugar con datos. Las estadísticas le permiten comprender mejor los patrones observados en los datos y extraer la información que necesita para sacar conclusiones razonables. Por ejemplo, comprender las estadísticas inferenciales lo ayudará a sacar conclusiones generales sobre todos en una población de una muestra más pequeña.

    Para comprender la ciencia de datos, debe conocer los conceptos básicos de las pruebas de hipótesis y diseñar experimentos para comprender el significado y el contexto de sus datos.

    Recursos

    Nuestro blog publicó un manual sobre cómo el Teorema de Bayes, la probabilidad y las estadísticas se cruzan entre sí. La publicación constituye una buena base para comprender la base estadística de cómo convertirse en un científico de datos.

    Algoritmos

    Cómo convertirse en un científico de datos con algoritmos

    Los algoritmos son la capacidad de hacer que las computadoras sigan un cierto conjunto de reglas o patrones. Comprender cómo usar máquinas para hacer su trabajo es esencial para procesar y analizar conjuntos de datos demasiado grandes para que la mente humana los procese.

    Para que pueda hacer un trabajo pesado en la ciencia de datos, tendrá que comprender la teoría detrás de la selección y optimización de algoritmos. Tendrá que decidir si su problema requiere o no un análisis de regresión o un algoritmo que ayude a clasificar diferentes puntos de datos en categorías definidas.

    Querrás conocer muchos algoritmos diferentes. También querrás aprender los fundamentos del aprendizaje automático. El aprendizaje automático es lo que le permite a Amazon recomendarle productos basados ​​en su historial de compras sin ninguna intervención humana directa. Es un conjunto de algoritmos que utilizarán la potencia de la máquina para descubrir ideas para usted.

    Para lidiar con conjuntos de datos masivos, necesitará usar máquinas para ampliar su pensamiento.

    Recursos

    Esta guía de KDNuggets ayuda a explicar diez algoritmos comunes de ciencia de datos en inglés simple. Aquí hay 19 conjuntos de datos públicos gratuitos para que pueda practicar la implementación de diferentes algoritmos en los datos.

    Visualización de datos

    Cómo convertirse en un científico de datos con visualización de datos

    Terminar su análisis de datos es solo la mitad de la batalla. Para generar impacto, tendrá que convencer a los demás para que crean y adopten sus ideas. Así es como te conviertes en un científico de datos.

    Los seres humanos son criaturas visuales. Según 3M y Zabisco, casi el 90% de la información transmitida a su cerebro es de naturaleza visual, y las imágenes se procesan 60,000 veces más rápido que el texto .

    La visualización de datos es el arte de presentar información a través de gráficos y otras herramientas visuales, para que el público pueda interpretar fácilmente los datos y obtener información de ellos. ¿Qué información se presenta mejor en un gráfico de barras y qué tipos de datos deberíamos presentar en un diagrama de dispersión?

    Los seres humanos están conectados para responder a las señales visuales. Cuanto mejor pueda presentar sus conocimientos de datos, más probable es que alguien tome medidas basadas en ellos.

    Recursos

    Tenemos una lista de 31 herramientas gratuitas de visualización de datos con las que puede jugar. El blog FlowingData de Nathan Yau está lleno de consejos y trucos de visualización de datos que lo llevarán al siguiente nivel.

    Conocimiento del negocio

    Cómo convertirse en un científico de datos con conocimiento empresarial

    Los datos significan poco sin su contexto. Tienes que entender el negocio que estás analizando. La claridad es la pieza central de cómo convertirse en un científico de datos.

    La mayoría de las empresas dependen de sus científicos de datos no solo para extraer conjuntos de datos, sino también para comunicar sus resultados a varios interesados ​​y presentar recomendaciones sobre las que se pueda actuar.

    Los mejores científicos de datos no solo tienen la capacidad de trabajar con conjuntos de datos grandes y complejos, sino que también entienden las complejidades de la empresa u organización para la que trabajan .

    Tener un conocimiento general del negocio les permite hacer las preguntas correctas y encontrar soluciones y recomendaciones perspicaces que sean realmente factibles dadas las restricciones que el negocio pueda imponer.

    Recursos

    Esta lista de cursos de negocios gratuitos puede ayudarlo a obtener el conocimiento que necesita. Nuestro curso de Data Analytics for Business puede ayudarlo a mejorar esta dimensión con un mentor.

    Experiencia en el campo

    Cómo convertirse en un científico de datos con experiencia en dominios

    Como científico de datos, debe conocer el negocio para el que trabaja y la industria en la que vive.

    Además de tener un conocimiento profundo de la empresa para la que trabaja, también tendrá que comprender el campo en el que funciona para que sus ideas comerciales tengan sentido. Los datos de un estudio de biología pueden tener un contexto drásticamente diferente que los datos obtenidos de un estudio de psicología bien diseñado. Debe saber lo suficiente como para cortar la jerga de la industria.

    Recursos

    Esto dependerá en gran medida de la industria. ¡Tendrá que encontrar su propio camino y aprender lo más posible sobre su industria!

    Herramientas de ciencia de datos

    Con su conjunto de habilidades desarrollado, ahora necesitará aprender a usar herramientas modernas de ciencia de datos. Cada herramienta tiene sus fortalezas y debilidades, y cada una juega un papel diferente en el proceso de ciencia de datos. Puede usar uno de ellos, o puede usarlos todos. Lo que sigue es una descripción general de las herramientas más populares en ciencia de datos, así como los recursos que necesitará para aprenderlas correctamente si desea profundizar.

    Formatos de archivo

    Los datos se pueden almacenar en diferentes formatos de archivo. Aquí hay algunos de los más comunes:

    CSV : valores separados por comas. Es posible que haya abierto este tipo de archivo con Excel anteriormente. Los CSV separan los datos con un delimitador, una puntuación que sirve para separar diferentes puntos de datos.

    SQL : SQL, o lenguaje de consulta estructurado, almacena datos en tablas relacionales. Si va de la derecha a una columna a la izquierda, obtendrá diferentes puntos de datos en la misma entidad (por ejemplo, una persona tendrá un valor en las categorías EDAD, GÉNERO y ALTURA).

    JSON : Javascript Object Notation es un formato ligero de intercambio de datos que es legible tanto por humanos como por máquinas. Los datos de un servidor web a menudo se transmiten en este formato.


    Sobresalir

    Excel es a menudo la puerta de entrada a la ciencia de datos, y es algo que todo científico de datos puede beneficiarse del aprendizaje.

    Introducción a Excel

    Excel le permite manipular fácilmente los datos con lo que es esencialmente un editor Lo que ve es lo que obtiene que le permite realizar ecuaciones en los datos sin trabajar en absoluto en el código. Es una herramienta útil para los analistas de datos que desean obtener resultados sin programación.

    Cómo convertirse en un científico de datos con Excel

    Es fácil comenzar con Excel, y es un programa que cualquiera que esté en análisis comprenderá intuitivamente. Puede ser útil comunicar datos a personas que pueden no tener habilidades de programación: aún deberían poder jugar con los datos.

    Quién usa esto

    Los analistas de datos tienden a usar Excel.

    Nivel de dificultad

    Principiante

    Proyecto de muestra

    Importar un pequeño conjunto de datos sobre las estadísticas de los jugadores de la NBA y hacer un gráfico simple de los mejores anotadores de la liga.


    SQL

    SQL es el lenguaje de programación más popular para encontrar datos.

    Introducción a SQL

    La ciencia de datos necesita datos. SQL es un lenguaje de programación especialmente diseñado para extraer datos de bases de datos.

    Cómo convertirse en un científico de datos con SQL

    SQL es la herramienta más popular utilizada por los científicos de datos. La mayoría de los datos del mundo se almacenan en tablas que requerirán SQL para acceder. Podrá filtrar y ordenar los datos con él.

    Quién usa esto

    Los analistas de datos y algunos ingenieros de datos tienden a usar SQL.

    Nivel de dificultad

    Principiante

    Proyecto de muestra

    Usando una consulta para seleccionar las diez canciones más populares de una base de datos SQL del Billboard 100.


    Pitón

    Python es un lenguaje de programación potente y versátil para la ciencia de datos.

    Introducción a Python

    Una vez que descargue Anaconda, un administrador de entorno para Python y se configure en iPython Notebook, se dará cuenta rápidamente de lo intuitivo que es Python. Python, un lenguaje de programación versátil creado para todo, desde la creación de sitios web hasta la recopilación de datos de toda la web, tiene muchas bibliotecas de códigos dedicadas a facilitar el trabajo de la ciencia de datos.

    Cómo convertirse en un científico de datos con Python

    Python es un lenguaje de programación versátil con una sintaxis simple que es fácil de aprender.

    El rango de salario promedio para trabajos con Python en su descripción es de alrededor de $ 102,000. Python es el lenguaje de programación más popular que se enseña en las universidades: la comunidad de programadores de Python solo será más grande en los próximos años. A la comunidad de Python le apasiona enseñar Python y crear herramientas útiles que le ahorren tiempo y le permitan hacer más con sus datos.

    Muchos científicos de datos utilizan Python para resolver sus problemas: el 40% de los encuestados en una encuesta científica de datos definitiva realizada por O’Reilly utilizó Python, que era más del 36% que utilizó Excel.

    Quién usa esto

    Los ingenieros de datos y los científicos de datos usarán Python para conjuntos de datos de tamaño mediano.

    Nivel de dificultad

    Intermedio

    Proyecto de muestra

    Usando Python para obtener tweets de celebridades, luego haciendo un análisis de las palabras más frecuentes que se utilizan al aplicar reglas de programación.


    R

    R es un elemento básico en la comunidad de ciencia de datos porque está diseñado explícitamente para las necesidades de ciencia de datos. Es el entorno de programación más popular en ciencia de datos con el 43% de los profesionales de datos que lo utilizan.

    Introducción a R

    R es un entorno de programación diseñado para el análisis de datos. R brilla cuando se trata de construir modelos estadísticos y mostrar los resultados.

    Cómo convertirse en un científico de datos con R

    R es un entorno donde se puede aplicar una amplia variedad de técnicas estadísticas y gráficas.

    La comunidad aporta paquetes que, de forma similar a Python, pueden ampliar las funciones centrales de la base de código R para que pueda aplicarse a problemas específicos, como medir métricas financieras o analizar datos climáticos.

    Quién usa esto

    Los ingenieros de datos y los científicos de datos usarán R para conjuntos de datos de tamaño mediano.

    Nivel de dificultad

    Intermedio

    Proyecto de muestra

    Usando R para graficar los movimientos del mercado de valores en los últimos cinco años.

    Herramientas de Big Data

    Big data proviene de la Ley de Moore, una teoría según la cual el poder de cómputo se duplica cada dos años. Esto ha llevado al surgimiento de conjuntos de datos masivos generados por millones de computadoras. ¡Imagina cuántos datos tiene Facebook en un momento dado!

    Según McKinsey, cualquier conjunto de datos que sea demasiado grande para las herramientas de datos convencionales, como SQL y Excel, puede considerarse big data. La definición más simple es que los grandes datos son datos que no pueden caber en su computadora.

    Aquí hay herramientas para resolver ese problema:

    Hadoop

    Al usar Hadoop, puede almacenar sus datos en múltiples servidores mientras los controla desde uno.

    Introducción a Hadoop

    La solución es una tecnología llamada MapReduce. MapReduce es una abstracción elegante que trata una serie de computadoras como si fuera un servidor central. Esto le permite almacenar datos en varias computadoras, pero procesarlas a través de una.

    Cómo convertirse en un científico de datos con Hadoop

    Hadoop es un ecosistema de herramientas de código abierto que le permite MapReduce sus datos y almacena enormes conjuntos de datos en diferentes servidores. Le permite administrar muchos más datos de los que puede en una sola computadora.

    Quién usa esto

    Los ingenieros de datos y los científicos de datos usarán Hadoop para manejar grandes conjuntos de datos.

    Nivel de dificultad

    Avanzado

    Proyecto de muestra

    Usar Hadoop para almacenar conjuntos de datos masivos que se actualizan en tiempo real, como la cantidad de me gusta que generan los usuarios de Facebook.


    NoSQL

    NoSQL le permite administrar datos sin peso innecesario.

    Introducción a NoSQL

    Las tablas que traen todos sus datos pueden ser engorrosas. NoSQL incluye una gran cantidad de soluciones de almacenamiento de datos que separan grandes conjuntos de datos en fragmentos manejables.

    Beneficios de NoSQL

    NoSQL fue una tendencia pionera de Google para lidiar con las imposiblemente grandes cantidades de datos que estaban almacenando. A menudo estructuradas en el formato JSON popular entre los desarrolladores web, soluciones como MongoDB han creado bases de datos que pueden manipularse como tablas SQL, pero que pueden almacenar los datos con menos estructura y densidad.

    Quién usa esto

    Los ingenieros de datos y los científicos de datos usarán NoSQL para grandes conjuntos de datos, a menudo bases de datos de sitios web para millones de usuarios.

    Nivel de dificultad

    Avanzado

    Proyecto de muestra

    Almacenar datos sobre los usuarios de una aplicación de redes sociales que se implementa en la web.


    ¡Espero que esto haya sido útil! El extracto completo se puede encontrar aquí. Si está interesado en un campo de entrenamiento de ciencia de datos con mentoría que lo guiará a lo largo de los pasos que necesita para convertirse en un científico de datos, ¡eche un vistazo a la Carrera de Ciencias de Datos de Springboard!

    MANERA DE ARRANQUE
    Para un novato con iniciativa propia, aquí hay un esquema con el que uno puede comenzar. (esto se reproduce en mi blog: ¿Cómo adquirir el “Conjunto de habilidades esenciales”? La idea es elegir uno o dos recursos (enlaces) de cada subgrupo y aprender sobre el mismo.

    0. Prerrequisitos básicos:

    • Matemáticas, Algoritmos y Bases de Datos: Mathispower4u-Calculus, Coursera-Linear Algebra, Coursera-Analysis of Algorithms, Coursera- Introduction to Databases
    • Estadísticas: probabilidad y estadística para programadores, fórmulas estadísticas para programadores, Coursera- Análisis de datos, Coursera- Statistics One
    • Programación: Google Developers R Programming Lectures, Introducción a R – DataCamp, Scientific Python Lectures, Cómo pensar como un informático

    1. Adquirir y restregar datos:

    • DFS y bases de datos: Plataforma Hadoop y marco de aplicación – Coursera, Tutorial de Hadoop – Yahoo, Introducción a Hadoop y MapReduce para principiantes – Udacity, Guía completa para principiantes de MongoDB
    • Munging de datos: análisis predictivo: preparación de datos, análisis de datos en pandas, análisis y manipulación de datos con pandas, data wrangler, OpenRefine

    2. Datos de filtro y mina:

    • Análisis de datos en R: ciencia de datos en R, Coursera-Computing para análisis de datos en R
    • Análisis de datos en Python (numpy, scipy, pandas, scikit): Introducción a Python para la ciencia de datos, Introducción a NumPy -SciPyConf 2015, Análisis estadístico de datos en Python, Pandas (1er video a continuación), SciPy 2013- Introducción a SciKit Learn Tutorial I y II (segundo y tercer video a continuación)
    • Análisis de datos exploratorios: análisis de datos exploratorios en R, análisis de datos exploratorios en Python, UC Berkeley: estadísticas descriptivas, comandos básicos de Unix Shell para el científico de datos
    • Minería de datos, aprendizaje automático:

    Mapa de minería de datos, Coursera – Aprendizaje automático, Stanford – Aprendizaje estadístico, MITx: The Analytics Edge, STATS 202 Minería y análisis de datos, Aprendiendo de datos – CalTech, Coursera – Inteligencia web y Big Data

    • Big Data Machine Learning – AMP Camp Berkeley Spark Introducción y ejercicios, EdX- Análisis de Big Data con Apache Spark, Minería Conjuntos de datos masivos – Stanford

    3. Representar y refinar datos: Tableau-Training & Tutorials, Visualización de datos en R con ggplot2 y plyr, Predictive Analytics: Overview and Data visualization, Flowing Data-Tutorials, UC Berkeley-Data Visualization, Tutorial D3.js

    4. Conocimiento del dominio: esta habilidad se desarrolla a través de la experiencia trabajando en una industria. Cada conjunto de datos es diferente y viene con ciertos supuestos y conocimientos de la industria. Por ejemplo, un analista de datos especializado en datos del mercado de valores necesitaría tiempo para desarrollar el conocimiento en el análisis de datos transaccionales para restaurantes.

    Combinando todo lo anterior:
    Curso de alfabetización de datos – IAP
    Coursera – Introducción a la ciencia de datos
    Coursera – Especialización en ciencia de datos

    Libros:
    Elementos de aprendizaje estadístico
    Python Machine Learning

    Aplica el conocimiento:
    Tarea del curso de ciencias de datos de Harvard
    Kaggle: el hogar de la ciencia de datos
    Analizando Big Data con Twitter
    Análisis de datos de Twitter con Apache Hadoop

    MANERA FORMAL
    Para una forma más formal de convertirse en un científico de datos, puede consultar esta publicación (reproducida a continuación): ¿Cómo adquirir el “Conjunto de habilidades esenciales”? – La forma formal.
    El conjunto de habilidades esenciales son las habilidades básicas básicas que se espera que cada científico de datos conozca. Tradicionalmente, estos pueden adquirirse realizando un título en informática o un título en estadística de una institución. Los cursos de Stanford Computer Science y los cursos de Estadística proporcionan una buena lista de referencia de cursos para realizar. Ahora, algunos de los cursos son relevantes, mientras que muchos otros no lo son. Por ejemplo, en informática, sería bueno aprender sobre bases de datos y algoritmos distribuidos a gran escala, pero no es necesario aprender HCI y UX, ni almacenamiento puro y sistemas operativos, redes, etc. De manera similar, algunos cursos de estadística se centran demasiado en, digamos, “estadísticas de la vieja escuela” que incluyen miles de formas de prueba de hipótesis en lugar de más sobre aprendizaje automático (agrupación, regresión, clasificación, etc.). Por lo tanto, ambos flujos tienen muchos cursos agradables y deben tener cursos para un científico de datos (me atrevo a afirmar que en la actualidad el porcentaje de cursos obligatorios parece ser mayor en un flujo de estadísticas tradicional que en un flujo de informática). Como tal, uno debe elegir los cursos sabiamente.

    O, alternativamente, también se pueden ver una serie de nuevos cursos de Ciencia de Datos que algunas universidades están ofreciendo con los puntos que mencioné anteriormente. Combinan los cursos imprescindibles del programa tradicional de estadística y ciencias de la computación para impartir las 4 habilidades esenciales, así como también incluyen cursos para desarrollar las habilidades diferenciadoras en los estudiantes. La Maestría en Ciencia de Datos en NYU y la Maestría en Análisis en USF son buenos ejemplos de tal amalgama de los cursos requeridos. Aquí se presenta una lista completa de dichos cursos: universidades con títulos en ciencias de datos.

    El programa correcto obviamente depende de la meta del individuo. Una de las publicaciones recientes de O’Rielly titulada ‘Analizando a los analizadores’ hace un muy buen trabajo al agregar los diversos roles de científicos de datos en 4 categorías principales según sus habilidades. Por lo tanto, un individuo puede seleccionar un programa según la categoría de científico de datos con el que más se identifica, como se muestra a continuación.

    • Los empresarios de datos son los científicos de datos centrados en el producto y las ganancias. Son líderes, gerentes y empresarios, pero con una inclinación técnica. Una ruta educativa común es un título de ingeniería junto con un MBA o los nuevos programas de Data Science como se mencionó anteriormente.
    • Data Creatives son eclécticos jacks of all-trades, capaces de trabajar con una amplia gama de datos y herramientas. Pueden pensar en sí mismos como artistas o hackers, y sobresalir en la visualización y las tecnologías de código abierto. Se espera que tengan un título de ingeniería (principalmente en estadística o economía) pero no mucho en habilidades comerciales.
    • Los desarrolladores de datos se centran en escribir software para realizar tareas analíticas, estadísticas y de aprendizaje automático, a menudo en entornos de producción. A menudo tienen títulos en ciencias de la computación, y a menudo trabajan con los llamados “big data”.
    • Los investigadores de datos aplican su capacitación científica y las herramientas y técnicas que aprendieron en la academia a los datos de la organización. Pueden tener una maestría o doctorado en estadística, economía, física, etc., y sus aplicaciones creativas de herramientas matemáticas producen valiosos conocimientos y productos.

    Las habilidades asociadas con las 4 categorías principales, que justifican la recomendación del programa mencionada anteriormente, son las siguientes:

    En términos generales, existen básicamente 8 pasos para aprender ciencia de datos y recomendaría que se una a los cursos de acuerdo con esos pasos y sus conocimientos previos.

    Paso 1. Sé bueno en estadísticas, matemáticas y aprendizaje automático

    Para su pregunta específica sobre estadísticas, recomendaría Estadísticas y probabilidad | Khan Academy, Álgebra lineal | Khan Academy, OpenIntro, OCW Course Index, Introducción a las estadísticas | Udacity, Análisis de datos e inferencia estadística, Machine Learning – Universidad de Stanford | Coursera.

    También asegúrese de buscar algoritmos, y definitivamente revise más de 40 estadísticas de Python para recursos de ciencia de datos para aprender estadísticas de ciencia de datos con Python.

    Paso 2. Aprende a codificar

    Parece que ya tienes esta habilidad bajo control. Sin embargo, para la ciencia de datos, recomendaría que analice Python y R. Esto debería ser bastante fácil para usted. Pruebe algunos cursos como: Curso gratuito de introducción a la programación en línea de R o Aprenda Python para Data Science – Curso en línea. Pruebe también Learn Python – Tutorial interactivo gratuito de Python.

    Paso 3. Comprender las bases de datos

    Supongo que, como programador, ya se habrá puesto en contacto con las bases de datos. En cualquier caso, debe comprender cómo funcionan las bases de datos y los almacenes de datos, cómo se modelan los datos y cómo puede consultar las bases de datos. Aprenda a trabajar con SQL y NoSQL. Recomendaría Introducción y Bases de datos relacionales.

    Paso 4. Explore el flujo de trabajo de ciencia de datos

    Comprenda cómo funciona el flujo de trabajo de la ciencia de datos e intente realmente recorrerlo: aprenda a trabajar con los diferentes paquetes y bibliotecas o herramientas que existen para comprender lo que debe hacer. Comprenda también que este es un proceso circular que realmente no termina pronto. Echa un vistazo a RDocumentation y PyPI: el índice del paquete de Python (no cursos, sino recursos útiles).

    Paso 5. Sube de nivel con Big Data

    Comprenda por qué Big Data es diferente de otro procesamiento de datos. Familiarícese con los marcos Hadoop y Spark. Echa un vistazo a Introducción a Apache Spark. También vale la pena echarle un vistazo a los cursos de Big Data University: Analytics, Big Data y Data Science.

    Paso 6. Crecer, conectarse y aprender

    Después de estos pasos, principalmente teóricos, es hora de seguir creciendo. Participe en un desafío, reúnase con sus compañeros, configure su propio proyecto favorito y desarrolle su intuición y capacidad para hacer preguntas críticas sobre sus datos, su enfoque y su análisis. Visite Your Home for Data Science (Kaggle) y DrivenData para proyectos de ciencia de datos. También puede encontrar desafíos en Analytics Community | Discusiones analíticas | Discusión de Big Data (Analytics Vidhya). Tendrá que cubrir mucho terreno con esos proyectos y construir una cartera que lo ayudará a conseguir un trabajo.

    Paso 7. Sumérgete por completo

    Es hora de sumergirse por completo. Ingrese a un campamento de entrenamiento, obtenga una pasantía u obtenga un trabajo (dependiendo de lo competente que ya sea).

    Paso 8. Comprometerse con la comunidad

    No se olvide de interactuar con la comunidad de ciencia de datos: siga y participe en Facebook, LinkedIn, Google+, Reddit, … Grupos. No olvide contribuir siempre que pueda o hacer preguntas que puedan ayudar a otros. Siga a las personas clave de la industria de la ciencia de datos y suscríbase a algunos boletines. Escuche podcasts, … Las posibilidades son infinitas. Para obtener una lista de recursos, puede ir aquí: Learn Data Science – Resources for Python & R.

    Usted ve cómo los primeros cinco pasos se refieren principalmente a obtener una sólida base teórica; Asegúrese de consolidar ese conocimiento practicando: haga algunos tutoriales interactivos o comience usted mismo con la ayuda de un tutorial estático.

    Observe cómo los pasos 6 a 8 se centran principalmente en obtener experiencia práctica con la ciencia de datos. Este es el momento en el que comienzas a elaborar proyectos de ciencia de datos a través de herramientas como Jupyter, R Markdown Notebooks, … Te conectas con la comunidad (pronuncia un discurso en un Meetup, discute los hallazgos con tus compañeros, participa en desafíos, etc.).

    Puede encontrar toda la infografía aquí: Aprenda ciencia de datos en 8 pasos (fáciles).

    A2A …

    Nota: La industria financiera es muy diferente a la mayoría de las otras industrias en términos de “ciencia de datos”. De hecho, diría que tienden a contratar más analistas cuantitativos, que se inclinan más hacia las estadísticas y el aprendizaje automático, ya que los conjuntos de datos son en gran medida muy directos y relativamente hablando muy limpio. Yo personalmente NO llamaría a nadie que trabaje con datos financieros para que sea un Científico de Datos. Hay muy poca ambigüedad y los datos son muy limpios. Data Science, para mí, está trabajando con muchos datos desestructurados desordenados y datos de muchas áreas dispares diferentes y combinándolos en un producto de datos.

    TL; Versión DR: Industria financiera => Ir tras el aprendizaje automático y las estadísticas. Llamo a estas personas Analistas cuantitativos.

    Ahora si quieres hacer ciencia de datos … sigue leyendo.

    Tiene dos vías principales para la ciencia de datos y no muchas personas son contratadas de inmediato para tomar decisiones comerciales. Hay unas pocas, muy pocas compañías con grandes equipos de ciencia de datos que tomarán unos pocos “Jr Data Scientists” en el equipo, pero de lo contrario, los trabajos sabios de Data Science serán difíciles de encontrar para un nuevo graduado. Sigues siendo un verdadero científico de datos (por lo que sea que eso signifique), es decir, trabajarás con datos (!) Y lo harás para tomar decisiones (!), Lo que significa que es lo suficientemente bueno como para ser considerado un científico de datos.

    Entonces, ¿cómo llegar a esos equipos de ciencia de datos? ¿O cuál es la mejor forma de posicionarse para obtener un trabajo de científico de datos “Sr” en una de esas compañías o un trabajo de científico de datos “completo” en otro lugar?

    Un científico de datos es la acumulación de “análisis” e “ingeniería”, por lo que hay dos lugares para llegar al pináculo. Uno es a través del lado de Ingeniería y el otro es a través de Analytics. El lado de la ingeniería se puede dividir en Ingeniería de Software e Ingeniería de Datos. Para mí, el camino más fácil de los tres es a través de la Ingeniería de Datos.

    Si puede extraer datos, recopilar datos, raspar datos o escalar datos a través de una aplicación y crear una tubería de datos a partir de esas fuentes de datos, será un producto muy valioso y será el ‘cuello’ de cualquier equipo de Data Scientist. Lo que significa que eres su alma y estarás cerca de ellos. También creo que aquí es donde puede convertirse en un mejor científico de datos, ya que los modeladores y los aprendices de máquinas a menudo tienen poca importancia en comparación con los limpiadores de datos. Tiene datos sesgados o algún otro problema aguas arriba que no se detecta y cualquier idiota en un teclado puede obtener un alto AUC o valor de correlación. El tipo que entiende los datos, la aplicación y los problemas comerciales terminará siendo el producto valioso sin importar su título.

    Entonces, si desea ser un Científico de Datos, le recomendaría que comience a ver todos los trabajos de Ingeniero de Datos y Analista de Datos que puede encontrar en las áreas geográficas en las que desea trabajar y aprender esas tecnologías y habilidades. Si puede encontrar clases en su universidad actual que complementen a esas excelentes, pero probablemente no lo hará y nada se puede comparar con ensuciarse las manos descargando e implementando Hadoop o Spark o Jupyter Notebooks y destrozando un conjunto de datos y creando un producto de datos . Cuando comience a manejar el lado de la ingeniería de datos, iré a Kaggle, Github, Pycon, PyData y Scipy y revisaré todos los conjuntos de datos y tutoriales de Machine Learning que pueda.

    Ser científico de datos requiere una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemáticas.

    Lo que distingue al científico de datos es la perspicacia empresarial sólida, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

    También creo que el conocimiento profundo de la ciencia de datos, el aprendizaje automático y la PNL ayudarán a resolver problemas de nivel básico a superior. De 4 a 5 años de experiencia en el desarrollo pueden dar tal prestigio.

    • Curso de Introducción al CS
      Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
      Recursos en línea:
      Udacity – introducción al curso de CS,
      Coursera – Informática 101
    • Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
      Recursos en línea para principiantes:
      Coursera – Aprender a programar: los fundamentos,
      Introducción del MIT a la programación en Java,
      Python Class de Google,
      Coursera – Introducción a Python,
      Libro electrónico de código abierto de Python

      Recursos en línea intermedios:
      Diseño de programas informáticos de Udacity,
      Coursera – Learn to Program: Crafting Quality Code,
      Coursera – Lenguajes de programación,
      Brown University – Introducción a los lenguajes de programación

    • Aprende otros lenguajes de programación
      Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
      Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
    • Prueba tu código
      Notas: aprenda a detectar errores, crear pruebas y romper su software
      Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
    • Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
      Recursos en línea:
      MIT Matemáticas para Informática,
      Coursera – Introducción a la lógica,
      Coursera – Optimización lineal y discreta,
      Coursera – Modelos gráficos probabilísticos,
      Coursera – Teoría de juegos.
    • Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
      Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
      Recursos en línea:
      Introducción a los algoritmos del MIT,
      Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
      Wikipedia – Lista de algoritmos,
      Wikipedia – Lista de estructuras de datos,
      Libro: El manual de diseño de algoritmos
    • Desarrollar un sólido conocimiento de los sistemas operativos.
      Recursos en línea: UC Berkeley Computer Science 162
    • Aprenda recursos de inteligencia artificial en línea:
      Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
    • Aprende a construir compiladores
      Recursos en línea: Coursera – Compiladores
    • Aprende criptografía
      Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
    • Aprender programación paralela
      Recursos en línea: Coursera – Programación paralela heterogénea

    Herramientas y tecnologías para Bigdata:

    Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

    Canalización de bases de datos
    Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

    SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
    Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

    S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

    Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop

    MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos) de hardware básico de manera confiable y tolerante a fallas.

    Un trabajo de MapReduce generalmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas de mapa de manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan a las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

    Corona:

    Corona, un nuevo marco de programación que separa la gestión de recursos del clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clúster cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo, y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

    Una diferencia importante con respecto a nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull. Después de que el administrador de clúster recibe solicitudes de recursos del rastreador de trabajos, devuelve las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene subvenciones de recursos, crea tareas y luego las empuja a los rastreadores de tareas para su ejecución. No hay latidos cardíacos periódicos involucrados en esta programación, por lo que se minimiza la latencia de programación. Ref: Under the Hood: Programando trabajos MapReduce más eficientemente con Corona

    HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).

    Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.

    Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.

    Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.

    Lucene es un conjunto de herramientas relacionadas con la búsqueda y PNL, pero su característica principal es ser un índice de búsqueda y un sistema de recuperación. Toma datos de una tienda como HBase y los indexa para una recuperación rápida de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

    Sqoop es una interfaz de línea de comandos para respaldar datos SQL en un almacén distribuido. Es lo que puede usar para tomar instantáneas y copiar las tablas de su base de datos en un almacén de Hive todas las noches.

    Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una sola interfaz y apunta a la experiencia del usuario. Su objetivo principal es hacer que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usando una línea de comando

    Pregel y su código abierto gemelo Giraph es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que Hadoop / MapReduce se evitan en este modelo, pero HDFS / GFS todavía se usa como un almacén de datos.

    NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.

    NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

    Para Python
    Scikit Learn

    Numpy

    Scipy

    Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.

    DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

    Herramienta de visualización
    ggplot en R
    Tableu
    Qlikview

    Matemáticas : )

    Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada

    El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.

    Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.

    Fuente: Wikipedia, la enciclopedia libre.

    Hay muchos por supuesto que puedes resolver:

    1. Análisis de sentimientos para twitter, artículos web : identifique todos los sentimientos para artículos web, revisión de productos, revisión de películas, tweets. Se puede utilizar un enfoque basado en léxico o técnicas de aprendizaje automático
    2. Clasificación / resumen de artículos web : utilice la técnica de agrupación / clasificación para clasificar el artículo web, realice análisis semánticos para resumir los artículos
    3. Sistema de recomendaciones basado en los perfiles de redes sociales del usuario : utilice la API de redes sociales, recopile el interés del usuario de Facebook, Twitter, etc. implemente el sistema de recomendación para el interés del usuario
    4. Clasificación de tweets y detección de tendencias: clasifique los tweets para deportes, negocios, política, entretenimiento, etc. y detecte tweets de tendencias en esos dominios
    5. Predicción de revisión de películas: use críticas de películas en línea para predecir críticas de nuevas películas.
    6. Resumir reseñas de restaurantes: tome una lista de reseñas sobre un restaurante y genere un único resumen en inglés para ese restaurante.
    7. AutoBot: crea un sistema que pueda mantener una conversación contigo. El usuario escribe mensajes y su sistema responde en función del texto del usuario. Muchos enfoques aquí … podría usar un gran corpus de Twitter y hacer similitud de lenguaje
    8. Sistema de noticias basado en Twitter : recopile tweets para varias categorías cada hora, base diaria, identifique debates de tendencias, realice análisis semánticos y cree un sistema de noticias (consulte el producto Frrole)

    Pocos conjuntos de datos utilizados para la aplicación bigdata que puede utilizar:

    1. Página de inicio para el conjunto de datos de 20 grupos de noticias: el conjunto de datos de 20 grupos de noticias es una colección de aproximadamente 20,000 documentos de grupos de noticias, divididos (casi) de manera uniforme en 20 grupos de noticias diferentes.
    2. Descargar Trec (= Conferencia de recuperación de texto) Conjunto de datos: conjuntos de datos de texto utilizados en la recuperación de información y el aprendizaje en dominios de texto.
    3. World Factbook Download 2013- El World Factbook proporciona información sobre la historia, las personas, el gobierno, la economía, la geografía, las comunicaciones, el transporte, los asuntos militares y transnacionales para 267 entidades mundiales.
    4. DBpedia “Lanzamiento del conjunto de datos: el conjunto de datos DBpedia utiliza una gran ontología multidominio derivada de Wikipedia. La versión en inglés del conjunto de datos DBpedia 2014 describe actualmente 4.58 millones de” cosas “con 583 millones de” hechos “. Además, nosotros proporcionan versiones localizadas de DBpedia en 125 idiomas. Todas estas versiones juntas describen 38.3 millones de cosas, de las cuales 23.8 millones se superponen (están interrelacionadas) con conceptos de la DBpedia en inglés.
    5. http://konect.uni-koblenz.de/net … – KONECT (Koblenz Network Collection) es un proyecto para recopilar grandes conjuntos de datos de red de todo tipo para realizar investigaciones en ciencias de redes y campos relacionados,
    6. Max-Planck-Institut für Informatik: YAGO – YAGO (Yet Another Great Ontology) es una base de conocimiento desarrollada en el Instituto Max Planck de Ciencias de la Computación en Sarrebruck. Se extrae automáticamente de Wikipedia y otras fuentes.
    7. Reuters-21578 Conjunto de datos de recopilación de categorización de texto: repositorio de aprendizaje automático
    8. Página CSTR en ed.ac.uk: CSTR se ocupa de la investigación en todas las áreas de la tecnología del habla, incluido el reconocimiento de voz, la síntesis de voz, el procesamiento de la señal de voz, el acceso a la información, las interfaces multimodales y los sistemas de diálogo. Tenemos muchas colaboraciones con la comunidad más amplia de investigadores en ciencias del habla, lenguaje, cognición y aprendizaje automático por las que Edimburgo es reconocida.
    9. ConceptNet: ConceptNet es una base de conocimiento de sentido común y un kit de herramientas de procesamiento del lenguaje natural disponibles de forma gratuita que admite muchas tareas prácticas de razonamiento textual sobre documentos del mundo real listos para usar (sin capacitación estadística adicional)

    Otros conjuntos de datos bien conocidos son: MNIST, CIFAR e ImageNet.

    Es realmente bueno que quieras convertirte en científico de datos. La mayoría de la gente piensa que es muy difícil convertirse en un científico de datos.

    Pero, déjenme aclarar que no es difícil, si trabajarán de manera muy inteligente en la dirección correcta, pueden convertirse fácilmente en científicos de datos.

    Para convertirse en un científico de datos, primero comprenda quiénes son los científicos de datos, luego aprenda qué habilidades se requieren para el científico de datos y luego vea sus roles y responsabilidades. Por último, de acuerdo con sus roles y responsabilidades, intente agregar esas habilidades en usted mismo.

    En primer lugar, háganos saber quiénes son los científicos de datos.

    Los científicos de datos son una nueva generación de expertos en datos analíticos que tienen las habilidades técnicas para resolver problemas complejos y la curiosidad de explorar qué problemas deben resolverse.

    Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio.

    Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva.

    Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    • Captura de datos y preprocesamiento
    • Análisis de datos y reconocimiento de patrones
    • Presentación y visualización

    Algunas tareas laborales de los científicos de datos:

    • Transformar datos rebeldes en un formato más utilizable.
    • Resolver problemas relacionados con el negocio utilizando técnicas basadas en datos.
    • Trabajando con una variedad de lenguajes de programación.
    • Tener una sólida comprensión de las estadísticas, incluidas las pruebas estadísticas y las distribuciones.
    • Mantenerse al tanto de las técnicas analíticas como el aprendizaje automático, el aprendizaje profundo y la analítica de texto.
    • Comunicándose y colaborando con TI y negocios.
    • Buscar el orden y los patrones en los datos, así como detectar tendencias que pueden ayudar a los resultados de una empresa.

    Ahora, veamos las habilidades requeridas para Data Scientist:

    Habilidades necesarias para convertirse en científico de datos

    • Conocimiento profundo de la codificación Python. Es el lenguaje más común, incluido Perl, Ruby, etc.
    • Conocimiento sólido de SAS / R
    • Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que provenga de videos, redes sociales, etc.
    • Habilidad de sonido en la codificación de bases de datos SQL.
    • Data Scientist debería tener una buena comprensión de varias funciones analíticas. Por ejemplo rango, mediana, etc.
    • Se requiere un conocimiento profundo del aprendizaje automático.
    • Un científico de datos debe estar familiarizado con Hive , mahout, redes bayesianas , etc. En ciencia de datos, el conocimiento de MySQL es como una ventaja adicional.

    Ahora, veamos los roles y responsabilidades del científico de datos:

    a) Responsabilidades de un científico de datos

    • Limpieza y procesamiento de datos.
    • Predicción del problema empresarial. Sus roles son dar resultados futuros de ese negocio.
    • Desarrollar modelos de aprendizaje automático y métodos analíticos.
    • Encuentre nuevas preguntas comerciales que luego puedan agregar valor al negocio.
    • Minería de datos utilizando métodos de vanguardia.
    • Presentar resultados de manera clara y hacer el análisis ad-hoc.

    Para saber más sobre las habilidades y responsabilidades de Data Scientist, consulte el siguiente enlace:

    Roles y responsabilidades de un científico de datos

    Aquí hay algunas tendencias laborales de los científicos de datos.

    Para realizar 3 etapas de Data Scientists, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados.

    Diferentes herramientas para realizar las 3 etapas de los científicos de datos:

    1. Herramientas para extracción de datos y preprocesamiento

    a. SQL

    Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

    si. Tecnologías de Big Data

    Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo).

    C. UNIX

    Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

    re. Pitón

    Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

    2. Herramientas para análisis de datos y coincidencia de patrones

    Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

    a. SAS

    Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

    si. R

    R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos, ya que la mayoría de las cosas se implementan en R. Para obtener la comparación entre las principales herramientas de análisis de datos, siga esta guía de comparación entre R vs SAS y SPSS.

    C. Máquina inclinada

    El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis de datos avanzados, análisis predictivo, coincidencia de patrones avanzada.

    Para obtener más herramientas para realizar 3 etapas de visita de Data Scientist: Habilidades necesarias para convertirse en Data Scientist

    Puede ir a través de este enlace para conocer las certificaciones para científicos de datos: varias certificaciones para científicos de datos

    ¡¡Espero eso ayude!!

    Hola:

    Se trata de cuatro fases clave:

    Fase 1- Aprendiendo las cuerdas

    Fase 2- Encontrar un trabajo

    Fase 3- Tener éxito en tu carrera de ciencia de datos

    Fase 4- Disfrutando de los beneficios de su valor y pasión

    Permítanme detallar cada una de las fases a continuación.

    Fase 1- Aprendiendo las cuerdas

    Sepa si está hecho para ser un científico de datos y luego comience su viaje siguiendo los tres pasos que se detallan a continuación:

    Primer paso: autoevalúe si tiene las siguientes habilidades, que en mi opinión son imprescindibles para que pueda lograr el éxito en la vida de Data Science

    • Amor por los números y las cosas cuantitativas.
    • Grit para seguir aprendiendo
    • Alguna experiencia en programación (preferida)
    • Enfoque de pensamiento estructurado
    • Pasión por resolver problemas
    • Voluntad de aprender conceptos estadísticos.

    Segundo paso: si cree que demuestra las habilidades y aptitudes anteriores y / o está dispuesto a aprender, continúe con el segundo paso. Esta es una etapa de aprendizaje GRATUITA. ¡Y puedes comenzar este viaje ahora mismo! Le sugiero que visite Coursera, edX, LinkedIn Learnings (Lynda: Cursos en línea, clases, capacitación, tutoriales) y otras plataformas de aprendizaje en línea. Hay varios cursos GRATUITOS disponibles que debes comenzar a aprovechar. Comience a tomar estos cursos e intente hacerlo lo mejor posible. Asegúrese de finalizar todas las tareas y cuestionarios para obtener el máximo valor de los cursos en línea.

    Además, debido a la democratización de ML / AI, Google, IBM y otras empresas similares nos han facilitado el acceso y el aumento de nuestro conocimiento sobre Big Data, herramientas y técnicas de ML / AI. Algunas de las herramientas gratuitas que debes probar para dar una vuelta son:

    o Pila de aprendizaje automático de Google – tensorflow

    o Apache Spark

    o IBM Watson

    o Microsoft Azure

    Simplemente haga google y encontrará enlaces para las pilas anteriores. Comencemos con los aprendizajes gratuitos.

    Tercer paso: una vez que haya probado algunos cursos gratuitos y decida unirse a un curso de ciencias de datos, aquí encontrará una guía sobre cómo elegir el programa adecuado para usted.

    Autodidacta vs Instructor dirigido – Prefiere instructor dirigido ya que esto le dará más oportunidades para aclarar sus dudas. Según una estadística, el 80–90% de los estudiantes no completan su curso a su propio ritmo / basado en videos.

    Online vs Class-room- Algunas personas prefieren las aulas para el aprendizaje cara a cara y la interacción con otros estudiantes. Sin embargo, los cursos en línea son igualmente efectivos si estás motivado.

    Calidad de los instructores: hay dos tipos de formadores en el mercado. 1- Quienes han realizado algunos cursos y ahora están haciendo la capacitación 2- Profesionales de la industria. Estas son las personas que han trabajado durante años significativos en la industria. Siempre debe preferir aprender de profesionales de la industria con experiencia laboral significativa. Debo advertirle que, desafortunadamente, hay algunas personalidades falsas en esta industria, así que verifique usted mismo el perfil de linkedin del entrenador y vea cuántas personas han respaldado al instructor o al profesorado por las habilidades de ciencia de datos. Si no ve o tiene muy poco respaldo, es una bandera roja.

    Asistencia de colocación: verifique si el instituto proporciona asistencia de colocación o no. También solicite estadísticas sobre cuántas personas han sido ubicadas con éxito por ellos. En última instancia, esta es una de las principales razones por las que contemplan tomar un curso después de todo.

    Estudios de casos prácticos y tareas: elija el curso que le ofrece varios conjuntos de datos y problemas de la industria del mundo real para trabajar. Prefiere los que tienen Learning Management System (LMS) además de eso para el aprendizaje complementario.

    Ayuda continua: no dominará los temas en 1 o 2 meses, le llevará varios meses construir consuelo en estos temas. Se prefiere un instituto que brinde ayuda a largo plazo con sus necesidades de aprendizaje y responda sus consultas en el futuro.

    Certificación: si todo lo demás es igual, una certificación de un instituto reputado será mejor.

    Pruebas y tareas: es fundamental evaluar su comprensión periódicamente mediante pruebas y tareas. Un buen instituto dará toneladas de pruebas y tareas y proporcionará la calificación y la retroalimentación.

    Precio- ¿Cómo podemos olvidar esto? Evaluar si el curso tiene una buena relación calidad-precio o no. Compara los contenidos y la cantidad de horas. Es mejor un instituto que ofrezca más contenido y más horas de contacto por cada centavo que pague.

    Fase 2- Encontrar un trabajo

    Esto podría ser complicado, pero aquí hay algunos consejos para ayudarlo:

    • Si eres más nuevo (0–2 años de experiencia), será más fácil.
    • Si está haciendo algo similar en su función actual, será mucho más fácil para usted demostrar su idoneidad a un posible empleador. Si estás involucrado en algo totalmente diferente, será un poco más difícil
    • Necesita conocer los conceptos y la aplicación práctica. Idealmente, debería tener algunos proyectos en los que ya haya aplicado las habilidades.
    • Si ha participado en alguna competencia (como Kaggle) y lo ha hecho bien, resalte estas actividades en su currículum de manera destacada. Hay empresas que le ofrecerán sus trabajos si puede obtener buenos resultados en estas competencias.
    • Varios empleadores hoy en día tienen Hackathon y abren desafíos para que cualquiera participe. Si lo haces bien, ¡obtienes un trabajo para ti!
    • Una cosa que siempre funciona es pasar por una referencia en la empresa.
    • Complete los cursos GRATUITOS que ofrece Coursera, etc. y mencione eso en su currículum.
    • Cree visibilidad para usted participando en blogs y foros
    • No insista en encontrar un papel a tiempo completo desde el principio. Esté abierto a unirse como pasante o trabaje para obtener los beneficios mínimos para construir la experiencia. Más tarde puedes capitalizarlo.
    • En igualdad de condiciones, las empresas más pequeñas pueden estar más dispuestas a acogerlo, en comparación con MNC, etc.
    • Por último, pero no menos importante, ¡nunca te rindas! Si realmente lo quieres, lo obtendrás.

    Fase 3- Tener éxito en tu carrera de ciencia de datos

    Aquí están mis 10 punteros principales para garantizar un éxito duradero.

    • Aprende tanto como sea posible. Pase de 4 a 5 horas cada semana en el aprendizaje y el desarrollo y conozca lo último en la industria
    • Desafío del status quo. Nunca suponga que lo que se está haciendo está siguiendo el enfoque más efectivo
    • Cree que eres igual a todos los demás en la jerarquía. No tengas miedo de decir lo que piensas
    • Concéntrese en la innovación y salga con la tierra rompiendo ideas en lugar de hacer el negocio como de costumbre.
    • Concéntrese en desarrollar excelentes habilidades de comunicación y habilidades blandas, ya que esta es una de las mayores brechas que he visto en los profesionales de análisis
    • No te conviertas en un pony de un solo truco. trate de obtener exposición en diferentes industrias y diferentes áreas funcionales.
    • Participe en competiciones y eventos como Kaggle, para saber cuál es su posición frente a su grupo de compañeros.
    • Intente escribir libros blancos y blogs sobre su experiencia en el tema.
    • Desarrollar experiencia en el dominio ya que sin ese análisis no es efectivo.
    • Finalmente, mantenga siempre una visibilidad clara de su fortaleza y oportunidades y de cualquier punto ciego. Busque activamente comentarios de su grupo de pares y sus superiores.

    Fase 4- Disfrutando de los beneficios de su valor y pasión

    El futuro de Big Data y Data Analytics es realmente brillante. ¡Según IBM, el 90% de los datos que tenemos en el mundo hoy se han generado en los últimos 2 años! Todos los días estamos generando 2,5 bytes quintilianos (2,500,000 terabytes) de datos. Estos datos provienen de todas partes, como redes sociales, sensores, transacciones, imágenes, videos, etc. Se espera que el crecimiento de estos datos sea aún más rápido en las próximas décadas.

    La conclusión es que Big Data está aquí para quedarse y requerirá una gran cantidad de científicos de datos y máquinas para obtener estos datos para obtener información e inteligencia procesables.

    ¿Qué significa para ti?

    Si busca trabajo con habilidades de ML / AI Big Data, al menos los próximos 10-15 años serán un período de auge para usted, donde gigantes tecnológicos como Google, Facebook, Microsoft, IBM, otras compañías en todos los mercados verticales y nuevas empresas en todo el mundo estarán igualmente interesados ​​en contratar un talento como tú.

    Si usted es un emprendedor con una buena idea relacionada con Big Data de ML / AI, habrá muchas oportunidades para recaudar dinero para impulsar el crecimiento de su negocio. Según una estadística de Kalaari, ¡las empresas de IA han recaudado $ 6B USD desde 2014!

    Espero que esto ayude.

    ¡Salud!

    Gracias por sus votos a favor de antemano. Me mantienen en marcha! ¡Gracias!

    Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

    ¿CÓMO PUEDO SER UN CIENTÍFICO DE DATOS?

    ¿Alguna vez se ha preguntado cómo las empresas pueden predecir qué clientes probablemente dejarán a sus competidores y se acercarán a ellos y qué clientes probablemente se volverán contra ellos e irán a sus competidores? Bueno, las empresas tienen sus propios científicos especiales que analizan grandes datos y les permiten no solo analizar y presentar sus datos, sino también desarrollar estrategias efectivas basadas en el análisis científico proporcionado por un científico de datos. William S. Cleveland acuñó el término científico de datos en 2001, cuando promovió la idea de la integración de la informática y las estadísticas para crear mejores herramientas analíticas. En teoría, los científicos de datos utilizan sus habilidades y conocimientos aplicados para convertir los datos en ideas que podrían ayudar a las empresas a desarrollar estrategias que van desde el desarrollo de productos hasta la retención de clientes y la búsqueda de nuevas oportunidades de negocio.

    La ciencia de datos se ocupa de la disposición de los datos obtenidos de varias fuentes utilizando diferentes habilidades en programación, matemáticas, estadísticas y otros para organizarlos. Si tiene interés y pasión por los datos, es posible que desee examinar este campo.

    A lo largo de los años, la demanda de científicos de datos ha ido en aumento con más personas encontrando su camino en esta área. La primera pregunta que se me ocurre es: ¿Quién es un científico de datos? ¡Buena pregunta! En términos simples, un científico de datos es una persona que toma una gran cantidad de puntos de datos estructurados y no estructurados, aplica estadísticas de habilidades, programación y matemáticas para reorganizarlos y organizarlos para una mejor comprensión. También encuentran soluciones a los desafíos del negocio mediante la aplicación de razonamiento contextual, conocimiento de la industria y el análisis adecuado de los supuestos preexistentes. Por lo tanto, podemos decir que el trabajo del científico de datos es importante.

    Para que consigas un trabajo en este campo, primero necesitas ciertas calificaciones.

    ¿Necesito un título para ser un científico de datos?

    Bueno, tener un título es muy importante. De hecho, los estudios muestran que los científicos de datos con un título de maestría son alrededor del 88%, mientras que los que tienen un doctorado. son 46%. Dichos títulos están en áreas técnicas, cuantitativas y científicas de estudios como informática e ingeniería, estadística y matemáticas.

    Esto responde a la pregunta sobre la necesidad de un título para trabajar como científico de datos. Sin embargo, debe tener ciertas habilidades para respaldar su título porque esto es lo que la mayoría de las empresas realmente buscan. Esto nos lleva a nuestra siguiente pregunta.

    Leer más: ¿Cuál es el mejor instituto de capacitación en análisis de datos?

    ¿Cuáles son las habilidades exactas necesarias para convertirse en un científico de datos?

    Dado que los científicos de datos utilizan ciertas áreas de conocimiento para encontrar soluciones a problemas industriales y comerciales, las habilidades técnicas y comerciales definitivamente serían imprescindibles.

    Las habilidades técnicas incluyen: Matemáticas, herramientas de aprendizaje automático, estadísticas, habilidades en ingeniería de software, limpieza de datos, minería de datos, visualización de datos, habilidades de herramientas en la nube, Python, bases de datos SQL, técnicas en datos no estructurados y muchos otros.

    Se requieren habilidades comerciales, y esto incluye áreas como:

    1. Comunicación efectiva: Esto es necesario al presentar sus descubrimientos y técnicas a audiencias que pueden ser técnicas o no técnicas en esta área. La presentación debería hacerse en un idioma que comprendan.

    2. Solución analítica de problemas: existen desafíos de naturaleza de alto nivel que deben abordarse adecuadamente mediante el uso de los métodos correctos para utilizar los recursos humanos y el tiempo óptimos.

    3. Conocimiento de la industria: Esto es necesario para saber cómo funciona la industria en la que se encuentra y cómo debe recopilar, analizar y utilizar los datos.

    4. Curiosidad del intelecto: debe descubrir formas nuevas, inusuales y creativas para encontrar soluciones a los problemas.

    Habilidades técnicas

    En términos de habilidades técnicas, los científicos de datos podrían necesitar una amplia gama de herramientas y habilidades técnicas y analíticas, algunas de las cuales son:

    • Algoritmos Avanzados

    Los científicos de datos necesitan desarrollar y poder utilizar algoritmos avanzados existentes para analizar datos de manera efectiva, especialmente en big data.

    • Lenguaje de programadores

    Los científicos de datos necesitan comprender el lenguaje de programación para poder crear programas para un análisis efectivo y también pueden usar herramientas y aplicaciones como Python, R, Hadoop, SPSS Tableau y SQL, etc.

    • Habilidades visuales

    Esta es más un área de conocimiento, pero también podría tener habilidades técnicas, los científicos de datos deben tener un conocimiento profundo de las matemáticas y las herramientas estadísticas para no solo visualizar los resultados, sino también presentarlos en formatos gráficos fáciles de entender, etc.

    Leer más: ¿Cuáles son las habilidades necesarias para convertirse en analista de datos?

    ¿Qué hay de las certificaciones?

    Esta también es una muy buena manera de convertirse en un científico de datos, pero debe asegurarse de estar haciendo la certificación correcta. Puede buscar asesoramiento de mentores, buscar listados de trabajo o leer y escribir por escrito en el campo. Uno de los cursos de certificación de análisis de datos está dirigido por vidya digital, que es un programa de capacitación en vivo en línea dirigido por los mejores expertos de la industria.

    Puntos destacados del programa de capacitación:

    • Curso diseñado y dirigido por IIT / IIM Faculty
    • Tareas semanales
    • Soporte de colocación del 100%
    • 15 días de trabajo del proyecto
    • Acceso de por vida a videos

    Leer más: Asista a un seminario web gratuito realizado por vidya digital para obtener más información sobre la certificación en análisis de datos.

    Si su sueño es para un científico de datos, ¡ahora es el momento de hacer un movimiento!

    El camino para convertirse en un científico de datos probablemente lo llevará un tiempo, dependiendo de su experiencia previa y su red. Aprovechar estos dos puede ayudarlo a ubicarlo más rápidamente en un rol de científico de datos, pero esté preparado para estar siempre aprendiendo. Necesita un conocimiento profundo de la codificación de Python. Es necesario que el científico de datos pueda trabajar con datos no estructurados. Data Scientist debe tener una buena comprensión de varias funciones analíticas. Hay demasiados recursos disponibles. Intenta aprender de ellos. También puedo sugerirle los mejores cursos en línea de ciencia de datos

    • Entrenamiento completo de ciencia de datos con Python para análisis de datos
    • Introducción a la ciencia de datos

    elige el primer curso … de este curso puedes aprender sobre:

    Después de tomar este curso, usará fácilmente paquetes como Numpy, Pandas y Matplotlib para trabajar con datos reales en Python. Incluso comprenderá conceptos profundos como el modelado estadístico en el paquete Statsmodels de Python y la diferencia entre estadísticas y aprendizaje automático (incluidas las técnicas prácticas). ¡Incluso te presentaré el aprendizaje profundo y las redes neuronales usando el potente marco H2o!

    • Instale Anaconda y trabaje dentro del entorno iPytjhon / Jupyter, un poderoso marco para el análisis de la ciencia de datos
    • Conviértase en experto en el uso de los paquetes de ciencia de datos de Python más comunes, incluidos Numpy, Pandas, Scikit y Matplotlib
    • Poder leer datos de diferentes fuentes (incluidos los datos de la página web) y limpiar los datos
    • Realice tareas de exploración y preprocesamiento de datos, como tabulación, pivoteo y resumen de datos en Python
    • Conviértase en experto trabajando con datos de la vida real recopilados de diferentes fuentes
    • Realice la visualización de datos y comprenda qué técnicas aplicar cuando
    • Llevar a cabo las técnicas de análisis de datos estadísticos más comunes en Python, incluidas las pruebas t y la regresión lineal
    • Comprender la diferencia entre el aprendizaje automático y el análisis de datos estadísticos
    • Implemente diferentes técnicas de aprendizaje sin supervisión en datos de la vida real.
    • Implementar técnicas de aprendizaje supervisado (tanto en forma de clasificación como de regresión) en datos reales.
    • Evaluar la precisión y generalidad de los modelos de aprendizaje automático.
    • Construya redes neuronales básicas y algoritmos de aprendizaje de aprendizaje profundo
    • Utilice el potente marco H2o para implementar redes neuronales profundas

    Recursos adicionales:

    • Data Science AZ ™: ejercicios de ciencia de datos de la vida real incluidos

    Comencemos la respuesta con Data Science y luego veremos las habilidades necesarias para convertirse en Data Scientist.

    ¿Qué es la ciencia de datos?

    Data Science es un campo que abarca los relacionados con la limpieza, preparación y análisis de datos. La ciencia de datos es un término general en el que se aplican muchos métodos científicos. Por ejemplo, las matemáticas, las estadísticas y muchas otras herramientas que los científicos aplican a los conjuntos de datos. El científico aplica las herramientas para extraer conocimiento de los datos.

    Es una herramienta para abordar Big Data . Y luego extraer información de él. First Data Scientist reúne conjuntos de datos de múltiples disciplinas y los compila. Después de eso, aplique aprendizaje automático , análisis predictivo y sentimental. Luego afílelo hasta un punto donde pueda derivar algo. Finalmente, extrae la información útil de la misma.

    El científico de datos entiende los datos desde un punto de vista comercial. Su trabajo es dar la predicción más precisa. Se encarga de dar sus predicciones. La predicción del científico de datos es muy precisa. Impide que un empresario pierda en el futuro.

    En inteligencia artificial y aprendizaje automático , el científico de datos tiene un gran papel que desempeñar. Para el científico de datos, el conocimiento del aprendizaje automático es imprescindible. El aprendizaje automático es el desarrollo más impresionante en el mundo tecnológico. Requiere saber qué método de aprendizaje automático lo ayudará exactamente. Y finalmente, cómo aplicar eso. No necesita saber cómo funciona ese método.

    Ahora, comencemos con Data Scientist.

    • Científico de datos

    Los científicos de datos son una nueva generación de expertos en datos analíticos que tienen las habilidades técnicas para resolver problemas complejos y la curiosidad de explorar qué problemas deben resolverse.

    Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio. En otras palabras, los científicos de datos utilizan su conocimiento de estadísticas y modelos para convertir los datos en información práctica sobre todo, desde el desarrollo de productos hasta la retención de clientes y nuevas oportunidades de negocio.

    Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    1. Captura de datos y preprocesamiento
    2. Análisis de datos y reconocimiento de patrones
    3. Presentación y visualización

    Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados.

    Para obtener más información sobre las herramientas para la extracción y el procesamiento previo de datos, consulte el siguiente enlace:

    Herramientas para extracción de datos y preprocesamiento

    1. Habilidades necesarias para convertirse en Data Scientist

    Aproximadamente más del 40% de los puestos de científicos de datos necesitan un título avanzado. Tal como un MBA o Ph.D. Más del 80% de los científicos de datos tienen títulos de maestría. Más del 45% tienen doctorados. Las siguientes son las habilidades de ciencia de datos requeridas:

    • Conocimiento profundo de la codificación Python. Es el lenguaje más común, incluido Perl, Ruby, etc.
    • Conocimiento sólido de SAS / R
    • Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que provenga de videos, redes sociales, etc.
    • Habilidad de sonido en la codificación de bases de datos SQL.
    • Data Scientist debería tener una buena comprensión de varias funciones analíticas. Por ejemplo rango, mediana, etc.
    • Se requiere un conocimiento profundo del aprendizaje automático.
    • Un científico de datos debe estar familiarizado con Hive , mahout, redes bayesianas , etc. En ciencia de datos, el conocimiento de MySQL es como una ventaja adicional.

    Para saber más sobre el científico de datos, consulte el siguiente enlace:

    Habilidades necesarias para convertirse en Data Scientist

    Después de las habilidades, ahora veamos las Responsabilidades del científico de datos:

    • Un rol de Data Scientist es predecir el futuro basado en patrones pasados.
    • El papel del científico de datos es generar su propia pregunta.
    • Como los científicos de datos tienen lo que si
    • El científico de datos aborda problemas comerciales
    • El científico de datos utiliza el aprendizaje automático para extraer información.

    a) Responsabilidades de un científico de datos

    • Limpieza y procesamiento de datos.
    • Predicción del problema empresarial. Sus roles son dar resultados futuros de ese negocio.
    • Desarrollar modelos de aprendizaje automático y métodos analíticos.
    • Encuentre nuevas preguntas comerciales que luego puedan agregar valor al negocio.
    • Minería de datos utilizando métodos de vanguardia.
    • Presentar resultados de manera clara y hacer el análisis ad-hoc.

    Aquí están los mejores cursos en general para cada uno de estos temas. Juntos, forman un plan de estudios integral de ciencias de datos.

    Los mejores cursos de ciencia de datos en Internet, clasificados por revisiones

    Asunto # 1: Introducción a la programación

    Aprenda a programar: los fundamentos (LPT1) y el Código de calidad de fabricación (LPT2) por la Universidad de Toronto a través de Coursera

    La serie Learn to Program de la Universidad de Toronto tiene una excelente combinación de dificultad de contenido y alcance para el científico de datos principiante. Enseñada en Python, la serie tiene una calificación promedio ponderada de 4.71 estrellas sobre 284 reseñas.

    Una introducción a la programación interactiva en Python (Parte 1) y (Parte 2) por Rice University a través de Coursera

    La serie de Programación interactiva en Python de la Universidad de Rice contiene dos de los mejores cursos en línea de la historia. Se inclinan hacia juegos y aplicaciones interactivas, que son temas menos aplicables en ciencia de datos. La serie tiene una calificación promedio ponderada de 4.93 estrellas en más de 6,069 comentarios.

    R Rastreo de programación por DataCamp

    Si está configurado para aprender R, la pista de programación R de DataCamp combina efectivamente los fundamentos de programación y la instrucción de sintaxis R. Tiene una calificación promedio ponderada de 4.29 estrellas en más de 14 reseñas.

    Tema # 2: Estadísticas y Probabilidad

    Fundamentos del análisis de datos – Parte 1 : Estadísticas usando R y Parte 2: Estadísticas inferenciales por la Universidad de Texas en Austin a través de edX

    Los cursos de la serie Fundamentos del análisis de datos de UT Austin son dos de los pocos con excelentes revisiones que también enseñan estadísticas y probabilidad con un enfoque en la codificación de ejemplos. La serie tiene una calificación promedio ponderada de 4.61 estrellas sobre 28 reseñas.

    Estadísticas con especialización R por la Universidad de Duke a través de Coursera

    Duke’s Statistics with R Specialization, que se divide en cinco cursos, tiene un programa de estudios integral con secciones completas dedicadas a la probabilidad. Tiene una calificación promedio ponderada de 3.6 estrellas sobre 5 reseñas, pero el curso en el que se basó tiene una calificación promedio ponderada de 4.77 estrellas sobre 60 reseñas.

    Introducción a la probabilidad – La ciencia de la incertidumbre por el Instituto de Tecnología de Massachusetts (MIT) a través de edX

    El curso de Introducción a la probabilidad del MIT tiene, con mucho, las calificaciones más altas de los cursos considerados en la guía de estadísticas y probabilidad. Es exclusivamente probable en gran detalle, además es más largo (15 semanas) y más desafiante que la mayoría de los MOOC. Tiene una calificación promedio ponderada de 4.82 estrellas sobre 38 comentarios.

    Tema # 3: Introducción a la ciencia de datos

    Data Science AZ: ejercicios de ciencia de datos de la vida real incluidos por Kirill Eremenko y el equipo SuperDataScience a través de Udemy

    Data Science AZ de Kirill Eremenko sobresale en la amplitud y profundidad de la cobertura del proceso de ciencia de datos. Los revisores elogian con frecuencia la capacidad de enseñanza natural del instructor. Tiene una calificación promedio ponderada de 4.5 estrellas sobre 5.078 comentarios.

    Introducción al análisis de datos por Udacity

    La Introducción al análisis de datos de Udacity cubre el proceso de ciencia de datos de manera coherente utilizando Python. Tiene una calificación promedio ponderada de 5 estrellas en 2 reseñas.

    Fundamentos de la ciencia de datos por la Universidad de Big Data

    Los fundamentos de ciencia de datos de Big Data University cubren el proceso completo de ciencia de datos e introduce Python, R y varias otras herramientas de código abierto. No hay revisiones para este curso en los sitios de revisión utilizados para este análisis.

    Tema # 4: Visualización de datos

    Visualización de datos con Tableau Specialization por la Universidad de California, Davis a través de Coursera

    Una serie de cinco cursos, la Visualización de datos de UC Davis con Especialización en Tableau se sumerge profundamente en la teoría de visualización. Se brindan oportunidades para practicar Tableau a través de tutoriales y un proyecto final. Tiene una calificación promedio ponderada de 4 estrellas en 2 reseñas.

    Visualización de datos con la serie ggplot2 por DataCamp

    Avalado por el creador de ggplot2 Hadley Wickham, una gran cantidad de teoría está cubierta en la Visualización de datos de DataCamp con la serie ggplot2. Conocerás R y su peculiar sintaxis bastante bien al abandonar estos cursos. No hay revisiones para estos cursos en los sitios de revisión utilizados para este análisis.

    Tableau 10 Series (Tableau 10 AZ y Tableau 10 Advanced Training) de Kirill Eremenko y el equipo SuperDataScience en Udemy

    Una introducción práctica efectiva, la serie Tableau 10 de Kirill Eremenko se centra principalmente en la cobertura de herramientas (Tableau) en lugar de la teoría de visualización de datos. Juntos, los dos cursos tienen una calificación promedio ponderada de 4.6 estrellas sobre 3,724 comentarios.

    Tema # 5: Aprendizaje automático

    Machine Learning por la Universidad de Stanford a través de Coursera

    Impartido por el famoso Andrew Ng, fundador de Google Brain y ex científico jefe de Baidu, el aprendizaje automático de la Universidad de Stanford cubre todos los aspectos del flujo de trabajo del aprendizaje automático y varios algoritmos. Enseñado en MATLAB u Octave, tiene una calificación promedio ponderada de 4.7 estrellas sobre 422 comentarios.

    Aprendizaje automático de la Universidad de Columbia a través de edX

    Una introducción más avanzada que la de Stanford, el Machine Learning de la Universidad de CoIumbia es un curso más nuevo con revisiones excepcionales y un instructor venerado. Las tareas del curso se pueden completar con Python, MATLAB u Octave. Tiene una calificación promedio ponderada de 4.8 estrellas sobre 10 comentarios.

    Machine Learning AZ: Python práctico y R en ciencia de datos por Kirill Eremenko y Hadelin de Ponteves a través de Udemy

    Kirill Eremenko y Hadelin de Ponteves ‘Machine Learning AZ’ es una oferta impresionantemente detallada que proporciona instrucción tanto en Python como en R, lo cual es raro y no se puede decir de ninguno de los otros cursos principales. Tiene una calificación promedio ponderada de 4.5 estrellas sobre 8,119 comentarios.

    Tema # 6: Aprendizaje profundo

    Aplicaciones creativas de aprendizaje profundo con TensorFlow de Kadenze

    Las aplicaciones creativas de aprendizaje profundo de Parag Mital con Tensorflow agregan un toque único a un tema técnico. Las “aplicaciones creativas” son inspiradoras, el curso se produce profesionalmente y el instructor sabe lo que hace. Enseñado en Python, tiene una calificación promedio ponderada de 4.75 estrellas en más de 16 reseñas.

    Redes neuronales para el aprendizaje automático de la Universidad de Toronto a través de Coursera

    Aprende de una leyenda. Geoffrey Hinton es conocido como el “padrino del aprendizaje profundo” y se distingue internacionalmente por su trabajo en redes neuronales artificiales. Sus redes neuronales para el aprendizaje automático es una clase avanzada. Impartido en Python, tiene una calificación promedio ponderada de 4.11 estrellas en más de 35 reseñas.

    Deep Learning AZ: Redes neuronales artificiales prácticas por Kirill Eremenko y Hadelin de Ponteves a través de Udemy

    Deep Learning AZ es una introducción accesible al aprendizaje profundo, con explicaciones intuitivas de Kirill Eremenko y demostraciones de código útiles de Hadelin de Ponteves. Enseñado en Python, tiene una calificación promedio ponderada de 4.6 estrellas sobre 1,314 comentarios.

    Y aquí está nuestra selección de cursos superior para cada una de las materias complementarias dentro de la ciencia de datos.

    Python y sus herramientas

    Python Programming Track de DataCamp , más sus cursos individuales de pandas:

    fundaciones pandas

    Manipulación de marcos de datos con pandas

    Fusionar marcos de datos con pandas

    El estilo de instrucción de código pesado de DataCamp y el entorno de programación en el navegador son excelentes para aprender la sintaxis. Sus cursos de Python tienen una calificación promedio ponderada de 4.64 estrellas en más de 14 reseñas. La Introducción al análisis de datos de Udacity, una de nuestras recomendaciones para la introducción a los cursos de ciencia de datos, también incluye NumPy y pandas.

    Data Sciences, en su etapa inicial, es algo en lo que todos pueden aventurarse. Todo lo que se necesita es una mentalidad de resolución de problemas y claridad de pensamiento sobre cómo abordar un problema.

    Fui reclutado como científico de datos directamente de la facultad de ingeniería de una de las principales empresas de ciencias de la decisión de la India, Mu Sigma. Si bien el autoaprendizaje y unas pocas sesiones en el aula me equiparon con el conjunto de habilidades de codificación, técnicas matemáticas y plataformas tecnológicas para comenzar, tuve que desarrollar la habilidad para diseñar una solución a un problema desde cero. Tuve que leer sobre varias técnicas matemáticas para un problema particular y eso es lo que me enseñó los pequeños matices de la industria.

    Todo lo que esta industria le pide a una persona es su interés en el campo. Si tienes interés en el campo, puedes retomar las cosas rápidamente. Las oportunidades de aprendizaje son infinitas en este espacio y uno puede elegir el área que desea buscar para especializarse. Reconocí mi fortaleza en la codificación e implementación de técnicas sobre cualquier conjunto de datos bastante rápido. Es mi fuerte y puedo ofrecer una buena cantidad de ayuda en ingeniería de datos y técnicas de manipulación. Entonces, sí, cualquiera puede probar suerte en ciencias de datos en cualquier momento.

    Edición 1: sobre la parte de cómo, uno puede comenzar con pequeñas empresas emergentes en la India o compañías de ciencias de datos de juego puro como Mu Sigma, Fractal, asociados de ZS, Quantiphi. Solicite a estas empresas directamente o mediante referencias. El proceso de la entrevista debería ser bastante consistente en todas estas compañías. Te pondrán a prueba sobre cómo abordarás un determinado problema comercial … quizás te pregunten sobre herramientas básicas como R, Excel y Python. Uno puede tomar cursos en Coursera y otros sitios MOOC para desarrollar esa habilidad. Algunos de los cursos que me gustan son:

    Especialización en ciencia de datos (por la Universidad John Hopkins)

    Ciencia de datos aplicada con Python (Universidad de Michigan)

    Machine Learning por Andrew NG (Universidad de Stanford): esto también lo capacitará en las técnicas matemáticas utilizadas en la industria

    Existen varios cursos que pueden ayudarlo a aprender todos los trucos y técnicas de la industria.

    Si está buscando una carrera que pueda aplicarse a múltiples industrias y pueda conducir a una amplia gama de proyectos interesantes y únicos, no busque más que la ciencia de datos.

    Apodado por Harvard Business Review como “el trabajo más sexy del siglo XXI”, la ciencia de datos es un campo que impulsa la innovación, alimenta su chispa creativa y tiene la capacidad de iluminar el mundo que nos rodea. Estas características, más la compensación superior al promedio que proporciona el trabajo, son probablemente los principales factores contribuyentes que hacen que la ciencia de datos se ubique en la lista de trabajos deseables cada año.

    Trabajos que los científicos de datos realmente hacen
    Existe mucho debate sobre cómo definir con precisión el trabajo de un científico de datos, en gran parte porque los requisitos para los científicos de datos varían mucho según el enfoque de la industria que elijan.

    “MÁS QUE NADA, LO QUE HACEN LOS CIENTÍFICOS DE DATOS ES DESCUBRIR MIENTRAS NADAN EN LOS DATOS. ES SU MÉTODO PREFERIDO DE NAVEGAR POR EL MUNDO ALREDEDOR DE ELLOS. AL FACILIDAD EN EL REINO DIGITAL, PUEDEN TRAER LA ESTRUCTURA A GRANDES CANTIDADES DE DATOS SIN FORMA Y HACER ANÁLISIS POSIBLE. IDENTIFICAN FUENTES DE DATOS RICOS, SE UNEN CON OTROS, FUENTES DE DATOS POTENCIALMENTE INCOMPLETAS Y LIMPIAN EL CONJUNTO RESULTANTE. EN UN PAISAJE COMPETITIVO DONDE LOS DESAFÍOS SIGUEN CAMBIANDO Y LOS DATOS NUNCA DEJAN DE FLUIR, LOS CIENTÍFICOS DE DATOS AYUDAN A LOS TOMADORES DE DECISIONES A CAMBIAR DEL ANÁLISIS AD HOC A UNA CONVERSACIÓN CONTINUA CON LOS DATOS “.

    Algunos trabajos que se le puede pedir a un científico de datos que realicen incluyen:

    • Enmarcar preguntas abiertas y realizar investigaciones para responder esas preguntas.
    • Extracción de grandes cantidades de datos de fuentes internas y externas.
    • Preparación de datos para el modelado predictivo y prescriptivo a través de programas analíticos, aprendizaje automático y metodologías estadísticas.
    • Explorar y examinar datos para determinar tendencias y patrones que pueden conducir a ideas procesables.
    • Inventar nuevos algoritmos para resolver problemas y nuevas herramientas para automatizar el trabajo.

    Existen diferentes tipos de científicos de datos, algunos de ellos son:

    Científicos de datos cuantitativos y exploratorios: estos científicos de datos combinan la teoría y la investigación exploratoria para mejorar los productos. Por lo general, los científicos de datos de este tipo tienen doctorados y pueden tener una sólida formación en física o aprendizaje automático.

    Científicos de datos operativos: trabajando en campos como finanzas, ventas u operaciones, estos científicos de datos tienen una sólida formación en análisis y estadísticas. Pueden concentrarse en áreas como la inteligencia de negocios, definir patrones y tendencias y usar análisis predictivos para producir ideas procesables.

    Científicos de datos de productos: estos profesionales se centran en comprender las formas en que los usuarios interactúan con un producto y en encontrar formas de mejorar o mejorar el producto en consecuencia. Trabajan estrechamente o actúan como gerentes de producto e ingenieros.

    El campo de la ciencia de datos, entonces, cubre una gran cantidad de terreno, abarcando desde los analistas que usan herramientas de inteligencia de negocios hasta los físicos que escriben código para tecnologías innovadoras, tales como automóviles autónomos y similares.

    Habilidades comunes y requisitos educativos para científicos de datos

    • Habilidades matemáticas como álgebra lineal, cálculo, probabilidad y estadística.
    • Herramientas y técnicas de aprendizaje automático.
    • Habilidades de ingeniería de software
    • Habilidades de gestión de bases de datos
    • Lenguajes y aplicaciones como Python, R, SQL, Java, C, C ++, SPSS, Tableau y Hadoop

    También hay tres partes educativas para convertirse en un científico de datos:

    Los títulos y certificados de posgrado brindan estructura, pasantías, redes y calificaciones académicas reconocidas para su currículum. Las especialidades que encajan perfectamente en carreras comunes de ciencia de datos incluyen: estadística, matemáticas, economía, investigación de operaciones e informática.

    Los MOOC y los cursos de aprendizaje autoguiado le permiten completar proyectos en su propio tiempo, pero requieren que estructurar su propio camino académico. Elegir este método de aprendizaje requiere que hagas tu propia red cuando sea el momento de encontrar un trabajo.

    Los bootcamps pueden ser enseñados por científicos de datos en ejercicio y pueden ser una forma rápida de adquirir algunas de las habilidades que necesita. El modelo de bootcamp se basa en el aprendizaje experimental y presenta algunas oportunidades de establecer contactos para ayudarlo con la colocación laboral. [1]

    Notas al pie

    [1] Cómo convertirse en un científico de datos

    El campo como su importancia seguirá creciendo en los próximos años. Mencionan además que obtener habilidades de científico de datos no solo ayuda al equipo interesado a vender y comercializar, sino que también devuelve ese valor a las empresas.

    “Se siente como una ciencia pura. Es una gran cantidad de noticias sorprendentes para usted: el número de ofertas de trabajo en el campo está creciendo notablemente a medida que más y más empleadores buscan contratar científicos de datos, analistas de datos y muchos más perfiles de trabajo. 2016 se perfila como el año de excelentes oportunidades laborales si de alguna manera relacionas tus habilidades con el análisis de big data. Big Data, Data Science – Clases de entrenamiento de cursos combinados en línea | Big Data, Data Science – Cursos combinados de cursos en línea

    El mundo de hoy se está volviendo loco por ‘Big Data’, y el científico de datos es el mejor trabajo una vez más este año. Pero el dilema es elegir qué habilidades lo identificarán entre los mejores empleadores. Una de las principales preocupaciones de los principales profesionales y estudiantes es que si conocen Java, ¿será útil conducir la carrera al nivel de Data Scientist? ¿Cuáles son esas ciertas habilidades que aumentan aún más su credibilidad y obligan a los empleadores a elegirlo sobre los demás?

    Recientemente, Crowd Flower Inc., especialista en abastecimiento colectivo de Data Science, encuestó para identificar cuáles son las habilidades de Data Science más buscadas que le darán el boleto de la fila superior en la compañía de sus sueños. Los expertos analizaron más de 3500 puestos de trabajo en el popular sitio web profesional, para trabajos de ciencia de datos y crearon un informe con los datos en tiempo real. Enumeró las principales 21 habilidades individuales que se esperan con mayor frecuencia de un profesional de la ciencia de datos. Los resultados ofrecen lo mejor para guiarlo en la adquisición de trabajos brillantes con altos salarios e incluso prepararse para su Curso de Certificación Profesional, es increíble ”, menciona uno de los Científicos de Datos de Sensis en el artículo de Business Today, a principios de este año. Más recientemente, como parte integral del ámbito de la ciencia de datos, estamos profundizando en las técnicas y herramientas de visualización de datos. Un científico de datos representa una evolución desde el rol comercial o analista de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemáticas. Habilidades de ciencia de datos más buscadas para 2016

    . Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

    El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

    Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

    Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

    Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

    Por el momento, el papel de un científico de datos lo desempeña una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de esa clase. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que puedan estar más allá del ámbito de los modelos actuales y los problemas comerciales. El analista de negocios trabajaría en los datos que ha recopilado el científico de datos. James Kobielus, un analista senior de Forrester, en su negocio, llega a comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para trabajar con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con el surgimiento de una carrera de pleno derecho, esto pronto cambiará.

    Las discusiones sobre quién está calificado exactamente para ser un científico de datos no difieren demasiado del debate que se sostuvo anteriormente sobre si, sin embargo, al principio, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el CTO del grupo en Shoppers Stop dice: “Hay una escasez de profesionales a los que se les puede llamar científicos de datos. Por el momento, quien tiene pasión por trabajar con datos está llenando el vacío ”.

    Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

    un proveedor de servicios de análisis y ciencia de decisiones dice: “Los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

    Con el advenimiento de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un ambiente agradable para la toma de decisiones. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica preventiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

    La curva de evolución se está moviendo del apoyo a la toma de decisiones a ser cada vez más operacional, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

    Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando “.

    En respuesta a este problema, Analytics as a Service se presenta como una alternativa factible. La analítica como servicio aún es incipiente y evoluciona; A medida que crece la complejidad y emergen modelos de servicio maduros que están vinculados con los resultados y el éxito, la tasa de adopción aumentará. La posibilidad de contratar a un científico de datos a través de un proveedor de servicios de análisis es un paso intermedio para muchas EMPRESAS medianas y pequeñas

    Como analista técnico, está acostumbrado a hacer las preguntas correctas y a descubrir cómo puede responderlas. Tiene un mejor punto de partida que muchos otros que intentan ingresar al campo. En este momento, la demanda es tan alta que no es difícil calificar un trabajo de nivel de entrada.

    Lo que las empresas buscan en un científico de datos junior. O en otras palabras, cómo debería verse su CV:

    • Un título de ingeniero. No quiero desanimar a las personas sin esto, pero un pedazo de papel que demuestra que tienes un historial de cálculo numérico lo hace fácil.
    • Experiencia en investigación. Esta podría ser una tesis que escribiste durante tus estudios. Esto podría ser proyectos en los que trabajó durante su trabajo anterior. Podrían ser algunos proyectos que inventaste para ti.
    • Habilidades en programación.
      Junior DS: un lenguaje de prototipos rápidos de alto nivel como Python o R. Recomiendo Python con mucha fuerza.
      Data Scientist: un lenguaje de implementación de bajo nivel como Java, C ++, C #, etc.
      Senior Data Scientist: un lenguaje escalable / Big Data como Scala / Spark

    Yo dividiría tu año de la siguiente manera:

    • Los primeros 3 días. Ve a través de The Open Source Data Science Masters y mira para cada curso si necesitas tomarlo y cuánto tiempo te tomaría. Planifique los primeros tres meses completos de sus cursos de máxima prioridad.
    • Primeros 3 meses. Estudiar. Intente finalizar al menos un proyecto de ciencia de big data que elija. Bloquee unas pocas horas cada semana para buscar una pasantía.
    • Próximos 3 meses. Realiza una pasantía, como analista de datos. Esto se acerca más a ser un científico de datos.
    • Después de esto. Intente obtener el puesto de científico de datos junior o comience a trabajar como analista de datos en una empresa que también hace ciencia de datos más avanzada. Sigue estudiando y trabajando en proyectos geniales. Demuestre sus habilidades de ciencia de datos a su empresa mostrando algunos proyectos. Quedarán impresionados y, con suerte, también te permitirán hacer esto en el trabajo. Si no, ve y demuestra tus habilidades a otras compañías.

    Periodo de tiempo. Date 1–2 años para llegar a la ciencia de datos real. Después de 5 años, puede ser uno de esa raza muy rara de grandes científicos de datos. Como con todas las grandes cosas de la vida, necesitará perseverancia. Pero si lo quieres lo suficiente, puedes llegar allí.

    Buena suerte