Suponiendo que tiene habilidades de programación decentes (C ++, Java, C #) pero no es muy bueno con las estadísticas, ¿a qué cursos en línea (Coursera, etc.) debe un programador unirse para convertirse en un científico de datos?

Las habilidades más difíciles de aprender cuando estás haciendo la transición a la ciencia de datos como programador no son necesariamente cosas que se pueden cuantificar y “marcar” fácilmente, sino habilidades como:

  • Contar una historia convincente utilizando datos
  • Iteración rápida a través de preguntas para encontrar patrones en un conjunto de datos
  • Averiguar qué ideas son convincentes y cuáles no
  • Filtrando la señal del ruido en términos de patrones
  • Averiguar el valor comercial de lo que está haciendo y comunicarlo

Por supuesto, también hay habilidades difíciles de aprender, pero las más críticas que provienen de un entorno de programación son “más suaves”. Para aprender esto, debe crear proyectos de ciencia de datos.

Al construir y exhibir sus proyectos, desarrollará estas habilidades blandas al mismo tiempo que crea una cartera para mostrar a los posibles empleadores. Un proyecto puede ir desde la construcción de un algoritmo de aprendizaje automático para predecir el mercado de valores hasta el análisis de los datos del censo para determinar los cambios en la población.

En Dataquest, los proyectos son una parte clave de cómo enseñamos ciencia de datos. Las personas que han revisado nuestro plan de estudios y se han convertido en científicos de datos han aprovechado los proyectos para hacerlo.

Puedes leer más sobre cómo entrar en la mentalidad del proyecto aquí. Puede encontrar algunos buenos ejemplos de proyectos aquí y aquí. Un buen lugar para inspirarse en proyectos es el repositorio de conjuntos de datos FiveThirtyEight.

Si regularmente está creando proyectos y mostrándolos a otros, estará en una excelente posición para conseguir un trabajo, como explica esta guía.

Por supuesto, también hay habilidades “difíciles” para aprender, como estadísticas, álgebra lineal y aprendizaje automático. Aquí hay algunos recursos que pueden ayudarlo:

Estadística

  • academia Khan
  • OpenIntro

Álgebra lineal

  • academia Khan
  • Libro de Gilbert Strang

Aprendizaje automático

  • Curso de Andrew Ng
  • Elementos de aprendizaje estadístico

MOOC

  • Una especialización en Ciencia de Datos de la Universidad John Hopkins en Coursera , con 9 cursos y 1 proyecto final . También puede encontrar una amplia variedad de cursos relacionados con la ciencia de datos en Coursera .
  • Otra pista en Data Science de diferentes universidades en Udacity Catálogo de cursos para clases en línea .
  • Una lista de moocs por universidad como MIT y Berkley en | edX.
  • Un curso centrado en minería de datos con la página WEKA en waikato.ac.nz .
  • Quiere apoyarse en R y su uso en Data Science https://www.datacamp.com/ y OpenIntro.
  • Se puede encontrar una lista de mooc en Data Sciences por varias fuentes en la lista MOOC del sitio .

Campo de entrenamiento

  • Puede encontrar un bootcamp cerca de usted para utilizar un lenguaje de programación como Python y R en Carpintería de software.

Datos

  • Puede buscar, usar y compartir datos numéricos.

Blog

  • Análisis, minería de datos y ciencia de datos
  • Revoluciones
  • DataTau
  • R-bloggers
  • Simplemente estadísticas

Competencia
Ahora, si se siente seguro, comience a programar y gane algunos errores.
Ir de Big Data a Big Analytics
y lo importante es que he visto a muchas personas que solo programan en este sitio y ganan dinero.

Pregunta similar en Quora
¿Cuáles son los mejores recursos gratuitos para aprender ciencia de datos? Como estudiante de aprendizaje automático con un interés principal en la ciencia de datos, ¿cómo obtengo más experiencia práctica?

En términos generales, existen básicamente 8 pasos para aprender ciencia de datos y recomendaría que se una a los cursos de acuerdo con esos pasos y sus conocimientos previos.

Paso 1. Sé bueno en estadísticas, matemáticas y aprendizaje automático

Para su pregunta específica sobre estadísticas, recomendaría Estadísticas y probabilidad, Álgebra lineal, OpenIntro, Introducción a estadísticas | Udacity, Learn R Statistics – Tutoriales de estadísticas en línea | DataCamp, Machine Learning y Machine Learning – Universidad de Stanford | Coursera.

Paso 2. Aprende a codificar

Parece que ya tienes esta habilidad bajo control. Sin embargo, para la ciencia de datos, recomendaría que analice Python y R. Esto debería ser bastante fácil para usted. Pruebe algunos cursos como: Learn R, Python & Data Science Online | DataCamp o Introducción a Python para Data Science.

Paso 3. Comprender las bases de datos

Supongo que, como programador, ya se habrá puesto en contacto con las bases de datos. En cualquier caso, debe comprender cómo funcionan las bases de datos y los almacenes de datos, cómo se modelan los datos y cómo puede consultar las bases de datos. Aprenda a trabajar con SQL y NoSQL. Recomendaría Introducción y Bases de datos relacionales.

Paso 4. Explore el flujo de trabajo de ciencia de datos

Comprenda cómo funciona el flujo de trabajo de la ciencia de datos e intente realmente recorrerlo: aprenda a trabajar con los diferentes paquetes y bibliotecas o herramientas que existen para comprender lo que debe hacer. Comprenda también que este es un proceso circular que realmente no termina pronto. Echa un vistazo a RDocumentation y PyPI: el índice del paquete de Python (no cursos, sino recursos útiles).

Paso 5. Sube de nivel con Big Data

Comprenda por qué Big Data es diferente de otro procesamiento de datos. Familiarícese con los marcos Hadoop y Spark. Echa un vistazo a Introducción a Apache Spark.

——————————————————————————————————————-

Después de estos cinco pasos, básicamente ha terminado con el conocimiento teórico y es hora de profundizar en la construcción de alguna experiencia práctica:

Paso 6. Crecer, conectarse y aprender

Después de estos pasos, principalmente teóricos, es hora de seguir creciendo. Participe en un desafío, reúnase con sus compañeros, configure su propio proyecto favorito y desarrolle su intuición y capacidad para hacer preguntas críticas sobre sus datos, su enfoque y su análisis. Visite Your Home for Data Science (Kaggle) y DrivenData para proyectos de ciencia de datos. También puede encontrar desafíos en el hogar (Analytics Vidhya). Tendrá que cubrir mucho terreno con esos proyectos y construir una cartera que lo ayudará a conseguir un trabajo.

Paso 7. Sumérgete por completo

Es hora de sumergirse por completo. Ingrese a un campamento de entrenamiento, obtenga una pasantía u obtenga un trabajo (dependiendo de lo competente que ya sea).

Paso 8. Comprometerse con la comunidad

No se olvide de interactuar con la comunidad de ciencia de datos: siga y participe en Facebook, LinkedIn, Google+, Reddit, … Grupos. No olvide contribuir siempre que pueda o hacer preguntas que puedan ayudar a otros. Siga a las personas clave de la industria de la ciencia de datos y suscríbase a algunos boletines. Escuche podcasts, … Las posibilidades son infinitas.

Puede encontrar más información y recursos aquí: Learn Data Science – Resources for Python & R

Los cursos en línea son un buen primer paso, pero en la mayoría de los casos, no son suficientes, ya que hay muchos otros factores, los proyectos independientes son uno de ellos.

En cuanto a los cursos, primero querrá familiarizarse con el tipo de herramientas y habilidades que requiere un científico de datos. Personalmente, creo que DataCamp es la mayoría de los cursos específicos de ciencia de datos disponibles. Hay bastantes cursos gratuitos y también puede pagar una prima que permitiría el acceso completo. Otros cursos que ayudan incluyen EdX, Khan Academy, Code School y Codecademy.

Es importante saber que diferentes compañías requieren que conozca diferentes aspectos de la ciencia de datos y también la familiaridad con los lenguajes que usan. Algunos podrían trabajar específicamente con Python, algunos podrían ir con SAS, etc. En general, es clave entrenar sus habilidades analíticas y habilidades blandas (para la presentación). Además, recuerde que la discusión, limpieza, munging de datos, como quiera llamarlo, es probablemente la mayor parte del trabajo.

Además, adjunto aquí hay un enlace a muchas de las hojas de trucos realmente buenas para lenguajes de programación populares en el campo de la ciencia de datos: R, Python, SQL, Scala, etc.

50+ Data Science, Hojas de trucos de Machine Learning, actualizado

Echa un vistazo a Coursera – Machine Learning por Andrew Ng, profesor asociado. Aprenda sobre las técnicas de aprendizaje automático más efectivas y adquiera práctica al implementarlas y hacer que funcionen para usted.

También esta publicación de blog podría ser útil Big Data y Data Science: métodos y herramientas

¡El “aprendizaje estadístico” en Stanford Online comenzó recientemente (21/01/14) y no debe perderse! El curso gratuito es co-enseñado por el profesor Trevor Hastie y Robert Tibshirani, posiblemente dos de los mejores académicos en el campo.

Ellos, junto con Jerome Friedman, fueron coautores del libro de texto “Elementos de aprendizaje estadístico” (también conocido como ESL), que se han utilizado ampliamente en la última década.

La ventaja adicional es que el libro de texto “Introducción al aprendizaje estadístico” es gratuito, al igual que ESL. Leí los primeros capítulos y creo que el contenido es conciso y claro, sin demasiadas derivaciones matemáticas que se interpongan en el camino. Este podría ser un buen libro para comenzar si desea una introducción suave a las estadísticas o las técnicas de modelado.

Para convertirse en un buen científico de datos, uno debe tener una buena comprensión de los números y el conocimiento de programación. Hay cursos en línea a su propio ritmo disponibles en la web, algunos de los cuales le brindarán un conocimiento teórico profundo, pero sin una experiencia práctica, es difícil sobresalir en esta área.
Para un aprendiz rápido y autónomo, una buena manera es tomar cursos en Coursera o Udacity e intentar proyectos en Kaggle. Para aquellos que necesitan tutoría para comenzar su carrera en ciencias de la información, recomendaría tomar cursos sobre Venturesity. Una parte de sus cursos se graba y está disponible en línea y el resto se realiza en vivo con expertos y mentores de la industria. También puede unirse a su Big Data Analytics Bootcamp para un rápido aprendizaje de los temas relevantes y la experiencia práctica en proyectos en vivo.

Trabajo en la industria de big data. Seré honesto y muy corto. Data Science no es un campo / estudio que puede aprender siguiendo algunos cursos en línea. La ciencia de datos requiere muchas habilidades. Convertirse en un verdadero científico de datos requiere mucha práctica en el campo y muchos años de experiencia junto con curiosidad para analizar datos y comprender los requisitos comerciales.

Además de las estadísticas, necesita la comprensión básica de la probabilidad y debe ser bueno en álgebra lineal.

Dicho esto, seguir los cursos en línea lo ayudará a comenzar .
Coursera tiene pocos cursos en línea:

Coursera

Nota: Esta es mi respuesta honesta. Simplemente no quería señalar algunos enlaces a cursos en línea. Quería señalarle el escenario real.

Según mi experiencia, hay 2 cursos en Coursera que lo ayudarán a familiarizarse con el tipo de trabajo que realizan los científicos de datos.

1. Curso de computación para el análisis de datos: Este es un curso que lo ayudará con la programación R, un lenguaje de programación ampliamente utilizado por los científicos de datos.
2. Curso de análisis de datos: una vez que haya terminado con el curso mencionado anteriormente, puede comenzar con este. El análisis de datos se centra principalmente en cómo trabajar con datos reales utilizando R.

Si bien el Análisis de datos informáticos se centra más en los detalles matemáticos, este último lo ayudará a aplicar técnicas, interpretar los resultados y analizar posibles problemas.

Además, hay un curso de especialización en Data Science, que comienza en el mes de abril, que cubrirá una secuencia de cursos tal como se indica en el enlace Coursera.


Contrariamente a los consejos dados, debe encontrar su pasión, en lugar de aprender a ser un científico de datos. El típico científico de datos no es en realidad un recurso fungible: debe tener un área en la que desee concentrarse, de lo contrario, la tentación de convertirse en un analista financiero lo consumirá, porque esa industria contrata a granel y quema los que no no quiero

O tal vez le resulte interesante: descubrir que hay muchos cursos sobre economía y finanzas en Coursera que le muestran algunas formas interesantes en que los datos se hacen útiles. Pero necesitará algo más que un título universitario de CS para hacer algo más significativo que el administrador del sistema wiki.

O genómica. O física cuántica o mecánica cuántica aplicada. O nutrición y datos sensoriales. Casi todas las áreas, desde las finanzas hasta la biología y la fabricación, necesitan científicos de datos que puedan hablar con ellos sobre algo más que lo genial que es Hadoop o R.

Ser un científico de datos de primer nivel es como ser el mejor de su clase en un idioma extranjero: si no tiene a nadie con quien hablar y no tiene interés en alguna aplicación o área funcional como diplomático o maestro de escuela, es como todos los demás. Debe incrustar algo completamente ajeno a su área de estudio, ver si le gusta y luego descubrir qué necesita aprender para convertirlo en una oportunidad basada en datos.

Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información. Data Science, R, Mahout – Clases de entrenamiento de cursos combinados en línea | Data Science, R, Mahout – Cursos combinados de cursos en línea

Por el momento, el papel de un científico de datos lo desempeña una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de esa clase. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que puedan estar más allá del ámbito de los modelos actuales y los problemas comerciales. El analista de negocios trabajaría en los datos que ha recopilado el científico de datos. James Kobielus, un analista senior de Forrester, en su negocio, llega a comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para trabajar con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con el surgimiento de una carrera de pleno derecho, esto pronto cambiará.

Las discusiones sobre quién está calificado exactamente para ser un científico de datos no difieren demasiado del debate que se sostuvo anteriormente sobre si, sin embargo, al principio, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el CTO del grupo en Shoppers Stop dice: “Hay una escasez de profesionales a los que se les puede llamar científicos de datos. Por el momento, quien tiene pasión por trabajar con datos está llenando el vacío ”.

Comience revisando este podcast de Brett Hurt, cofundador y CEO de data.world, un proyecto en el que actualmente está construyendo el recurso de datos más significativo, colaborativo y abundante del mundo. Brett ofrece mucha sabiduría y consejos sobre su extensa historia y experiencia en programación y su papel integral en la fundación de otras cinco nuevas empresas.

Brett Hurt Podcast – Cofundador y CEO de data.world | Y Scouts

Estoy tomando los siguientes cursos para ampliar mi conocimiento:
– Introducción a la ciencia de datos – abril de 2013
– Aprendizaje automático
– Modelos gráficos probabilísticos
– Informática para el análisis de datos – Ene 2013

Aparte de esto, sugeriría intentar concursos de Kaggle para aprender trucos y consejos del mundo real.

He trabajado en el campo de las ciencias de datos y he encontrado algunas formas inteligentes de analizar y utilizar Big Data para los mejores propósitos.

Compartiendo mis experiencias a continuación, para aquellos que estén interesados.

Al principio utilicé ELK Stack o Elastic Stack, que es una combinación de tres tecnologías, Elasticsearch, Logstash y Kibana, para extraer y mostrar información de grandes cantidades de datos en tiempo real.

Leer más: Análisis de registros Parte 1

Continuando con el viaje de análisis de registros, exploré Apache Storm. Apache Storm es un marco de trabajo para computación tolerante a fallas, distribuida y en tiempo real. Storm le ofrece un conjunto de abstracciones para ayudar a construir sistemas que puedan analizar un gran volumen de datos en tiempo real.

Storm realiza todo el procesamiento en la memoria y deja la implementación de la capa de persistencia al usuario / desarrollador.

Más detalles: Log Analysis Part 2

Para convertirte en un científico de datos debes unirte al Curso de Ciencia de Datos. Este curso le proporciona grandes conocimientos y habilidades para convertirse en un Data Scientist exitoso. Generalmente, el curso de ciencia de datos cubre una gama de técnicas de Hadoop, R y Machine Learning que abarcan el estudio completo de ciencia de datos. Si decide unirse al curso de ciencia de datos, le recomiendo que se una al Curso de ciencia de datos de Edureka. Para saber sobre su curso, visite http://www.edureka.in/data-science

Oye,
Si quieres ser un científico de datos, puedes ir a cursos como el curso combinado Data Science R mahout. Después de este curso, tendrá un conocimiento básico de la ciencia de datos. Y para esto, la mejor opción son los programas de aprendizaje en línea disponibles en línea. Lynda, Intellipaat, Udacity son algunos de los proveedores de cursos en línea bien conocidos y se consideran expertos en la industria.
Espero que ayude
Que tengas un buen día
Data Science, R, Mahout – Clases de entrenamiento de cursos combinados en línea | Data Science, R, Mahout – Cursos combinados de cursos en línea

Creamos una infografía que resume los pasos que puede seguir para convertirse en un científico de datos (todos los recursos en línea): Cómo convertirse en un científico de datos en 8 sencillos pasos: la infografía. Recientemente, actualizamos esta infografía: Learn Data Science – Infographic. Ahora contiene pasos, herramientas y recursos actualizados para aquellos que desean comenzar a aprender ciencia de datos.