¿Cómo aprender ciencia de datos de una manera eficiente en el tiempo? La ciencia de datos es un campo amplio. ¿Cuál es el ‘20% ‘del tema que puedo dominar para darme el ‘80%’ del valor?

Aquí está la lista completa de cosas que probablemente necesitará saber para la ciencia de datos. Se clasifica de más importante a menos, lo que significa que la importancia de cada elemento posterior es exponencialmente menor que el elemento justo encima de él. Entonces, si está buscando obtener un 80% por un 20%, puede enfocarse en los puntos más altos.

  • Probabilidad básica y estadística
  • Python, SQL, R : secuencias de comandos básicas para la recuperación, el raspado, la manipulación, el análisis y la visualización de datos
  • Aprendizaje automático : técnicas para crear programas de autoaprendizaje a medida que se introducen nuevos datos.
    • Recursos: Aprendizaje automático | Coursera
  • Aprendizaje profundo : subcampo de aprendizaje automático donde no hay extracción manual de características. Esto a menudo es muy intensivo desde el punto de vista computacional y solo vale la pena en ciertos campos como la visión por computadora, el habla y algunas aplicaciones de series de tiempo y PNL
    • Recursos: CS231n: Redes neuronales convolucionales para el reconocimiento visual, CS224d: Aprendizaje profundo para el procesamiento del lenguaje natural
  • Big Data (esto podría ser mayor dependiendo de si está enfocado en más roles de tipo de ingeniería de datos)
    • Recurso: ¿Cómo aprende big data? (gran lista de recursos)

Si está buscando conectarse con otros científicos de datos en proyectos que crean, puede ir a sitios como Kaggle y Datmo para ver lo que otros han construido y construir sobre ellos.

Espero que esto ayude 🙂

En primer lugar, me gustaría mencionar que los dos son un poco contradictorios; Como también menciona en la explicación de su pregunta, el campo es muy amplio y la industria de los datos tiene muchos roles y no definiciones tan claras (La industria de la ciencia de datos: quién hace qué (infografía)).

No creo que el aprendizaje de la ciencia de datos de una manera eficiente en el tiempo no sea para todos: las personas con experiencia en ciencias de la computación (técnicas) por supuesto podrán hacerlo mejor que las personas de las humanidades, ¿verdad?

En general, creo que lo que debería reducirse es dejar caer todos los materiales de aprendizaje ‘estáticos’ y optar por un enfoque completo, ‘dinámico’ y práctico con ejercicios y proyectos.

  • Tienes antecedentes técnicos

Suponiendo que tiene una formación técnica, diría que debe usar Python. Probablemente has aprendido este idioma en la escuela y este lenguaje de programación ha ido ganando importancia en la industria de la ciencia de datos. Si desea asumir un desafío, considere aprender R: Curso gratuito de introducción a la programación en línea de R.

A continuación, también supongo que tiene una base sólida en estadísticas, matemáticas, algoritmos y bases de datos; Lo único que probablemente debería considerar si aún no lo ha hecho es el aprendizaje automático: Machine Learning – Stanford University | Coursera.

Si aún no lo ha hecho, también tomaría algunos ejercicios para aplicar el conocimiento con Python: más de 40 estadísticas de Python para recursos de ciencia de datos.

A continuación, tome estos cursos Tutorial de Kaggle Python sobre aprendizaje automático o Tutorial de Kaggle R sobre aprendizaje automático y comience a practicar en Kaggle (su hogar para la ciencia de datos). Si ha completado un par y todavía se encuentra con el tiempo, considere R: tome el curso de introducción gratuito de arriba, el Curso en línea de Introducción al aprendizaje automático y continúe con DrivenData Water Pumps Challenge y vaya a DrivenData con datos 4 buenos desafíos.

  • Realmente no tienes experiencia técnica

Si usted es de otro campo, inevitablemente llevará más tiempo ponerse al día. Comience asegurándose de sus cimientos. Use esta infografía como guía: Aprenda ciencia de datos – Infografía.

Comience por repasar sus conocimientos matemáticos aquí: Álgebra lineal | Academia Khan. No te olvides de las estadísticas Estadísticas y probabilidad y aprendizaje automático Machine Learning – Stanford University | Coursera. Considere tomar Algoritmos | Coursera. A continuación, tome el curso en línea Learn Python for Data Science. También las bases de datos son imprescindibles: Introducción a las bases de datos.

A continuación, aplique también el conocimiento que ha adquirido con Python, por ejemplo con: más de 40 estadísticas de Python para recursos de ciencia de datos y pensamiento estadístico en Python (Parte 1).

A continuación, tome estos cursos Tutorial de Kaggle Python sobre aprendizaje automático o Tutorial de Kaggle R sobre aprendizaje automático y comience a practicar en Kaggle (su hogar para la ciencia de datos).

Asegúrese de publicar su progreso de código bien documentado en Github; Esto puede servir como una cartera.

ATA Es una pregunta amplia, pero creo que genéricamente debes aprender haciendo, ya que necesariamente encontrarás ese 20% de inmediato. No comience con un libro de referencia o con una herramienta, sino con un problema que resolver.

La respuesta del cliché es buena: comience con un problema de Kaggle y aprenda a resolverlo, quizás eligiendo la solución de otra persona. Luego enséñese lo suficiente para mejorar la solución. Cubrirás mucho terreno importante si lo logras.

En cuanto a obtener los antecedentes de la teoría, la respuesta típica también es el curso Coursera ML, ya que es introductorio y práctico, además de rápido y gratuito.

Aprenda a usar Python para recuperar, procesar, manipular, analizar y visualizar datos. Luego, aprenda a escribir consultas SQL. Eso te llevará al 80% del camino. Recomiendo Harvard CS 109 para recoger estas habilidades (ver la respuesta de William Chen a ¿Cómo aprendo minería de datos? ¿Este curso de Harvard cs109 todavía es válido con los desarrollos recientes? Para obtener una lista de los recursos de Harvard CS 109).

Evite pasar demasiado tiempo aprendiendo tecnologías de “big data”: ellos:

  1. Son demasiado numerosos
  2. Funciona mejor cuando tiene grandes cantidades de datos para analizar, e incluso entonces tiene un montón de sobrecarga para configurar
  3. No tenga el volumen de recursos gratuitos para aprender sobre ellos en línea
  4. Es algo que los empleadores generalmente esperan que los candidatos sin experiencia recojan en el trabajo.

Entrevisté a muchos candidatos que siguieron los pasos discutidos aquí, pero se olvidaron de hacer lo esencial, las estadísticas. Aprende algo. Este es mi libro favorito de estadísticas de bricolaje: Amazon.com: The Statistical Sleuth: A Course in Methods of Data Analysis (9781133490678): Fred Ramsey, Daniel Schafer: Books (nombre tonto, gran libro). Debe saber cómo evaluar la significación estadística de numerosas maneras y saber cómo utilizar los métodos de regresión para los métodos exploratorios, explicativos y predictivos.

Puede comenzar con “Una introducción al aprendizaje estadístico”. Este libro le dará detalles sobre algunos métodos comúnmente utilizados con código en R.

Luego, comience a resolver desafíos de aprendizaje automático en línea.

De hecho, voy a tener que ir contra Sean Owen en este caso. Yo recomendaría hacer lo contrario. ¡Leyendo muchos libros! Luego, después de hacer eso, me tomó 6 meses, pero ya tenía una licenciatura en Matemática Computacional, comencé a trabajar en proyectos. Sin embargo, cuando esté aprendiendo los lenguajes de programación, es mejor que, en algún momento, siga los tutoriales. Es similar a aprender matemáticas para mí. No podría hacerlo a menos que entendiera todas las reglas primero. ¿Cómo vas a tomar la integral de una ecuación si no conoces los pasos involucrados …

Depende de lo que intente lograr y del problema que intente resolver, pero en muchos casos puede comenzar a agregar valor rápidamente con algunos conocimientos de SQL y Python o R, sin profundizar demasiado en las cuestiones teóricas / académicas. . Las lecciones de codificación interactivas en línea centradas en datos sobre Dataquest y Datacamp pueden darle un comienzo rápido. Si publica una pregunta más específica sobre lo que está tratando de hacer, las personas podrían ayudarlo más.

Escuché acerca de esta incubadora de ciencia de datos, de la lista de correo de mis universidades que afirma estar asociada con varias buenas compañías y lo capacitará para convertirse en un científico de datos en unas pocas semanas. Es un curso de alrededor de un mes y medio, ya que no quieres pasar mucho tiempo. Y también si los solicitantes califican, recibirán la capacitación de forma gratuita. Ya estoy inscrito en el Máster CS con una especialización en ciencia de datos, pero de lo contrario creo que vale la pena echarle un vistazo.
Lea en el enlace si está interesado: https://www.thedataincubator.com

Depende de los individuos! Si yo fuera usted, dominaría primero las habilidades técnicas y con eso no me refiero solo a la sintaxis sino a acostumbrarme a las diferentes bibliotecas estadísticas.

Existe un blog en Analytics Leap (www.a-leap.com) que describe lo que se debe hacer para convertirse en un científico de datos. ¡Es una buena lectura y puede ayudarlo!

Mejor,

UNA

Usar el sitio web de Datacamp

Es un sitio web especializado para el análisis de datos. Le proporciona todos los cursos que necesita saber para lidiar con la ciencia de datos. Cada curso es de aproximadamente 4 horas. Aprendí a trabajar realmente en el campo del análisis de datos en solo 4 cursos. Le recomiendo que visite el sitio web http://www.datacamp.com .

Depende de sus conocimientos y experiencia actuales, por supuesto. He tomado la especialización Coursera Datascience. He aprobado los 9 cursos y actualmente estoy ocupado con el “Proyecto Capstone”. Tenía algunos conocimientos previos de programación y estadísticas, por lo que me resultó relativamente fácil.

No sé (todavía) cómo los empleadores valoran esta capacitación.

More Interesting

¿Crees que las computadoras y la inteligencia artificial manipularán el futuro de la humanidad?

MIT Manipal vs PESIT BMS para CSE?

¿Qué hace que un curso de CS de 3 o 4 años sea valioso?

Si vivimos en una simulación por computadora, ¿qué sentiríamos si se eliminaran los 'datos y hardware' para la simulación?

Estoy interesado en CS y quiero seguir investigando en el futuro. ¿DTU / NSIT o los 5 NIT principales serán mejores para mí?

¿Cuáles son las unidades de medida más comunes en informática y qué miden?

Ciencias de la computación: me gustaría crear una base de datos en un servidor y luego buscar en mi programa conjuntos de datos específicos. ¿Es posible hacer algo con Qt o tengo que usar un SDK diferente?

¿Pensamientos sobre ITU Lahore? Entiendo que es un programa relativamente nuevo, pero la facultad y las oportunidades últimamente parecen prometedoras.

¿Qué algoritmos de aprendizaje automático son los más peligrosos en términos de perder el control sobre el razonamiento automático y las estrategias de descubrimiento?

¿Por qué las CPU modernas no ofrecen recolección de basura asistida por hardware y asignación de memoria?

¿Qué compañías están desarrollando el mejor software de OCR?

¿Es una mala decisión tomar electricidad incluso si puede obtener CS en BITS / IIT?

¿Qué es un algoritmo genético?

¿Debo solicitar una pasantía de CS incluso si no cumplo con algunos o todos los requisitos?

¿Cuáles son algunas cosas que el software MediaWiki obtuvo desde el principio? ¿Cuáles son las cosas que se equivocaron?