¿Qué no enseñan los bootcamps de ciencia de datos?

Descargo de responsabilidad: Esto se debe a mi experiencia personal de enseñanza en un campo de entrenamiento “Introducción a la ciencia de datos” en San Francisco.

Los bootcamps definitivamente te ayudan a comenzar en un campo. Le brinda una comprensión del tema del aprendizaje automático / estadísticas / programación.

Sin embargo, ningún bootcamp puede convertirte en un experto y, en general, extrañan lo siguiente:

1) Los estudiantes no conocen las consideraciones prácticas de desplegar su modelo en producción. Ya sea el diseño de bases de datos para la implementación del modelo, la aceleración de los algoritmos, el trabajo con un desarrollador, etc. Aunque el conocimiento básico es excelente, lo que lo convierte en un científico de datos completo no solo es la creación de prototipos, sino también una comprensión completa de cómo implementar su modelo en producción.

2) Raramente he visto bootcamps enseñando técnicas de big data. Con eso quiero decir lo siguiente:
* Procedimientos de muestreo a emplear para desarrollar un modelo aproximado cuando los datos son demasiado grandes.
* Aprendizaje automático para Big Data.

3) Además, los bootcamps son generalmente apresurados, en algunos casos, los estudiantes se acostumbran a usar paquetes enlatados en R / Python como cajas negras.

Dicho esto, creo que algunos bootcamps cubren estos aspectos de una forma u otra. Además, los requisitos son muy diferentes para cada individuo.
Elija un bootcamp que se adapte a su propósito y habilidades.

No voy a juzgar los méritos de estos programas; Simplemente estoy respondiendo a la pregunta sobre las deficiencias.

La mayoría de estos bootcamps de “ciencia de datos” son en realidad bootcamps de “aprendizaje automático”. El aprendizaje automático es ciertamente una parte importante de la ciencia de datos, pero solo una parte. Algunas otras partes de ser un científico de datos que no he visto abordar estos campamentos de arranque (o dirección completa):

  • Pasar de un problema comercial cuasi definido a un problema de aprendizaje automático
  • Tratando de dar sentido a lo que el cliente quiere
  • Explicándoles con tacto que lo que declararon no es el verdadero problema en el que centrarse
  • Técnicas de preparación de datos duras (p. Ej., Técnicas avanzadas de imputación)
  • Diseño de experimentos y muestreo.
  • Causalidad (bastante importante para derivar pasos accionables de los resultados de su aprendizaje automático)
  • Juicio sobre qué hacer cuando el problema está mal definido
  • Presentaciones persuasivas (por ejemplo, convencer al ejecutivo beligerante de nivel C de que sus más de 30 años de experiencia e intuición están mal en este caso)
  • Explicar a los clientes y / o superiores lo que se puede esperar razonablemente del análisis (por ejemplo, no se generan ideas que cambien el negocio en solo dos meses de análisis)
  • Visualización de datos de nivel intermedio a avanzado (para ver lo que se hace y lo que no se debe hacer, consulte el famoso libro de Tufte, La visualización de la información cuantitativa).
  • Tecnologías de Big Data intermedias a avanzadas (p. Ej., Scala, Impala)
  • Métodos para resolver problemas de Big Data (por ejemplo, Hashing sensible a la localidad)
  • Métodos de aprendizaje automático de vanguardia (p. Ej., Aprendizaje de refuerzo profundo)
  • Estoy seguro de que me estoy olvidando de los demás.

    Debe comprender que estos bootcamps están tratando de lograr mucho en muy poco tiempo Y preparar a sus graduados para una buena oportunidad de ser contratados. Y esta misma lista podría aplicarse a “¿qué puntos ciegos tienen los procesos de entrevista típicos para los científicos de datos?”

    Nuevamente, no estoy aquí para respaldar o golpear estos bootcamps. Simplemente estoy respondiendo la pregunta planteada. Espero que esto sea útil.

    -Marca

    Descargo de responsabilidad 1: No he enseñado ni participado en un campamento de ciencia de datos; Sin embargo, tengo mucha experiencia como científico de datos profesional y comparé el programa de estudios de estos campamentos con las habilidades que se necesitan en un trabajo de ciencia de datos real.

    Descargo de responsabilidad 2: me entrevisté para un puesto de profesor para uno de los bootcamps más conocidos y me pasé por alto en el último minuto. Su evaluación fue: “Usted es un excelente científico de datos, pero necesitamos a alguien que sea competente en [lenguaje de programación específico] para nuestras necesidades inmediatas”. Sabiendo cuál era su necesidad inmediata, acepté su decisión.

    No puedes enseñar experiencia .

    Los campos de entrenamiento suelen ser bastante buenos para cubrir una amplia gama de temas y aplicaciones. Hay algunas cosas que pueden perderse aquí y allá, como las discutidas en la respuesta de Ankit. ¡Pero nada reemplaza la experiencia de trabajar en muchos problemas de ciencia de datos del mundo real en la práctica!

    • Comprender la velocidad frente a la precisión Las compensaciones con su aplicación específica son muy importantes, y es algo que no tendrá una buena idea de inmediato con un nuevo problema, a menos que tenga mucha experiencia en diferentes problemas de Data Science.
    • La interpretabilidad y la complejidad también es algo importante a tener en cuenta. Una red neuronal profunda puede brindarle la mejor precisión, pero un árbol de decisiones será mucho más fácil de entender si realmente necesita saber qué está sucediendo con su modelo y cómo hace esas predicciones críticas.
    • Lo último y posiblemente lo más importante es la intuición . Dado un problema de la ciencia de datos del mundo real, ¿sabría qué hacer? ¿Puede traducir los requisitos comerciales a las especificaciones técnicas ? ¿Qué modelo o algoritmo seleccionará y por qué? ¿Necesitas más datos? Antes de siquiera COMENZAR a abordar el problema, ¿es prácticamente factible?

    Con un problema personalizado del mundo real, no puedes simplemente buscar estas cosas. Estas son todas las habilidades que realmente solo puedes aprender de la experiencia .

    Los bootcamps de Data Science lo entrenan para ser generalistas. Te enseñan a completar de manera efectiva un proyecto de extremo a extremo. Recopilación de datos de diversas fuentes, preparación de datos, análisis exploratorio de datos, aprendizaje supervisado y aprendizaje no supervisado. Muchos de ellos intentarán enseñar otros temas, pero solo superficialmente o lo suficiente como para darle una base. Por ejemplo:

    • Desarrollo web y matraz: no será un desarrollador competente de pila completa
    • Visualización: no tendrá tiempo suficiente para aprender un lenguaje completamente nuevo, JavaScript y dominar la biblioteca D3.js
    • Aprendizaje profundo: las redes neuronales son un tema tan vasto que 1–2 días o incluso 7 días simplemente perjudica
    • PNL: unos días como máximo, mientras que puedes hacer 2 clases de semestre completo en un programa de maestría
    • Visión por computadora / Procesamiento de imágenes: probablemente no esté en el currículo de nadie
    • Habilidades gerenciales: en caso de que sea un estudiante mayor y con más experiencia y quiera pasar a un rol de gerente de Ciencia de datos
    • Ingeniería de Big Data: una descripción general del ecosistema actual (Hadoop, Spark)

    Actualmente estoy trabajando como asistente de enseñanza para K2 Data Science. Visite nuestro sitio web, obtenga un plan de estudios y envíeme un mensaje si tiene alguna pregunta.

    Como fundador de un nuevo campo de entrenamiento, Principal Analytics Prep (Home), hice esta misma pregunta y obtuve algunas respuestas, con la ayuda de un grupo de gerentes de contratación. Primero, la mayoría de los bootcamps enfocan casi todas las energías en enseñar codificación y desarrollo de software, por lo que las personas que no están interesadas en codificar trabajos quedan fuera de la mezcla. Hay muchos trabajos comerciales que emplean a personas con conocimientos de datos y están buscando perspicacia comercial, capacidad de interpretar los datos en el contexto comercial y el deseo de crear valor comercial utilizando datos. Estas habilidades no están cubiertas en la mayoría de los bootcamps o títulos académicos. No es suficiente poder trabajar con datos técnicamente; Los gerentes de contratación quieren personas que puedan hablar con personas no técnicas y persuadir a una organización para que tome medidas. [párrafo siguiente] Segundo, la mayoría de los bootcamps cuentan con personal recién graduado que ha trabajado solo un año o dos en la industria; La sabiduría en los datos proviene de muchos años de trabajo con conjuntos de datos del mundo real.

    Tercero, el objetivo de los bootcamps es conseguir que los estudiantes trabajen en el campo. La búsqueda de empleo está impulsada en gran medida por las redes. Es importante averiguar si el bootcamp está ayudando a los estudiantes a expandir sus redes.

    Echa un vistazo a nuestro plan de estudios innovador y de base amplia, y a nuestra facultad de primer nivel.

    Currículum de Especialista Certificado en Datos PAP