¿Cómo y de qué sitios web y libros puedo aprender en profundidad los conceptos de ciencia de datos para prepararme para el nivel de entrevista?

  1. Olvídate de los MOOC. Son (en la mayoría de los casos) demasiado superficiales.
  2. Concéntrese en un número pequeño (pero relevante) de algoritmos. Es imposible dominar todos los algoritmos, o dominar muchos en un corto período de tiempo.
  3. Lea libros, como Elementos de aprendizaje estadístico, y responda las preguntas.
  4. Implemente su propia versión de cada algoritmo seleccionado en (2)
  5. Asegúrese de saber cómo responder estas preguntas para cada algoritmo:
    1. Describa el algoritmo / escriba un pseudocódigo que lo explique
    2. Cuándo se sobreajusta / cómo puedes superar el sobreajuste
    3. ¿Cuáles son las ventajas y desventajas de usarlo?
    4. ¿Cuál es el costo computacional en el entrenamiento / en tiempo de ejecución
    5. Para qué tipo de problemas / datos es más adecuado

Prepararse para una entrevista de ciencia de datos se ha convertido en una misión imposible. Se le podría hacer literalmente cualquier pregunta de estadística / programación / ML / algoritmos. Asegúrate de enfocarte en temas específicos y asegúrate de tener una comprensión profunda de todo lo que te enfocas. Responder mal es mucho peor que decir “Lo siento, no soy un experto en este tema, me encantaría discutir diferentes enfoques con los que estoy más familiarizado”.

Gran pregunta! En mi experiencia, hay algunos tipos de problemas de entrevistas de ciencia de datos:

  1. Probabilidad y Estadística
  2. Codificación
  3. Diseño de experimentos

Para aprender estadísticas, recomiendo revisar los primeros 7 capítulos del libro Todas las estadísticas e implementar sus respuestas en código, por ejemplo, usando Python y Scipy. Si esta es su primera exposición a las estadísticas, es probable que deba complementar los temas con explicaciones más detalladas.

Para llegar a un nivel decente con la codificación, intente hacer un concurso de Kaggle y con el objetivo serio de llegar al 10% de los competidores. El tipo de trabajo que haces en Kaggle no está relacionado con lo que harás como Data Scientist, pero es una buena forma de practicar la codificación y la iteración de una solución. Después de completar el concurso de Kaggle, intente responder preguntas SQL en HackerRank.

Realmente no estoy seguro de cuál es la mejor manera de ser bueno en el diseño de experimentos: recomiendo leer muchas publicaciones de blog sobre pruebas A / B y luego pensar en cómo podría diseñar métricas o pruebas para algunos de sus productos favoritos. Por ejemplo, supongamos que desea probar la efectividad de las vistas previas de comentarios de Quora. ¿Qué métricas mirarías? ¿Qué números esperarías subir y qué esperarías bajar? ¿Cómo establecerías un grupo de control? ¿Qué problemas podrías tener con ese grupo de control? Etc.