¿Es necesario implementar algoritmos principales de aprendizaje automático desde cero al menos una vez para obtener una pasantía en ciencia de datos en una empresa prestigiosa?

La implementación de algoritmos de aprendizaje automático no le enseña mucho sobre el aprendizaje automático. La aplicación de esos algoritmos a varios conjuntos de datos: visualización de resultados intermedios, ajuste de hiperparámetros, selección y diseño de características, limpieza de datos, etc.

Para evidencia anecdótica: entrevisté a un grupo de candidatos internos (estudiantes de doctorado) para un proyecto de aprendizaje profundo aplicado justo antes del verano, y nunca solicité tal experiencia. A pesar de nunca haber implementado CNN profundos desde cero, el interno que trabajó conmigo produjo algunos resultados sorprendentes que planeamos presentar pronto a un lugar líder. Del mismo modo, conozco muchos doctorados de ML muy buscados que nunca han implementado bosques aleatorios o SVM o NN o propagación de creencias por su cuenta.

Por otro lado, es importante conocer las herramientas relevantes que se solicitan para la pasantía, por ejemplo, si va a trabajar con grandes datos, probablemente necesite conocer bases de datos a gran escala y cosas como Hadoop junto con el scikit relevante de la biblioteca ML -aprender o TensorFlow. Si le falta mucho en ese frente, tendrá dificultades para convencer al entrevistador de que lo considere.

Implementar, dice Naive Bayes, realmente no ayudará mucho. Pero debe tener una comprensión muy profunda de cómo funcionan los algoritmos para comprender sus modos de falla y sus pros y contras. Esperarían que supieras: ¿funcionaría aquí un enfoque de embolsado o refuerzo? ¿Sería apropiado un modelo gráfico probabilístico frente a una máquina de vectores de soporte? ¿Cuál es el núcleo correcto para un SVM? Ese tipo de cosas.

No es necesario que haya implementado SVM para saber eso, pero debe tener una comprensión muy profunda de cómo funcionan los SVM.