Creo que Joseph dio una respuesta muy completa a esa pregunta. Sin lugar a dudas, en la parte superior de esa lista están los paquetes comunes que encontrará como desarrollador en el campo.
Sin embargo, lo que ninguno de estos comentarios realmente toca es el tiempo que lleva familiarizarse con cada uno de estos temas. En realidad, son respuestas bastante profundas y malas que dan como resultado una precisión de clasificación del 100% son comunes debido al ajuste excesivo.
Si solo desea un puesto de nivel de entrada, no veo la necesidad de saber nada más allá de Naive Bayes, LDA y SVM que pueda obtener de los paquetes numpy + scipy más comunes. El álgebra lineal ayudará, pero si comprende el análisis de componentes principales y la descomposición de valores singulares, estas cosas anteriores son el 80% de la teoría que necesitará en la práctica.
- ¿Cuál es la diferencia entre datos e información?
- Quiero aprender análisis avanzados en 1-2 meses. ¿A qué curso debo unirme para convertirme en un experto en análisis de datos?
- ¿Cómo pueden las empresas beneficiarse del análisis de datos?
- ¿Cuándo salió el término Big Data y cómo difiere de los datos normales?
- Cómo usar mis vacaciones de verano para dedicarme a Data Science
Para ser honesto, estudiaría más sobre aprender a obtener buenas características más que cualquier otra cosa. Los clasificadores son una ciencia matemática bien entendida en este momento. Saber cómo obtener buenas características y construir buenos núcleos es donde la mayor parte de su inversión en empleo podría estar en roles más avanzados.
Dado que probablemente querrá implementarlos, debe conocer los lenguajes de programación básicos que utiliza la mayoría de las personas que reclutan, como los mencionados anteriormente.
Dudo seriamente que alguna matemática elegante sea muy importante. Es interesante saber cómo reproducir los espacios de kernel hilbert, pero a menudo en la mayoría de las startups solo querrá que siga implementando hasta que funcione correctamente en el final de la implementación. Hacer esto significa que solo tiene que hacer que algo funcione con los datos que se le han proporcionado. Tal vez esto sea un poco poco intelectual, pero a menudo es cómo funcionan los emprendimientos en etapas iniciales.
Si desea ser una persona de ciencia de datos y ser tratado como un científico, o como algo más que un técnico altamente remunerado, y trabajar a nivel gerencial, debe considerar la educación formal en aprendizaje automático y ciencias de la computación. Un joven brillante de 15 años puede conseguir un trabajo en una startup si puede hacer el trabajo, pero no le pediría que lidere un equipo a menos que tenga otras capacidades extraordinarias que en realidad son bastante raras.