Python es ahora mi primera opción para comenzar con un problema de aprendizaje automático, numpy, pandas y scikit-learn lo convirtieron en un excelente entorno que puede usarse en conjuntos de datos de tamaño mediano, llamados en un servidor, etc.
R es más mi herramienta de análisis de datos, la uso para analizar los efectos de las variables en profundidad, hacer pruebas estadísticas, etc. Además, sigo encontrando que ggplot2 de R es mucho más cómodo para trabajar que todos los equivalentes de Python (hasta ahora he usado matplotlib, ggplot, seaborn).
Julia es la herramienta que he descargado, probado, pero todavía no soy competente. Se dice que es eficiente y tiene buenas abstracciones (además puede ser paralelo, lo que será vital en los próximos años). Sin embargo, si está trabajando como yo en una empresa tradicional en la que cambiar una pieza de una pila tecnológica requiere tiempo y esfuerzo, no lo recomendaría todavía (al menos para grandes proyectos en la fase de implementación).
- ¿Qué ha causado la gran mejora en los algoritmos de reconocimiento de voz en los últimos años: mejores algoritmos (si es así, ¿cuál?) O la mayor potencia informática?
- ¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?
- ¿Qué algoritmos de aprendizaje automático no requieren escalado de características?
- ¿Qué hace una capa convolucional 1 × 1?
- Cómo obtener una pasantía de investigación del profesor en la NYU en proyectos que necesitan experiencia en minería de datos o aprendizaje automático
Scala / Spark tiene excelentes capacidades de aprendizaje automático y es una excelente herramienta para escalar la computación hasta miles de nodos. Tiene la gran ventaja de un REPL y Jupyter Notebook para pruebas y creación de prototipos, y puede compilarse para producción.