Las aplicaciones comerciales típicas del aprendizaje automático, como el modelado predictivo y la agrupación, dependen menos que nunca de la producción de código original.
La primera razón es el surgimiento de MLaaS (Machine Learning as a Service). La razón para ello proviene del hecho de que: el 20 por ciento de las herramientas en una caja de herramientas se utilizan en el 80 por ciento de las tareas (Principio de Pareto). El 20 por ciento restante de las tareas probablemente requiera un código personalizado.
La segunda razón es la escasez de profesionales que combinan habilidades analíticas, de codificación y automatización con un nivel razonable de conciencia empresarial. Para comprender, interpretar y evaluar adecuadamente el resultado de estas recetas “preparadas previamente”, necesitará un conocimiento razonable de IA. Además, debe tener algunas otras habilidades digitales como la lucha de datos, las API y la automatización.
- En reconocimiento facial, ¿son las huellas faciales y los vectores de características lo mismo? Si no, ¿en qué se diferencian?
- ¿Vale la pena el curso sobre aprendizaje automático en Coursera por la Universidad de Stanford?
- ¿Se puede resolver el problema de cauvery utilizando algoritmos de aprendizaje automático?
- ¿Qué significa 'alineado suavemente' en un contexto de aprendizaje profundo?
- ¿Debería un científico de datos novato centrarse en conceptos matemáticos o herramientas?
Tome el ejemplo de Dataiku DSS . Es un estudio de ciencia de datos que permite el despliegue de los principales tipos de aprendizaje supervisado (por ejemplo, XGBoost, red neuronal, regresión de lazo, regresión de cresta) y aprendizaje no supervisado (KMeans), entre otros. Además, permite la producción de código personalizado directamente (Python, R, Jupyter notebook). Cada uno de los íconos en el siguiente flujo representa un conjunto de datos, una receta o un modelo implementado que se ha estimado y probado. No se requiere un código personalizado la mayor parte del tiempo.
Otro ejemplo es Microsoft Azure ML Studio. Los sistemas de almacenamiento de datos, algoritmos y modelos implementados también están conectados en un flujo.
Finalmente, me gustaría hacer referencia a uno de mis favoritos: Orange Data Mining. Es un estudio de código abierto de aprendizaje automático y visualización de datos para principiantes y expertos. Tiene una gran caja de herramientas que incluye minería de texto (modelado de temas) y reconocimiento de imágenes.
En resumen, AI y ML requieren menos código personalizado que hace unos años. Este es un hecho extremadamente importante para guiarlo a través de su elección de carrera. Creo que el aspecto más importante de la capacitación en ciencia de datos es aprender a hacer las preguntas correctas para resolver un problema. Luego, podrá hacer coincidir el problema con los datos disponibles para producir la mejor solución (algoritmo o experimento). Recuerde esta cita extrema pero útil: las computadoras son inútiles. Solo pueden darte respuestas (Pablo Picasso).