En la superficie, esta pregunta parece perfectamente racional en el contexto de la informática. Como ejemplos, la optimización del compilador ha eliminado en gran medida la necesidad del ensamblaje escrito a mano, y la mayoría de los desarrolladores desconocen las funciones hash en java, lo cual está bien para la mayoría de las aplicaciones. Se plantea la pregunta: ¿hasta dónde tiene que llegar el aprendizaje automático (específicamente el modelado) para sacar del negocio la extracción de características, la ingeniería de características, la selección de modelos, etc.
La respuesta es: realmente muy lejos.
En primer lugar, las aplicaciones prácticas de aprendizaje automático rompen casi todos los supuestos fundamentales del aprendizaje automático (características independientes e idénticamente distribuidas, independencia entre todos los ejemplos de capacitación, etc.). Se pasa mucho tiempo tratando de transformar los datos de una manera que valide mejor estos supuestos. Hay muchas técnicas para hacer esto y son difíciles de mecanizar.
- ¿Por qué normalizamos los datos?
- ¿Cuáles son los beneficios de una buena gestión de datos?
- ¿Qué equipos de MLB tienen un departamento de análisis de datos?
- ¿Cómo describiría la diferencia entre la gestión de información / datos y el análisis de datos?
- ¿Cuáles son los mejores ejemplos del uso de big data en la sostenibilidad corporativa?
En segundo lugar, hay muchos tipos de modelos (regresión lineal, árboles de decisión, redes neuronales, etc.), y la mejor manera de transformar sus datos para trabajar con cualquiera de estos modelos requiere una comprensión del ciclo de optimización del modelo que es difícil de cuantificar.
Por último, pero no menos importante, hay un elemento humano para el aprendizaje automático que siempre requerirá cierto nivel de ciencia de datos. La función que uno está tratando de optimizar nunca es completamente objetiva. Por ejemplo, el negocio podría querer optimizar los ingresos pero no a expensas de la marca de la compañía. Comprender cómo cuantificar conceptos abstractos como “marca” requiere una evaluación humana y ajustes de la función objetivo. La mayor parte del desafío del aprendizaje automático proviene de intentar cuantificar cuáles son los verdaderos objetivos del sistema, y este desafío seguramente involucrará a uno o más científicos de datos.