¿Podría el aprendizaje automático avanzado sacar a los científicos de datos del negocio?

En la superficie, esta pregunta parece perfectamente racional en el contexto de la informática. Como ejemplos, la optimización del compilador ha eliminado en gran medida la necesidad del ensamblaje escrito a mano, y la mayoría de los desarrolladores desconocen las funciones hash en java, lo cual está bien para la mayoría de las aplicaciones. Se plantea la pregunta: ¿hasta dónde tiene que llegar el aprendizaje automático (específicamente el modelado) para sacar del negocio la extracción de características, la ingeniería de características, la selección de modelos, etc.

La respuesta es: realmente muy lejos.

En primer lugar, las aplicaciones prácticas de aprendizaje automático rompen casi todos los supuestos fundamentales del aprendizaje automático (características independientes e idénticamente distribuidas, independencia entre todos los ejemplos de capacitación, etc.). Se pasa mucho tiempo tratando de transformar los datos de una manera que valide mejor estos supuestos. Hay muchas técnicas para hacer esto y son difíciles de mecanizar.

En segundo lugar, hay muchos tipos de modelos (regresión lineal, árboles de decisión, redes neuronales, etc.), y la mejor manera de transformar sus datos para trabajar con cualquiera de estos modelos requiere una comprensión del ciclo de optimización del modelo que es difícil de cuantificar.

Por último, pero no menos importante, hay un elemento humano para el aprendizaje automático que siempre requerirá cierto nivel de ciencia de datos. La función que uno está tratando de optimizar nunca es completamente objetiva. Por ejemplo, el negocio podría querer optimizar los ingresos pero no a expensas de la marca de la compañía. Comprender cómo cuantificar conceptos abstractos como “marca” requiere una evaluación humana y ajustes de la función objetivo. La mayor parte del desafío del aprendizaje automático proviene de intentar cuantificar cuáles son los verdaderos objetivos del sistema, y ​​este desafío seguramente involucrará a uno o más científicos de datos.

De lo contrario. Por el contrario, los avances en ML tienden a aumentar la demanda de científicos de datos, ya que aumenta el valor de su trabajo.

En general, resolver un problema de LD no es tan interesante, y las técnicas muy efectivas han existido durante décadas. Los avances recientes hacen posible muchas de estas técnicas en conjuntos de datos cada vez más grandes y, en algunos casos, mejoran el modelo en sí.

Pero entonces, como hoy, la parte difícil rara vez es resolver un problema bien formado. Más bien, el problema es formular su problema del mundo real como uno que pueda resolverse mediante un algoritmo conocido. Esto resulta ser bastante desafiante, y lo será por bastante tiempo.

Un solucionador de optimización general, que podría tomar un problema arbitrario y resolverlo utilizando las mejores técnicas posibles, sería realmente un logro. Por desgracia, esa tecnología no está cerca del mercado. Incluso entonces, dudo que haga más daño a las perspectivas profesionales de los científicos de datos que los lenguajes de programación para los programadores. Es decir, ninguno en absoluto.

Estoy de acuerdo con Shane y Jack

La idea de que hay un algoritmo de aprendizaje automático que se puede alimentar con datos no estructurados sin procesar y derivar un modelo predictivo es una falacia. En la actualidad, muchas empresas utilizan la palabra de moda de AI para llamar la atención. No hay un algoritmo de talla única que pueda resolver cualquier problema.

En cualquier problema de ciencia de datos, el sentido común y la intuición son clave para confrontar los resultados con lo que espera. Debe elegir los modelos correctos que se ajusten al problema.
Esta parte no es trivial en absoluto y requiere una comprensión profunda de los algoritmos de ML: la implementación, los resultados, la incertidumbre sobre estos resultados, las advertencias de los algoritmos.

La mayoría de los algoritmos de ML son similares a la combinatoria (inteligente) y es fácil terminar sobreajustando si no filtró y normalizó los datos que alimentó al algoritmo de ML.

Es importante hacer un análisis exploratorio primero para crear variables “limpias” (p. Ej., En el rendimiento de las finanzas en lugar del precio al contado). Luego, estas variables se pueden usar en un algoritmo ML para capturar interacciones complejas no lineales.

Por lo tanto, creo que, por el contrario, el aprendizaje automático avanzado aumentará la necesidad de científicos de datos.

Depende de un dominio, la disponibilidad de datos y la capacidad de productizar.

Veamos los motores de recomendación para el comercio electrónico. Hace 10-15 años, los científicos de datos inventaron sus propias “bicicletas” para eso. Se requirió cierta cantidad de recursos: un científico de datos para crear algoritmos y probar un concepto, desarrolladores para hacerlo en una producción, muchachos de productos para que sea útil para los usuarios, administradores para soportar una infraestructura.

Pero ahora esta es una tarea muy común y clara en este dominio. Qué es un sitio de comercio electrónico típico: un conjunto de eventos explícitos (vistas, adiciones al carrito, pagos, etc.) que está disponible a través de eventos de JavaScript y productos con algún conjunto de características (precio, nombre, imagen, descripción, etc.). Se conocen algoritmos de sistemas de recomendación. Nos lleva a la conclusión de que esta tarea puede resolverse mediante un sistema de recomendación general que comprende la recopilación de datos, algoritmos y widgets para un sitio de comercio electrónico. Es por eso que hay tantos servicios externos que proporcionan una pila completa de recomendaciones en línea. Las empresas medianas y pequeñas generalmente prefieren elegir dichos servicios en lugar de contratar científicos de datos para eso porque:

  1. Es fácil probarlos debido a la existencia de productos “plug & play” en lugar de uno con resultados poco claros.
  2. Es más barato por un período de tiempo a largo plazo.

Sé que algunos de los gerentes de sitios muy grandes también han tomado una decisión a favor de los sistemas de recomendación tercerizados.

Conclusión

Si la tarea de un científico de datos puede ser productiva, alguien creará un servicio externo para eso. Hace perder trabajos para algunos científicos de datos que se ocupan de estas tareas particulares si no cambian de opinión o no encuentran tareas alternativas.

Es como preguntar si los avances en las estadísticas aplicadas dejarán sin trabajo a los estadísticos, o si los avances en matemáticas dejarían a los matemáticos sin trabajo. En los años 80 hubo un impulso similar para la “programación automática”, herramientas que harían innecesarios a los programadores. No sucedió, nunca lo hará.

Si y no.

Las nuevas soluciones eliminarán las tareas en las que la mayoría de los científicos de datos se centran hoy. La respuesta es sí. La razón es que, aunque todos hablan sobre el algoritmo sexy en el que trabajaron. La realidad es que ETL, la normalización de datos, la reducción de mapas de programación, etc. son las tareas que la mayoría de los científicos de datos dedican la mayor parte de su día. Yo también los científicos de datos que solo ejecutamos algunos algoritmos básicos quedarán sin trabajo gracias a las soluciones que automatizarán estas tediosas actividades.

Sin embargo, si la pregunta es si una computadora puede sustituir a un científico de datos, entonces la respuesta no es por muchos años.

More Interesting

Cómo explicar la normalización de la base de datos con ejemplos del mundo real

¿Qué clases debo tomar en Udacity si quiero ser un científico de datos?

Estoy planeando hacer un estudio independiente usando Machine Learning y Big Data. ¿Hay algún tema interesante como Deep learning para PNL?

¿Cuál es la diferencia entre Spark, R, Python y Hadoop en Data Science?

Deep Learning se implementa principalmente en big data. ¿Qué piensa sobre usarlo en datos con muestras limitadas pero de altas dimensiones como fMRI?

¿Cuál es la mejor manera de comenzar una carrera en análisis y big data?

¿Quién es elegible para el entrenamiento Hadoop de Big Data?

¿Por qué las empresas solicitan habilidades de ingeniería de datos cuando reclutan científicos de datos, es decir, matemáticos?

¿Hay alguna limpieza de datos para hacer con cresta y lazo?

¿Cuál es la importancia de las estadísticas y las matemáticas en el campo de la ciencia de datos? ¿Cuántas matemáticas y estadísticas se requieren para convertirse en un científico de datos?

¿Cuál es el mejor instituto de capacitación en análisis de datos en Delhi?

¿Entrar en Big Data es una buena opción ahora?

¿Qué dicen los grandes datos sobre Go? Dado el gran conjunto de datos de juegos Go de torneos profesionales y servidores de Internet, ¿se puede usar la ciencia de datos para construir algoritmos novedosos para evaluar las posiciones Go? ¿Se ha hecho esto con éxito?

¿Cuáles son las técnicas más modernas de minería de datos / aprendizaje automático en datos CRM?

¿Utiliza bibliotecas o código usted mismo cuando usa un algoritmo de aprendizaje automático? ¿Qué hace un científico de datos con esto en su trabajo?