¿Qué partes del trabajo de un científico de datos tienen menos probabilidades de ser automatizadas en el futuro?

Bájame por “ingeniería de características”.

Si observa el flujo de trabajo de un científico de datos, hay algunas partes que serán fáciles de automatizar y algunas que serán difíciles.

Las computadoras serán buenas en:

  • Administrar datos (grandes, distribuidos)
  • Limpieza de datos (esquemas de normalización, imputación, detección de anomalías estadísticas y valores atípicos)
  • Detección de patrones comunes en los datos, por ejemplo, correlaciones, relaciones no lineales, variables / factores latentes, etc.
  • Modelos de ajuste y ajuste
  • Visualizando datos

Pero hay algunas cosas clave en las que las computadoras no serán buenas (por un tiempo). Estas son las partes “creativas” de ser un científico de datos.

Ingeniería de características

La ingeniería de características es una de las habilidades más lentas para desarrollar como científico de datos. Está muy influenciado por la intuición y es impulsado en gran medida por la experiencia con datos y con el dominio. Hay algunas cosas que se le pueden enseñar en la escuela, como por qué a veces es útil registrar () una variable en lugar de usar su valor bruto. Pero a veces la ingeniería de características es sutil, contextual sobre el problema y altamente creativa, marcada por períodos de exploración y visualización de datos y puntuada con momentos “ajá”.

Algunos investigadores están tratando de desarrollar programas informáticos que automaticen la ingeniería de características, y es bastante emocionante.

Síntesis de características profundas: hacia la automatización de los esfuerzos de la ciencia de datos

La máquina de ciencia de datos utiliza el recorrido de relación inteligente de la base de datos relacional para ayudar a construir y establecer características candidatas, reduce esta característica establecida al buscar valores correlacionados y utiliza combinatoria en lo que equivale a la ingeniería de características de fuerza bruta, para aplicar subconjuntos de características iterativas a los datos de muestra mientras los recombina para su optimización hasta encontrar la mejor solución posible.

Kanter y Veeramachaneni sostienen que, si bien actualmente no puede competir con los científicos humanos de mayor rendimiento, el DSM tiene un papel junto a ellos. A pesar de que varios humanos vencieron al DSM en cada una de sus competiciones, fue capaz de superar a la mayoría de ellos con un esfuerzo considerablemente menor (menos de 12 horas versus meses, en algunos casos). Sugieren que, a la luz de esto, se puede utilizar para establecer puntos de referencia, así como para fomentar la creatividad.

¡Esto es prometedor! Pero tiene un largo camino por recorrer.

La ingeniería de características es un ejemplo de una actividad que es difícil tanto para los humanos como para las computadoras.

La creatividad es difícil de automatizar.

Cuanto más se automatice la ciencia de datos, más y más tiempo pasarán los científicos de datos haciendo preguntas e interpretando resultados, y los ciclos iterativos inherentes a la ciencia de datos serán cada vez más rápidos.

Mira esto: la IA de Google aprende cómo codificar el software de aprendizaje automático: ¿malas noticias para los programadores?

Aunque el título es un poco clickbait-ish, se están haciendo avances en el campo de la creación de inteligencia artificial que puede crear otros softwares basados ​​en inteligencia artificial.

Entonces, amigo mío, no creo que haya ninguna parte de Data Science que no pueda automatizarse.

More Interesting

¿Es posible mezclar datos para la ciencia de datos predictivos de tal manera que permanezcan todos los patrones imprevistos?

En ajedrez, ¿por qué es tan ventajoso jugar al blanco?

¿Cuál es la mejor manera para que un gerente de producto gane competencia en ciencias de datos en su tiempo libre (es decir, no en el trabajo)?

¿Vale la pena aprender inteligencia empresarial tradicional en el momento del big data?

¿Cuál es la diferencia entre buscar puestos de aprendizaje automático y ciencia de datos?

¿Existe una demanda de escritores técnicos que se especialicen en ciencia de datos?

Soy ingeniero de procesos trabajando en una especialidad petrolera y considerando la transición a la ciencia de datos. ¿Estaría haciendo el movimiento correcto?

Incluso utilizando un conjunto de validación, ¿no estamos tratando de maximizar los resultados en el conjunto de prueba? ¿Y al final sobreajustando?

¿Por qué los tutoriales de regresión lineal en los sitios web de aprendizaje de ciencia de datos no discuten la necesidad de satisfacer supuestos de regresión como la linealidad o la homocedasticidad? ¿Las suposiciones de verificación rara vez se hacen en la práctica?

¿Debo aprender conceptos de programación orientada a objetos en Python como científico de datos?

¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?

¿Qué tiene más alcance y permanecerá durante mucho tiempo en el mercado, la ciencia de datos, la computación en la nube o Hadoop y big data?

¿Existe una relación entre big data, aprendizaje automático y sistemas distribuidos?

¿Cuáles son las preguntas clave al crear un panel de datos?

En la era de Big Data, ¿cómo elegimos información efectiva?