Bájame por “ingeniería de características”.
Si observa el flujo de trabajo de un científico de datos, hay algunas partes que serán fáciles de automatizar y algunas que serán difíciles.
Las computadoras serán buenas en:
- ¿Qué tan comunes son los métodos bayesianos en la industria?
- ¿Cuál es el mejor instituto de capacitación en Pune para ciencia de datos y cursos de big data?
- Cómo extraer el registro DNS de un sitio web para compartir videos (YouTube) para combatir el terrorismo
- ¿Cuáles son algunos buenos proyectos iniciales para alguien que está aprendiendo ciencia de datos por sí mismo?
- ¿Cuál es la diferencia entre los archivos .zip, .rar, .deb y .tar?
- Administrar datos (grandes, distribuidos)
- Limpieza de datos (esquemas de normalización, imputación, detección de anomalías estadísticas y valores atípicos)
- Detección de patrones comunes en los datos, por ejemplo, correlaciones, relaciones no lineales, variables / factores latentes, etc.
- Modelos de ajuste y ajuste
- Visualizando datos
Pero hay algunas cosas clave en las que las computadoras no serán buenas (por un tiempo). Estas son las partes “creativas” de ser un científico de datos.
Ingeniería de características
La ingeniería de características es una de las habilidades más lentas para desarrollar como científico de datos. Está muy influenciado por la intuición y es impulsado en gran medida por la experiencia con datos y con el dominio. Hay algunas cosas que se le pueden enseñar en la escuela, como por qué a veces es útil registrar () una variable en lugar de usar su valor bruto. Pero a veces la ingeniería de características es sutil, contextual sobre el problema y altamente creativa, marcada por períodos de exploración y visualización de datos y puntuada con momentos “ajá”.
Algunos investigadores están tratando de desarrollar programas informáticos que automaticen la ingeniería de características, y es bastante emocionante.
Síntesis de características profundas: hacia la automatización de los esfuerzos de la ciencia de datos
La máquina de ciencia de datos utiliza el recorrido de relación inteligente de la base de datos relacional para ayudar a construir y establecer características candidatas, reduce esta característica establecida al buscar valores correlacionados y utiliza combinatoria en lo que equivale a la ingeniería de características de fuerza bruta, para aplicar subconjuntos de características iterativas a los datos de muestra mientras los recombina para su optimización hasta encontrar la mejor solución posible.
Kanter y Veeramachaneni sostienen que, si bien actualmente no puede competir con los científicos humanos de mayor rendimiento, el DSM tiene un papel junto a ellos. A pesar de que varios humanos vencieron al DSM en cada una de sus competiciones, fue capaz de superar a la mayoría de ellos con un esfuerzo considerablemente menor (menos de 12 horas versus meses, en algunos casos). Sugieren que, a la luz de esto, se puede utilizar para establecer puntos de referencia, así como para fomentar la creatividad.
¡Esto es prometedor! Pero tiene un largo camino por recorrer.
La ingeniería de características es un ejemplo de una actividad que es difícil tanto para los humanos como para las computadoras.
La creatividad es difícil de automatizar.
Cuanto más se automatice la ciencia de datos, más y más tiempo pasarán los científicos de datos haciendo preguntas e interpretando resultados, y los ciclos iterativos inherentes a la ciencia de datos serán cada vez más rápidos.