Para un puesto de ciencia de datos, ¿por qué las empresas hacen preguntas sobre la estructura de datos? La tecnología cambia la vida futura

Respuesta corta:

No, no están locos y necesitan hacer esa pregunta.

Respuesta larga:

¿Cuáles son los tipos de máquina?
¿Cuál es el flujo de trabajo típico para usar el aprendizaje profundo para resolver un problema?
Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?
¿Cuántos datos son suficientes para entrenar un modelo NN profundo?
¿Cuáles son los algoritmos / documentos de última generación sobre clasificación y recuperación de imágenes?

Lo que ves aquí es una visualización de un clasificador de árbol de decisión (Aprendizaje del árbol de decisión) que ha sido entrenado en el conjunto de datos de la flor de Iris y como ya habrás notado, está representado por una estructura de datos llamada “Árbol” (Árbol (estructura de datos) ).

Cualquier científico de datos que valga la pena ha usado o sabe o ha escuchado sobre el bosque aleatorio, que es una clase de algoritmos que utilizan múltiples “árboles” de decisión para hacer predicciones o estimaciones.

Una tarea común para un científico de datos es usar implementaciones populares de algoritmos de aprendizaje automático. Pero en la producción, con bastante frecuencia, estas implementaciones se quedan cortas en algún aspecto u otro. Entonces, invariablemente, se le pedirá que los piratee y los modifique de una manera que sea compatible con el resto de su aplicación.

Suponga que sus árboles de decisión o bosques aleatorios no están produciendo la precisión que desea. Ahora, se da cuenta de que solo un subconjunto limitado de los nodos en el árbol está tomando decisiones incorrectas, y le gustaría solucionarlos. Además, imagine que tiene que hacer esto mediante programación, sobre la marcha, cuando el algoritmo ya está implementado en un servidor, un teléfono inteligente o un dispositivo integrado.

¿No te gustaría saber más sobre los árboles?

Respuesta larga:

Desde ese artículo infernal de HBR sobre la ciencia de datos como el trabajo más sexy de este siglo (Data Scientist: The Sexiest Job of the 21st Century), los expertos han ofrecido muchas definiciones de un científico de datos. Uno que me gusta especialmente es:

Un científico de datos es alguien que conoce más estadísticas que un científico de la computación, y más ciencia de la computación que un estadístico.

Si desea ser conocido como un científico de datos, debe cumplir con esta declaración al menos hasta cierto punto. Si bien la frase “más informática que un estadístico” es bastante ambigua, es perfectamente razonable que un reclutador espere que saber “más informática que un estadístico” implica conocer estructuras de datos.

No se puede enfatizar lo suficiente que los científicos de datos no son adictos a las hojas de cálculo. No se puede ser un científico de datos sin ser un programador, del mismo modo que no se puede ser un astrónomo sin saber cómo usar un telescopio, cuyo uso óptimo también requiere un conocimiento de la óptica. El producto principal de un científico de datos es el código , no los gráficos y gráficos.

Aprendizaje automáticoCiencia dedatosEstructuras de datosIndiainformática