Para un puesto de ciencia de datos, ¿por qué las empresas hacen preguntas sobre la estructura de datos?

Respuesta corta:

No, no están locos y necesitan hacer esa pregunta.


Respuesta larga:

Lo que ves aquí es una visualización de un clasificador de árbol de decisión (Aprendizaje del árbol de decisión) que ha sido entrenado en el conjunto de datos de la flor de Iris y como ya habrás notado, está representado por una estructura de datos llamada “Árbol” (Árbol (estructura de datos) ).

Cualquier científico de datos que valga la pena ha usado o sabe o ha escuchado sobre el bosque aleatorio, que es una clase de algoritmos que utilizan múltiples “árboles” de decisión para hacer predicciones o estimaciones.

Una tarea común para un científico de datos es usar implementaciones populares de algoritmos de aprendizaje automático. Pero en la producción, con bastante frecuencia, estas implementaciones se quedan cortas en algún aspecto u otro. Entonces, invariablemente, se le pedirá que los piratee y los modifique de una manera que sea compatible con el resto de su aplicación.

Suponga que sus árboles de decisión o bosques aleatorios no están produciendo la precisión que desea. Ahora, se da cuenta de que solo un subconjunto limitado de los nodos en el árbol está tomando decisiones incorrectas, y le gustaría solucionarlos. Además, imagine que tiene que hacer esto mediante programación, sobre la marcha, cuando el algoritmo ya está implementado en un servidor, un teléfono inteligente o un dispositivo integrado.

¿No te gustaría saber más sobre los árboles?


Respuesta larga:

Desde ese artículo infernal de HBR sobre la ciencia de datos como el trabajo más sexy de este siglo (Data Scientist: The Sexiest Job of the 21st Century), los expertos han ofrecido muchas definiciones de un científico de datos. Uno que me gusta especialmente es:

Un científico de datos es alguien que conoce más estadísticas que un científico de la computación, y más ciencia de la computación que un estadístico.

Si desea ser conocido como un científico de datos, debe cumplir con esta declaración al menos hasta cierto punto. Si bien la frase “más informática que un estadístico” es bastante ambigua, es perfectamente razonable que un reclutador espere que saber “más informática que un estadístico” implica conocer estructuras de datos.

No se puede enfatizar lo suficiente que los científicos de datos no son adictos a las hojas de cálculo. No se puede ser un científico de datos sin ser un programador, del mismo modo que no se puede ser un astrónomo sin saber cómo usar un telescopio, cuyo uso óptimo también requiere un conocimiento de la óptica. El producto principal de un científico de datos es el código , no los gráficos y gráficos.

More Interesting

¿Cuáles serán los casos de uso de aprendizaje automático más grandes de 2017?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Cuáles son algunos casos de uso para el anonimato de datos?

¿Cuál es la mejor manera de hacer reconocimiento / clasificación de múltiples objetos en tiempo real usando OpenCV y GPU (CUDA)?

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

¿Qué ofrecen los chips Loihi de Intel con 'autoaprendizaje', 'núcleos neuromórficos' y 'cómputo de aumento asíncrono'?

¿Cuál es la diferencia entre minería de datos, aprendizaje automático y reconocimiento de patrones?

¿Cómo puede la regularización simplificar las hipótesis?

¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?

¿Cuál es la diferencia entre el clasificador Naive Bayes y la máquina Bayes Point?

Aprendizaje automático: ¿Puede alguien que es horrible en los concursos de kaggle seguir siendo bueno como científico de datos?

Cómo construir una consulta a partir de una pregunta de lenguaje natural en Python

¿Cuáles son las formas de ingresar a Stanford para obtener una maestría en informática o una maestría en aprendizaje automático e inteligencia artificial?

¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?