Sugeriría probar la amplitud y profundidad del conocimiento, particularmente las estadísticas, ya que esta es un área en la que luchan muchos científicos de datos autodidactas. Algunas preguntas pueden incluir:
1) Explicar el teorema de Bayes
2) Describa el beneficio de los modelos lineales generalizados y cómo se usan en diferentes problemas de análisis de datos (deben cubrir las distribuciones de Poisson, la regresión logística, posiblemente la regresión multinomial … y cómo las funciones de enlace relacionan estas distribuciones)
3) ¿Qué significa un valor p? ¿Cómo equilibra el error tipo I y tipo II en las pruebas de hipótesis?
4) ¿Qué es una prueba estadística sobrecargada? ¿Cómo se configura el valor óptimo para un tamaño de muestra?
5) ¿Cuáles son los supuestos de regresión lineal?
Algunos de la informática / programación podrían verse así:
- ¿Cuáles son los datos más valiosos cuando un usuario aleatorio de Internet usa su sitio web?
- ¿Cuál es una explicación intuitiva para la función de pérdida de registro?
- ¿Por qué proceso decide si usar R o Python (Pandas) para leer y analizar grandes conjuntos de datos con formato CSV?
- ¿Son las certificaciones de Codeacademy SQL y Python lo suficientemente buenas como para ponerlas en un currículum?
- ¿Cuáles son las últimas informaciones de big data?
1) Describir MapReduce y marcos de computación paralelos.
2) Realice una consulta SQL simple (seleccione ___ de ___ donde ___ escriba la pregunta).
3) Ofrezca un proyecto simple de análisis de datos para llevar a casa, utilizando cualquier idioma que se use en la empresa.
Uno de los principales para evaluar es la capacidad de interpretar los resultados y comunicarlos como información procesable. Sugeriría dar el resultado de un proyecto reciente y pedirle al candidato que interprete el resultado para el entrevistador.