Le sugiero que analice estas 7 cosas y vea cuánto sabe de cada una, y practique las que le parezcan desconocidas. Estas fueron las 7 cosas más comunes que vi cuando entrevisté en grandes empresas (Facebook, Intel, Square, eBay, etc.) para puestos relacionados con la ciencia de datos.
Lenguajes de programación básicos : debe conocer un lenguaje de programación estadística, como R o Python (junto con las bibliotecas Numpy y Pandas), y un lenguaje de consulta de bases de datos como SQL
Estadísticas : debe poder explicar frases como hipótesis nula, valor P, estimadores de máxima verosimilitud e intervalos de confianza. Las estadísticas son importantes para analizar datos y seleccionar las cifras más importantes de un gran conjunto de datos. Esto es crítico en el proceso de toma de decisiones y para diseñar experimentos.
- ¿Qué es un modelo oculto de Markov - Red neuronal artificial (HMM-ANN)?
- ¿Por qué las redes de confrontación generativas son tan creativas?
- ¿Cuáles son algunas buenas charlas sobre fragmentación?
- ¿Necesita ser un buen ingeniero de software para trabajar en cosas como visión por computadora, reconocimiento de voz, gráficos por computadora, aprendizaje automático?
- ¿Cuál es la forma mejor y más simple de agrupar productos por sus nombres?
Aprendizaje automático : debe poder explicar los vecinos K más cercanos, los bosques aleatorios y los métodos de conjunto. Estas técnicas generalmente se implementan en R o Python. Estos algoritmos muestran a los empleadores que usted está expuesto a cómo la ciencia de datos puede usarse de maneras más prácticas.
Disposición de datos : debe poder limpiar los datos. Esto básicamente significa entender que “California” y “CA” son lo mismo: no puede existir un número negativo en un conjunto de datos que describa la población. Se trata de identificar datos corruptos (o impuros) y corregirlos / eliminarlos.
Visualización de datos : el científico de datos es inútil por sí solo. Necesitan comunicar sus hallazgos a los gerentes de producto para asegurarse de que esos datos se manifiesten en aplicaciones reales. Por lo tanto, la familiaridad con las herramientas de visualización de datos como ggplot es muy importante (para que pueda MOSTRAR datos, no solo hablar de ellos)
Ingeniería de software : debe conocer algoritmos y estructuras de datos, ya que a menudo son necesarios para crear algoritmos eficientes para el aprendizaje automático. Conozca los casos de uso y el tiempo de ejecución de estas estructuras de datos: colas, matrices, listas, pilas, árboles, etc.
Gestión del producto : este es definitivamente discutible, pero aquellos que entienden el producto son los que sabrán qué métricas son las más importantes. Hay toneladas de números que uno puede probar A / B, por lo que el científico de datos orientado al producto elegirá las métricas correctas para experimentar. Sepa lo que significan estos términos: pruebas de usabilidad, tramas de alambre, tasas de retención y conversión, análisis de tráfico, comentarios de clientes, registros internos, pruebas A / B.