Como científico de datos, ¿cuáles son sus debilidades?

Primero: informática.

Puedo codificar en R, hacer un programa SAS y leer y depurar cosas simples de Java. Pero no puedo optimizar la informática y programar en un lenguaje orientado a objetos eficiente y real como C ++. No sé cómo paralelizar la informática, construir un clúster hadoop, incluso si entiendo los conceptos.

Segundo: ética

La ciencia de datos está haciendo preguntas de respuesta de datos. ¿Pero qué pasa cuando las preguntas te hacen sentir mal? ¿Realmente sentimos que consumir más es siempre la solución? Desafortunadamente, algunos de los trabajos nos están llevando a esto. Siempre trato de trabajar con personas que realmente buscan la satisfacción del cliente, que piensan que deberíamos tratar de comprender las necesidades del cliente y adaptarnos, no al revés. Pero no siempre es fácil.

Tercera edad

Necesito dormir mucho más que cuando tenía 20 años, y no puedo encontrar tiempo para trabajar más en mis debilidades.

Honestamente, sería el aprendizaje automático. Podrías decir “¿Qué? ¿No es eso lo único que hace un científico de datos?

Bueno no. Eso es lo más elegante que hace un científico de datos. La mayor parte de nuestro tiempo lo pasamos buscando a través de los datos disponibles, limpiándolos, haciéndolos accesibles, creando intuición a través del análisis exploratorio (visualización AKA), etc.

Paso más tiempo escribiendo scripts para procesar datos, o consultas SQL para combinarlos / extraerlos, o buscando métodos para normalizarlos, etc., que escribiendo algoritmos que usan los datos. La preparación de datos es la que lleva más tiempo, e incluso diría que es más difícil en términos de horas de trabajo, parte del trabajo porque se basa en el conocimiento del dominio (familiaridad con los datos) y el trabajo duro para realizar. Eso lleva tiempo.

Estoy bastante seguro de que toda la disciplina de la “ingeniería de datos” se ha escindido para ayudar a los científicos de datos con ese conjunto de problemas, porque requiere una gran inversión de tiempo que no se gasta en modelar o escribir algos de ML.

A menudo no tengo una razón para usar el aprendizaje automático porque la mayoría de los problemas que resolvemos afectan a las frutas más bajas. Las cosas más complicadas que hago con cierta regularidad son verificar que cumplamos con los supuestos para ciertas pruebas estadísticas o bootstraps para estimar el error estándar de varias estadísticas.

Algo de eso se debe a la madurez de la empresa. En una empresa pequeña que solo está construyendo su infraestructura de datos, habrá más fruta que no requiere aprendizaje automático para explotar. A medida que una empresa madura, tendrá más dificultades para extraer el valor de sus datos (se ha recogido la fruta baja) para que las personas inventen nuevas formas de agregar valor utilizando ML u otros métodos.

Es por eso que creo que las pequeñas empresas no necesitan científicos de datos. Les iría bien con un analista de datos estadísticamente competente y un “ingeniero de datos” que es más un experto en la materia con experiencia en administración de bases de datos. Juntos cuestan casi tanto como lo hace un científico de datos de estrella de rock por sí mismos con la ventaja adicional de duplicar las horas productivas de trabajo para usar, hablando desde la perspectiva de la compañía.

Habilidades que tienen las personas SWE. No estoy súper avanzado en la construcción del algoritmo más rápido o en el uso de estructuras de datos complejas que avanzarán un poco mi trabajo. Utilizo respuestas que son rápidas y rápidas, pero todavía no tengo una comprensión completa de esas ideas.

También te vuelves malo en las habilidades que son poco prácticas, y para mí eso incluye el raspado de la web. Pero la mayoría de las empresas / equipos tienen diferentes personas para cada equipo de ‘ciencia de datos’, incluido un investigador, un raspador, un visualizador y una persona de ML. Entonces, si te encuentras en ese trabajo, es posible que desees practicar esas otras habilidades solo para mantenerte alerta.

Tengo la teoría de que todos los científicos de datos son particularmente buenos en un par de cosas y malos en una y sobre el promedio en todo lo demás.

Lo que preguntas es en qué soy malo …

Para mí eso es ingeniería de datos. Estoy mimado con un gran equipo de ingeniería de datos que me quita todo eso. Como no tengo que preocuparme por eso, nunca lo desarrollé por completo.

¡Ahí está mi debilidad! 🙂

Más de lo que podría enumerar, pero tal vez es que no soy tan comercial como desearía ser. Para mí, cada trabajo significa al menos familiarizarse con la industria en la que estoy trabajando. Hoy en día, puedo estar prediciendo los rendimientos de los cultivos, por lo que tengo montones de libros de agrociencia en mi escritorio. Si tuviera que trabajar en aeronáutica mañana, tendría que familiarizarme quizás con el modelado de alas (¡lo que sería mucho más fácil que la agrisciencia!). Pero nunca me acostumbré a los negocios, ¡y esto es a pesar de tener experiencia en derecho comercial! Desearía ser un pensador más “serio”. Afortunadamente, trabajo con un gran equipo y mis socios conocen las preguntas correctas para redirigir mi pensamiento. Todos tenemos nuestras debilidades: el truco es encontrar personas que te complementen 😉

Personalmente, en mi trabajo? Hmm Quiero hacer las cosas bien . Quiero ganar ese 5% extra de elevación, incluso si me lleva una semana hacerlo. Esto solía ser un problema para mí en el sentido de que se me ocurrió una heurística que resolvería el problema el 95% del tiempo y todavía quería optar por un modelo que daría un tres por ciento más y tomaría el triple de tiempo . Me rompí, pero aún así … es una tentación convincente.

Para mí es el almacenamiento de datos, ya que durante la mayor parte de mi trabajo los flujos de datos están súper restringidos (gobierno / militar, etc.), por lo que he estado relativamente mimado con tener a otras personas a preocuparse por el lado de la base de datos.

Eso e ir con instintos instintivos en un algoritmo a altas horas de la noche, olvidando por qué pensé que era una buena idea en la mañana y necesitando entender por qué funciona al día siguiente.

More Interesting

Cómo seleccionar los atributos sensibles en un conjunto de datos

¿Cómo utilizan los bancos la minería de datos?

¿Hacer una ciencia de datos implica crear nuevas ideas creativas para que una empresa sea mejor en ventas y publicidad (como Don Draper de Mad Men)?

¿Cuáles son los campos donde se utiliza el análisis de big data?

Cómo conseguir un trabajo en el campo del aprendizaje automático o la ciencia de datos en India si soy muy bueno en 3 lenguajes de programación y algoritmos

¿Hay alguna similitud entre el desarrollo front-end y la ciencia de datos?

¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)

¿Cuáles son algunas buenas conferencias en video sobre aprendizaje automático y aprendizaje profundo?

¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

¿Qué es una certificación para un analista de big data?

¿Cómo manejan los ingenieros los grandes datos de, por ejemplo, el monitoreo continuo de la salud?

¿Cuáles son algunos de los temas de investigación en el campo de Hadoop Framework?

¿En qué áreas del aprendizaje automático es crucial la cuantificación de la incertidumbre?

¿Podría evitar usar una tecnología distribuida en el trabajo en un solo nodo y pasar entrevistas de ciencia de datos?

Estoy trabajando actualmente. Quiero convertirme en un científico de datos. ¿Cuáles fueron los conceptos y tecnologías centrales que necesito aprender?