Hoy en día, ¿la ciencia de datos se trata más de saber cómo usar herramientas y bibliotecas preconstruidas (de Python / R) que otra cosa?

Definir “cómo usar”. ¿Se puede codificar en R y obtener salida? Todavía no necesariamente sabes cómo usarlos. ¿Puede hacerlo y obtener resultados y saber cómo interpretar los resultados y puede comprender las implicaciones de esos resultados para el análisis futuro? ¿Puedes escribir para un público lego? Ahora, podría decir que sabe “cómo usar”.

¿Puedes responder las siguientes preguntas con autoridad y confianza?

21 preguntas y respuestas de la entrevista de ciencia de datos imprescindibles

¿O simplemente estás “jugando a” la ciencia de datos como el culo de aspecto inteligente de arriba?


La ciencia de datos es comprender lo que sucede bajo el capó de las bibliotecas y las herramientas preconstruidas. Desafortunadamente, muchos científicos de datos no entienden esto.

Hoy en día, se entiende cada vez más que la ciencia de datos abarca un campo amplio, que incluye estadísticas, análisis de negocios, almacenamiento de datos, bases de datos (tanto relacionales como NO-SQL). En algunas empresas, los trabajos de científicos de datos podrían ofrecerse a personas que solo construirán y mantendrán procesos de minería e ingestión de Big Data, pero no estarán directamente involucrados en el análisis de datos. Estos son los profesionales de TI que pueden trabajar y, cuando sea necesario, comunicarse con los estadísticos y analistas de negocios, en su idioma.

Sin embargo, los científicos de datos también deben conocer los principios estadísticos y comprenderlos. ¿Cómo puedes construir un modelo que se ajuste bien si no entiendes estas cosas? ¿Cómo puede saber si usar un modelo de regresión lineal versus un modelo KNN si no sabe cómo funcionan? ¿Cuándo debería estandarizar sus variables predictoras y por qué?

Esta pregunta escucha los tópicos recurrentes en la programación de computadoras como “Los programadores reales saben C”, etc. “Los científicos de datos reales pueden escribir la prueba de [insertar un teorema estadístico complejo aquí]”. ¿Estás de acuerdo?

Yo diría que el campo de la ciencia de datos necesita más econométricos, actuarios y estadísticos; sin embargo, una comprensión sólida y básica de cómo funcionan las estadísticas descriptivas y predictivas puede ayudar en gran medida a apoyar la toma de decisiones en organizaciones grandes y pequeñas por igual.

Un buen lugar para comenzar es con las bibliotecas y herramientas de ciencia de datos a su alcance. Pero debes entender lo que está sucediendo para ser un científico de datos.

En el pasado, durante la época de reyes y reinas, muchos tenían espadas pero pocos eran buenos espadachines. Por lo tanto, la herramienta en sí misma no es muy importante, pero cómo la usa, cuánto la practica / domina, y cuándo y dónde usarla.

More Interesting

¿Es Ruby un buen lenguaje para la ciencia de datos?

¿Cuál es la mejor manera posible de comenzar a aprender rápidamente y obtener un control firme de las ciencias de datos?

Cómo construir una plataforma de análisis para compartir datos con terceros

¿Cuál es la especificación requerida en una computadora para participar en las competencias de Kaggle?

¿Qué herramientas hay para automatizar la ciencia de datos?

¿Cómo es útil Python en análisis de datos? ¿Qué características le dan una ventaja sobre otras herramientas de ciencia de datos?

¿Cuándo explotará la burbuja de ciencia de datos?

¿Qué curso en línea debo hacer, aparte de R, para comenzar mi carrera en el campo del análisis de datos?

¿Qué universidades de EE. UU. Son buenas y tienen un curso de maestría en big data o análisis de datos?

¿Habilidades para el autoaprendizaje de la ciencia / análisis de datos o las estadísticas de EM?

¿Qué uso como formato de base de datos \ archivo para la canalización de datos de ciencia de datos?

¿Hay compañías tecnológicas en el Área de la Bahía que patrocinarán a los estudiantes aceptados en los programas de Stanford MS?

¿Cómo está transformando el análisis de datos el mundo?

¿Cómo es la ciencia de datos fintech única? ¿Es único?

¿Cuáles son los casos de uso típicos para diferentes algoritmos de aprendizaje automático? Por ejemplo, ¿en qué condiciones típicas uno preferiría usar uno sobre el otro sin haber probado la precisión del aprendizaje?