¿Cuáles son algunos problemas de ciencia de datos que deben resolverse?

Divulgación: trabajo para Dataquest. Enseñamos ciencia de datos en línea y creemos en el uso de proyectos para ayudar a solidificar su aprendizaje y demostrar sus habilidades a los empleadores, ¡así que tenemos mucho que decir sobre el tema de la construcción de proyectos!

Tenemos una serie de publicaciones en el blog en Dataquest sobre la realización de proyectos para crear una cartera de ciencia de datos, y pensé en compartir algunos de los mejores consejos de esa serie, ya que es muy relevante para su pregunta.

En primer lugar, estoy de acuerdo en parte con la sugerencia de Ty de que tratar de elegir su proyecto antes de comenzar su bootcamp puede ser prematuro. Sin embargo, lo que puede hacer es comenzar a practicar el tipo de técnicas que querrá mostrar en su proyecto.

Estas son las principales cosas que quieres demostrar:

  • Limpieza de datos sin procesar desordenados, incluida la combinación de conjuntos de datos de múltiples fuentes. [1]
  • Extrayendo información de los datos y comunicándolos claramente usando números, tablas y visualizaciones. [2]
  • Hacer predicciones a partir de los datos utilizando técnicas de aprendizaje automático. [3]
  • Cómo construir un proyecto independiente para que sus predicciones / análisis puedan repetirse con el tiempo en nuevos datos. [4]

Sugeriría que, en lugar de tratar de abordarlos de inmediato, debería intentar construir un proyecto más pequeño que se centre en cada uno. Para saber cómo se vería cada uno de estos con más detalle, sugiero leer este blog: La clave para crear un portafolio de ciencia de datos que le permita obtener un trabajo.

Por último, la clave de cualquier proyecto es seleccionar el conjunto de datos correcto. Hemos compilado algunos recursos específicamente para encontrar conjuntos de datos para diferentes tipos de proyectos aquí: 17 lugares para encontrar conjuntos de datos para proyectos de ciencia de datos.

En esta etapa, trate de no sentirse abrumado por conseguir que todo sea perfecto. Simplemente comienza a construir algo que use las habilidades que has aprendido hasta ahora. Te encontrarás con obstáculos y tendrás que buscar en Google y leer la documentación para lograr lo que quieres hacer.

Eso es algo realmente bueno, ya que es donde ocurre la mayor parte del aprendizaje.

Buena suerte, y si tiene alguna otra pregunta, no dude en dejar un comentario a continuación o enviarme un mensaje.

Notas al pie

[1] Creación de una cartera de ciencia de datos: narración de historias con datos

[2] Creación de una cartera de ciencia de datos: narración de historias con datos

[3] Cómo llegar al top 15 de una competencia de Kaggle usando Python

[4] Creación de una cartera de ciencia de datos: proyecto de aprendizaje automático

La predicción del comportamiento del conductor puede ser un tema interesante del mundo real. Puede usar los datos de trayectoria del vehículo del proyecto de simulación de próxima generación (NGSim) disponibles en el sitio web de su comunidad.
Los datos no están etiquetados, por lo que comprender la estructura subyacente es un desafío. Los conductores se comportan de manera diferente; a veces, incluso el mismo conductor reacciona (acelera / desacelera) de manera diferente a diferentes velocidades, etc.
La contribución clave sería un modelo que pueda predecir el comportamiento del vehículo con precisión, es decir, dadas ciertas condiciones de tráfico, el conductor acelerará / desacelerará y, en caso afirmativo, cuánto.
Aunque la investigación en los automóviles sin conductor de Google ofrece un entorno de tráfico potencialmente seguro, el componente humano no se desvanecerá pronto. Comprender este elemento humano en una unidad de conductor-vehículo es crucial para predecir el flujo del tráfico, la seguridad, las emisiones, etc.
Se ha trabajado mucho en esta área en el pasado, pero no he visto el uso del aprendizaje automático para descubrir patrones en los datos y modelos de predicción basados ​​en los datos en lugar de algunas suposiciones.

Soy muy nuevo en ciencia de datos y aprendizaje automático. Lo que describí anteriormente ha sido mi área de investigación durante los últimos 2 años. Estoy aprendiendo sobre técnicas en ML para ayudar a descubrir patrones. Aún en un nivel muy básico.

Espero que esto te interese.

No se preocupe por su proyecto final antes de comenzar un campamento de ciencia de datos. Una vez que aprenda a crear un proyecto de aprendizaje automático de extremo a extremo, podrá elegir un tema apropiado.

Recomendaría elegir un tema en torno a un interés personal o una industria que desea trabajar en la postgrado. La primera opción mostrará a los empleadores sobre su personalidad, mientras que la segunda opción mostrará su conocimiento de dominio.


Si está interesado en cambiar de carrera, consulte K2 Data Science. Somos un campamento de arranque de ciencia de datos en línea para profesionales que trabajan. Tenemos un programa a su propio ritmo. Nuestro plan de estudios principal está diseñado por científicos de datos de alto nivel y usted es asesorado por científicos de datos con experiencia en la industria cada semana del viaje.

More Interesting

¿Cuáles son los modelos de confianza utilizados en la seguridad de big data?

¿Cuáles son los documentos recientes de ieee sobre minería de datos?

Comparta materiales gratuitos interesantes sobre ciencias de datos / Big Data / Machine Learning aquí?

¿Cómo se relacionan la ciencia de datos y el aprendizaje automático, si es que están relacionados?

¿Cuáles son algunas revisiones en el curso de ciencias de datos en el aula por EduPristine en Bangalore?

¿Cómo utiliza un científico de datos herramientas de control de versiones como GIT y SVN?

¿Cuál es la utilidad de Big Data?

¿Qué es lo primero que haces al mirar un nuevo conjunto de datos?

¿Qué importancia tienen los datos en UPSC CSE? ¿Cómo memorizo ​​un tramo tan enorme de fechas y datos?

¿Hadoop está saliendo? ¿Se avecina una tecnología que pueda reemplazar toda la forma en que MapReduce consulta en un grupo de máquinas? ¿No puede simplemente automatizar la forma en que ejecuta estas consultas? ¿Es esto lo que Blaze está tratando de lograr?

¿Puedo convertirme en un científico de datos sin aprender Python, pero solo con conocimientos de programación Java y aprendiendo el lenguaje R?

¿Se han desacreditado o confirmado los ciclos de Edward Dewey en el análisis de datos moderno?

¿Es bueno tener un doctorado en estadística después de completar mi doctorado en ciencia de datos o alguna otra buena idea?

Cómo agrupar y analizar datos usando Excel

¿Existen buenos MOOC sobre inferencia causal, análisis de series temporales y diseño experimental?