¿Qué tipo de proyectos paralelos de ciencia de datos se sugieren para un estudiante de pregrado?

La ciencia de datos no existía cuando era estudiante universitario, pero si existiera, estoy seguro de que la habría usado para uno o más de los siguientes:

* análisis de redes sociales de quién se conecta con quién
* construir un modelo para predecir el momento óptimo para llegar a la noche de “matar al barril”
* utilice el procesamiento del lenguaje natural para determinar qué líneas de recolección funcionan mejor para conocer chicas
* utilizando algún tipo de generador de Markov para escribir “documentos” con un sonido auténtico para mi profesor de filosofía posmoderno
* algunas visualizaciones d3 sobre los mejores lugares para conocer chicas
* optimización del alcance de los votantes para las elecciones de presidente de residencia
* descubrir la forma más barata de emborracharse
* por último pero no menos importante, probablemente algo relacionado con conocer chicas

Su primera prioridad debería ser tomar tantas clases desafiantes de estadística y ciencias de la computación como sea posible, y agudizar sus habilidades con Python y R. Si estos recursos no están disponibles en su escuela, intente buscarlos en edX, Coursera o Udacity !

Después de eso, mire las conferencias y pruebe los conjuntos de problemas del Curso de Ciencia de Datos de Joe Blitzstein y Hanspeter Pfister para sumergirse realmente y probar algunos de los problemas comunes de los juguetes en Ciencia de Datos, incluyendo

  1. Agregación de encuestas
  2. Análisis de los sentimientos
  3. Motores de recomendación
  4. Redes gráficas
  5. Raspado web
  6. Modelado predictivo

Después de eso, debe tener un conjunto de herramientas de código y técnicas que puedan ayudarlo con otros problemas de juguetes. Obtenga algunos datos de otras fuentes (tweets, otros sitios de revisión, etc.) y aplique lo que sabe a esos sitios, y luego publique sus resultados y hallazgos en una publicación de blog y / o github,

Si estás interesado específicamente en el modelado predictivo, ¡mira algunas de las competencias de entrenamiento en Kaggle!

Depende de en qué etapa se encuentre en su licenciatura. ¿Has aprendido programación? ¿Has tomado al menos un par de clases de estadísticas? ¿Has tenido alguna exposición al aprendizaje automático? Si es así, hay una gran cantidad de datos gratuitos disponibles en Internet. Muchas compañías como Microsoft, Google, Yahoo han publicado datos con fines académicos. El gobierno ha publicado más de cien mil conjuntos de datos. Wikipedia, Twitter, Flickr, Pinterest son fuentes de datos de redes sociales. Aprende R y / o Python. Coursera está cargado de clases introductorias en ciencia de datos y aprendizaje automático. Exponerse al menos a una clase. Obtendrá una idea de lo que se puede hacer con datos de esta naturaleza. Hay becas de verano en la Universidad de Chicago para la ciencia de datos para el bien social. Hay muchos sitios como Kaggle que organizan competiciones. Incluso si no participa, sígalos, obtenga algunos datos y algunas ideas sobre dichos sitios.

La visualización es el área más fácil de la ciencia de datos para el autoaprendizaje, y la curva de aprendizaje para la mayoría de las herramientas es bastante suave. Comience a jugar con R / ggplot2 y d3.js, continúe con la recreación de algunos de los gráficos estándar y luego haga el suyo.

Cualquier cosa con un entregable. Quieres poner tu nombre ahí afuera. Aplicación, ponencia académica / presentación de conferencia, algo digno de noticia. Algo interesante, extravagante, de lo que vale la pena hablar. Aprenderá lo que tenga que hacer para entregar el proyecto que emprenda.

Estoy en mi tercer año de estudios de pregrado y corro en proyectos de análisis de datos / ciencia de datos. Cosas que hago:

  1. Como estudio el grado de Matemáticas y Estadística en mi tercer año, solo hago módulos en Estadística. Decidí tomar todos los módulos de estadísticas disponibles en mi programa para tener un paquete completo de herramientas
  2. Escribiré el Proyecto de estadísticas avanzadas sobre el proceso de agrupación / clasificación de minería de datos donde usaré R y los datos tomados de la fuente de datos abierta
  3. Como no estudio ciencias de la computación asisto a tantos talleres de programación / BI / ML como pueda encontrar. También hago cursos sobre Udacity y Udemy. Sí, a veces tengo la sensación de que estudio 2 grados al mismo tiempo.
  4. Escribo un blog (todavía estoy trabajando en él) donde analizo temas interesantes usando técnicas de modelado estadístico y ML
  5. Trabajo en proyectos de análisis de datos / ciencia de datos que puedo encontrar. No están bien pagados, pero esa no es la parte más importante para mí, después de mi graduación no haré un plan de graduación, ya que encontraré fácilmente un trabajo bien remunerado.
  6. La parte más importante: eventos de networking para profesionales. Todavía no soy profesional, pero te sorprendería cuántas personas mencionaron: “cuando estés listo …”

Necesitas trabajar duro para ello, estar completamente determinado, pero me encanta la ciencia de datos y lo trato más como divertido en lugar de concentrarme en el hecho de que hago talleres a tiempo completo, estudios a tiempo parcial y programación a tiempo completo.

More Interesting

¿Qué debo hacer para convertirme en analista de datos una vez que mi título esté completo?

¿Cuál es la diferencia entre estadística computacional y ciencia de datos?

¿Qué tipo de datos se almacenan y qué tipo de análisis se realiza en datos de proyectos arqueológicos?

Cómo diseñar un currículo para enseñarme estadísticas

Como uno de los primeros practicantes de inteligencia artificial y reconocimiento de voz, ¿qué piensa James Baker del rumor en torno al aprendizaje automático y la ciencia de datos en la década de 2010?

¿Un disco duro completo normalmente contiene alrededor del 50% de unos y 50% de ceros?

¿Debo ser un experto en el lenguaje Python para aprender ciencia de datos?

¿Cuáles son las tecnologías actuales utilizadas en el análisis de datos?

¿Cómo están transformando Big Data Solutions la publicidad digital?

¿Cuáles son los proyectos relacionados con big data y análisis de datos que un individuo puede hacer en su graduación?

¿Cuáles son los mejores recursos gratuitos para nuevos desarrollos en aprendizaje automático y ciencia de datos?

¿Qué deportes son más conocidos por el análisis de datos?

¿Cuáles son los diferentes caminos para convertirse en un científico de datos en grandes empresas como Google o Facebook, si acabo de comenzar a trabajar como científico de datos en una startup de análisis de datos en India después de mi graduación en el campo de la electrónica?

Cómo usar Kaggle (empresa) si soy un principiante en el campo de la ciencia de datos y quiero publicar un trabajo de investigación lo antes posible y no tengo experiencia previa

Cuando trabajamos en aprendizaje automático en big data, ¿podemos usar la biblioteca scikit-learn con MLlib?