¿Cuáles son las diversas áreas de investigación en ciencia de datos?

La pregunta que hizo es bastante amplia y depende completamente del dominio en el que desea trabajar.

Para comenzar con Computer Vision, primero debe conocer los conceptos básicos del procesamiento de imágenes. Si no me equivoco, Vision utiliza muchos modelos gráficos probabilísticos, por lo que es posible que desee tomar el curso Coursera en PGM de Daphne Koller. Es el mejor curso sobre PGM hasta la fecha :). Una vez hecho esto, puede comenzar con proyectos como el reconocimiento de objetos (utiliza la Propagación de creencias), la detección de rostros, el reconocimiento de fondo en primer plano, el reconocimiento de caracteres (el más fácil), etc.

Procesamiento del lenguaje natural, es posible que desee mirar en dos perspectivas diferentes, una de lingüistas y otra de informáticos. Como lingüista, uno necesita saber cómo funciona el idioma inglés como informático, necesita saber cómo hacer que las máquinas aprendan el idioma. Es posible que desee pasar por modelos como Campos aleatorios condicionales (CRF), Modelos ocultos de Markov, similitud de oraciones, etc. Los proyectos para esto pueden incluir, coincidencia de artículos (usando similitud de oraciones), etiquetador de parte del discurso (utilicé un modelo oculto de Markov como enfoque básico), autocompletado de texto, etc.

Si quieres ir al aprendizaje automático teórico, lee esto

En general, dividiría Machine Learning (el nombre más genial es ciencia de datos) en tres partes:

  1. Representación
  2. Aprendizaje
  3. Inferencia

Selecciona el que más te guste y lo implementa en varios dominios.

Mi favorito personal es Inferencia si tiene alguna pregunta al respecto, no dude en enviarme un ping 🙂

Después de seleccionar en qué quiere trabajar, simplemente mire el dominio en el que desea trabajar. Puede obtener toneladas de conjuntos de datos para varios dominios del Depósito de aprendizaje automático de UCI.

Mi dominio favorito es Healthcare, es un sector muy grande para problemas de aprendizaje automático. Hay muchos problemas que se pueden resolver en este dominio. Por ejemplo: predicción de diabetes, predicción de ER para hospitales, etc.

Por cierto, ¿has usado Kaggle? Ellos organizan muchas competiciones de ciencia de datos (muchas compañías solicitan tu rango de Kaggle)

Depende de cómo te guste romper las cosas. Una separación, a pesar de que es muy turbia en muchos sentidos porque ambos roles involucran al otro, es entre los científicos de datos frente a los ingenieros de datos, donde los primeros tienden a tener un mayor conocimiento del aprendizaje automático y las estadísticas frente a los posteriores codificadores más fuertes en Python, R, chispa, Hadoop, etc.

En cuanto a la ruptura entre especializaciones específicas, no hay líneas duras porque a veces puede que tenga que hacer todas estas cosas en un solo rol, pero en general puede centrarse en el aprendizaje automático tradicional (como bosques aleatorios, aumento de gradiente, etc.), bayesiano Estadísticas, análisis de series temporales, aprendizaje profundo, modelos gráficos probabilísticos, análisis de datos topológicos, etc.

Además, más en el lado de la ingeniería, puede centrarse en cosas como Python vs R, Hadoop, Spark, etc.

No hay una sola persona en este planeta que conozca toda la ciencia de datos y esa es parte de la razón por la cual este campo es tan emocionante y crece constantemente sin parar.

Trabajo en el análisis de datos topológicos (una rama del aprendizaje automático y la topología algebraica), así como en el aprendizaje conjunto, la reducción de la dimensionalidad y el análisis de redes (particularmente enfocado en aplicaciones de geometría diferencial).