¿Cuáles son las diversas áreas de investigación en ciencia de datos?

La pregunta que hizo es bastante amplia y depende completamente del dominio en el que desea trabajar.

Para comenzar con Computer Vision, primero debe conocer los conceptos básicos del procesamiento de imágenes. Si no me equivoco, Vision utiliza muchos modelos gráficos probabilísticos, por lo que es posible que desee tomar el curso Coursera en PGM de Daphne Koller. Es el mejor curso sobre PGM hasta la fecha :). Una vez hecho esto, puede comenzar con proyectos como el reconocimiento de objetos (utiliza la Propagación de creencias), la detección de rostros, el reconocimiento de fondo en primer plano, el reconocimiento de caracteres (el más fácil), etc.

Procesamiento del lenguaje natural, es posible que desee mirar en dos perspectivas diferentes, una de lingüistas y otra de informáticos. Como lingüista, uno necesita saber cómo funciona el idioma inglés como informático, necesita saber cómo hacer que las máquinas aprendan el idioma. Es posible que desee pasar por modelos como Campos aleatorios condicionales (CRF), Modelos ocultos de Markov, similitud de oraciones, etc. Los proyectos para esto pueden incluir, coincidencia de artículos (usando similitud de oraciones), etiquetador de parte del discurso (utilicé un modelo oculto de Markov como enfoque básico), autocompletado de texto, etc.

Si quieres ir al aprendizaje automático teórico, lee esto

En general, dividiría Machine Learning (el nombre más genial es ciencia de datos) en tres partes:

Representación
Aprendizaje
Inferencia

Selecciona el que más te guste y lo implementa en varios dominios.

Mi favorito personal es Inferencia si tiene alguna pregunta al respecto, no dude en enviarme un ping 🙂

Después de seleccionar en qué quiere trabajar, simplemente mire el dominio en el que desea trabajar. Puede obtener toneladas de conjuntos de datos para varios dominios del Depósito de aprendizaje automático de UCI.

Mi dominio favorito es Healthcare, es un sector muy grande para problemas de aprendizaje automático. Hay muchos problemas que se pueden resolver en este dominio. Por ejemplo: predicción de diabetes, predicción de ER para hospitales, etc.

Por cierto, ¿has usado Kaggle? Ellos organizan muchas competiciones de ciencia de datos (muchas compañías solicitan tu rango de Kaggle)

Related Content

¿Cuál es el tema de ciencia de datos Preguntas frecuentes?

Cómo encontrar un buen formato para big data

¿Se puede utilizar el aprendizaje automático para explicar las tendencias de datos históricos?

Cómo calcular la distribución estadística en un gran conjunto de datos

¿Cuáles son las diferencias entre una base de datos, data mart, data warehouse, un lago de datos y un cubo?

¿Existe una forma equivalente de usar mi Nikon D5100 para telefoto y tener el mismo o mejor coeficiente intelectual que el nuevo P900?

¿Cuáles son los conceptos erróneos comunes sobre la ciencia de datos?

Depende de cómo te guste romper las cosas. Una separación, a pesar de que es muy turbia en muchos sentidos porque ambos roles involucran al otro, es entre los científicos de datos frente a los ingenieros de datos, donde los primeros tienden a tener un mayor conocimiento del aprendizaje automático y las estadísticas frente a los posteriores codificadores más fuertes en Python, R, chispa, Hadoop, etc.

En cuanto a la ruptura entre especializaciones específicas, no hay líneas duras porque a veces puede que tenga que hacer todas estas cosas en un solo rol, pero en general puede centrarse en el aprendizaje automático tradicional (como bosques aleatorios, aumento de gradiente, etc.), bayesiano Estadísticas, análisis de series temporales, aprendizaje profundo, modelos gráficos probabilísticos, análisis de datos topológicos, etc.

Además, más en el lado de la ingeniería, puede centrarse en cosas como Python vs R, Hadoop, Spark, etc.

No hay una sola persona en este planeta que conozca toda la ciencia de datos y esa es parte de la razón por la cual este campo es tan emocionante y crece constantemente sin parar.

Shrutika Poyrekar

Trabajo en el análisis de datos topológicos (una rama del aprendizaje automático y la topología algebraica), así como en el aprendizaje conjunto, la reducción de la dimensionalidad y el análisis de redes (particularmente enfocado en aplicaciones de geometría diferencial).

Shrutika Poyrekar

More Interesting

¿Cuál es la mejor manera de obtener consistentemente solo el texto / artículo principal de un sitio como The Verge o Forbes con Beautiful Soup y Python?

¿Cuál es la diferencia entre Python y las herramientas de minería de datos como Knime y Rapid Miner?

¿Debería una persona aprender sobre ciencia de datos en general antes de entrar en el aprendizaje automático? ¿Por qué?

Cómo solicitar una pasantía de Data Science en Amazon

¿A cuál de los cinco paradigmas del aprendizaje automático pertenece la agrupación?

¿Cuáles son los valores reales de Kaggle?

¿Hay un curso sobre Hadoop / data science en ETS, Montreal?

¿Cómo serán las oportunidades de trabajo de Big Data para una persona de TI con 1.5 años de experiencia en 2016?

¿Puede un chico con cero experiencia en codificación, pero con un MBA terminado, superarlo si está muy interesado en aprender ciencia de datos?

Cómo diseñar un clasificador SOM

¿Cuál es la forma de explorar mis datos más fácilmente?

¿Hay algún descuento en el Día de Acción de Gracias para el aprendizaje de big data?

¿Qué se entiende por big data?

¿Hay periodistas / revistas dedicados a la ciencia de datos, big data y aprendizaje profundo en India?

¿Cuál es el mejor: ciencia de datos, aprendizaje automático o informática?

Web Analytics