Como ex analista de fondos de cobertura y científico de datos actual, le diré que la ciencia de datos, en términos generales, tratará con una gama más amplia de tipos de datos que los analistas que trabajan en el comercio de alta frecuencia. Si bien el conjunto de habilidades básicas para pensar críticamente sobre los datos puede ser el mismo, tendrá que ser fácil de ver los datos desde diferentes perspectivas y contextualizarlos a la aplicación en una nueva industria.
Para generalizar, existen 7 formas amplias de pensar acerca de los datos. Hay muchos subtemas a continuación, pero estos 7 tipos de enfoques abarcarán el 80% de lo que encontrará que se usa comercialmente. Si está bien fundamentado en muchos métodos en las 7 categorías, tendrá una excelente base para abordar la gran mayoría de los desafíos analíticos que encontrará en un entorno comercial.
1. Datos mineros para patrones o agrupaciones. Simplemente traza los datos en un gráfico y mide la distancia entre puntos para evaluar la similitud. Este es el principio básico de la agrupación de la que fluyen todos los demás análisis.
- ¿Qué puedo seguir en el dominio de la ciencia de datos? Tengo conocimiento en el programa R.
- ¿El análisis exploratorio de datos no es necesario para el aprendizaje profundo?
- ¿Cuál es una excelente manera de aprender a usar las funciones en paquetes como Ggplot2 y Pandas en R y Python?
- Tengo un doctorado en matemáticas y 18 años de experiencia en programación (Python, Perl, C ++). Ahora quiero entrar en la ciencia de datos. ¿Cuál es mi primer movimiento?
- ¿Cuáles son algunos de los desafíos que enfrentan las personas cuando pasan de la academia a la ciencia de datos?
2. Asignación de nuevos puntos de datos a grupos mediante clasificación. ¿Alguien morirá en su préstamo? ¿Alguien comprará tu libro? ¿Alguien votará por ti? ¿Alguien donará dinero a una causa? ¡Todas estas son preguntas de clasificación típicas!
3. Descubriendo comunidades y relaciones mediante el análisis de redes. Todo está conectado de una forma u otra. Las personas están conectadas a través de sus intereses, amistades, preferencias y cosas que compran. Las personas y los objetos están conectados a través de otros tipos de similitudes. Cuando comprenda que todo está conectado, puede comenzar a hacer preguntas como ¿quién es el conector principal? ¿Quién es el principal influyente? ¿Qué comunidades existen que necesito tratar como unidades discretas?
4. Minería de texto para identificar significado, opinión e intención. Los datos de texto están en todas partes, desde correos electrónicos hasta publicaciones en redes sociales. Pero leerlo todo e interpretarlo con precisión es imposible para un ser humano. Lo sorprendente es que puede extraer automáticamente la opinión, el grado de sentimiento (compasión, ira, etc.) sobre los temas, resumir volúmenes masivos de texto y clasificar automáticamente y particionar datos de texto. De la misma manera que Amazon y PayPal segmentan las opiniones y opiniones de los clientes.
5. Encontrar relaciones y hacer predicciones usando regresión y análisis de series de tiempo. Estos métodos lo ayudarán a identificar cómo un cambio en las condiciones (temperatura, humedad, años de experiencia de un empleado) afectará un resultado (ventas, desempeño del empleado) y cómo evolucionarán varias tendencias a lo largo del tiempo. ¿Por qué importa esto? Bueno, las ventas de juguetes de árboles de Navidad tienen un patrón diferente en diciembre que en julio, solo para darle un ejemplo.
6. Encontrar valores atípicos y anomalías para anticipar accidentes financieros, fraudes, delitos u otros eventos inusuales.
7. Prueba de hipótesis. Estos métodos lo ayudan a determinar qué anuncio es mejor para mostrar, qué inferencia puede y no puede hacer sobre diferentes poblaciones, etc. Comprender formas sólidas de realizar pruebas A / B es fundamental para trabajar con datos de manera efectiva.