Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio. En otras palabras, los científicos de datos utilizan su conocimiento de estadísticas y modelos para convertir datos en información procesable sobre todo, desde el desarrollo de productos hasta la retención de clientes y nuevas oportunidades de negocios.
Los científicos de datos deben tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:
- Captura de datos y preprocesamiento
- Análisis de datos y reconocimiento de patrones
- Presentación y visualización
Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:
- ¿Cuál puede ser un buen comienzo para una persona que no es de TI como yo en el campo de los datos?
- ¿Qué tipo de métodos de ciencia de datos se pueden aplicar a los datos de tráfico web?
- ¿Qué herramienta se puede usar para extraer puntos de datos de un gráfico en un archivo PDF y luego recrear ese gráfico con los datos extraídos?
- ¿Se requiere que una persona que realiza análisis de datos / ciencia de datos / aprendizaje automático tenga un buen conocimiento de las estructuras de datos? ¿Si es así por qué?
- ¿Cuáles son las aplicaciones de Data Science donde no hay datos recopilados previamente?
1. Herramientas para extracción de datos y preprocesamiento
a. SQL
Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.
si. Tecnologías de Big Data
Esta es una habilidad imprescindible para todos los científicos de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo)
C. UNIX
Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.
re. Pitón
Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.
2. Herramientas para análisis de datos y coincidencia de patrones
Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.
a. SAS
Sigue leyendo aquí …