Los científicos de datos deben tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:
- Captura de datos y preprocesamiento
- Análisis de datos y reconocimiento de patrones
- Presentación y visualización
Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:
1. Herramientas para extracción de datos y preprocesamiento
- ¿Cómo puedo usar el aprendizaje automático en Python?
- ¿Cuál es la mejor manera de aprender analítica de personas?
- ¿Es la ciencia de datos el fin de las estadísticas?
- ¿Cuál es la pregunta clave con respecto al gráfico social que solo el análisis de datos puede responder?
- ¿Cuál es la mejor hoja de ruta para aprender Ingeniería de Datos?
a. SQL
Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.
si. Tecnologías de Big Data
Esta es una habilidad imprescindible para todos los científicos de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo)
C. UNIX
Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.
re. Pitón
Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.
2. Herramientas para análisis de datos y coincidencia de patrones
Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.
a. SAS
Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.
si. R
R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos ya que la mayoría de las cosas se implementan en R.
C. Máquina inclinada
El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis avanzado, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están captando la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).
3. Herramientas para visualización
a. Cuadro
Es una herramienta popular, especialmente en Silicon Valley.
si. JMP (filial de SAS)
JMP tiene una buena visualización.
C. R
R también tiene un gran soporte de visualización, como ggplot2, celosía, rCharts, google chart, shiny for webapps, slidify para presentaciones, etc.
Además de las herramientas mencionadas anteriormente, las siguientes herramientas también son populares: JasperSoft, SAP BI, QlikView, MicroStrategy, etc.
4. Habilidades no técnicas
a. Visión para los negocios
Uno necesita tener una comprensión sólida de la industria en la que está trabajando, para conocer los problemas que enfrenta la organización. El científico de datos debería ser capaz de determinar qué problemas son críticos y cuáles no, para identificar nuevas formas en que los datos se pueden utilizar como palanca.
si. Habilidades de comunicación
Las empresas están buscando científicos de datos que puedan traducir sus conocimientos sobre los datos de manera clara y segura a otros compañeros de equipo. Un científico de datos los arma con ideas cuantificadas.
C. Solución analítica de problemas
La habilidad de resolución de problemas analíticos es muy exigente para Data Scientist, por lo que se puede utilizar el enfoque correcto para obtener el máximo rendimiento en tiempo y recursos disponibles.