¿Cuál es su software de análisis de datos preferido y por qué?

Buscaría cualquiera de los paquetes de IA de Google, MS, Amazon. El análisis de datos se está moviendo en esa dirección. Cuantos más datos tenga, la mejor inteligencia artificial podrá aprender de ellos. Realmente depende de lo que estés buscando. MS SSRS es bueno, Crystal Reports también es bueno para comenzar. Varios otros paquetes vienen con alto costo y capacitación. Es mejor comenzar lentamente para conocer sus datos. Lo más importante es tener datos limpios que la mayoría de las empresas no tienen. Un ejemplo sería un número de pieza y un costo incorrectos, números de clientes que no son válidos. También necesita saber lo que está buscando. Debe asegurarse de que sus detalles estén limpios y eliminar o solucionar problemas. La mejor manera es ejecutar consultas SQL y agrupar sus detalles de diferentes maneras para ver si tiene un problema. A menudo, los datos enviados a un sistema de depósito de datos contienen información desactualizada o incorrecta. Si obtiene datos de varias fuentes, tendrá que hacer coincidir los datos importados con el historial.
Asegúrese de tener todo el conocimiento sobre lo que hay en sus campos de base de datos. Las personas hacen cosas extrañas con los datos, como el tercer carácter en un número de parte que le dirá si la parte está almacenada. O tienen malos tipos de productos. incluso los mismos datos pueden tener datos numéricos y de caracteres en el mismo campo, como el número de cliente. Sé de un amigo cuyo único trabajo es venir cada mañana y arreglar los datos importados de otros sitios. ¿Qué vas a hacer con el historial de datos cuando se compra un cliente y ahora tienes dos números de clientes diferentes y aún así son la misma compañía?

Modelado: R, porque hay muchas bibliotecas

Manipulación de datos: Python, porque el código es editable después de ser escrito

Almacenamiento de datos / ETL: SQL, porque es compatible con todo y fácil

Solía ​​ser un fanático de Matlab. Principalmente porque es el primer software de análisis de datos que aprendí y la curva de aprendizaje fue fácil. Desde que comencé a tomar el aprendizaje automático con más seriedad, migré a Python y no me arrepiento. Si bien Matlab ofrece mejores herramientas de depuración (en mi opinión), Python es de código abierto, lo que significa que puede compartir sus proyectos con cualquier persona sin necesidad de costosas licencias. También tiene muchas bibliotecas de código abierto disponibles en línea con muchos recursos (tensorslow, scikit learn, Keras, bache, etc.). Es fácil de instalar e implementar en plataformas basadas en la nube. Definitivamente recomendaría aprenderlo. El uso de las notebooks ipython (jupyter) me parece particularmente útil para compartir ideas y generar ideas sobre un enfoque particular de aprendizaje automático