¿Cuáles son las mejores herramientas de código abierto para un científico de datos?

De los resultados de la encuesta de software KDnuggets 2016 del año pasado, que me gusta porque tiende a tener una mejor distribución geográfica, el ecosistema R es seguido muy de cerca por el ecosistema Python (incluido scikit-learn), y es posible que Python pueda superar R en el futuro cercano.

Sin embargo, los dos no son equivalentes, por lo que podría ser un caso de ambos en lugar de cualquiera. Nuestro equipo considera que R (y Shiny) es bueno para la creación de prototipos y el análisis estadístico, mientras que Python funciona mejor en un entorno de producción. Eso también es consistente con los resultados: el crecimiento en Python podría ser una función de la evolución natural de un equipo de ciencia de datos, desde hacer experimentos y trabajos ad-hoc hasta una mayor integración con el software empresarial.

Sugiero no buscar las “mejores herramientas” sino buscar herramientas que se adapten a su experiencia, tareas y entorno.

Demasiados de ellos son los mejores para ciertas tareas. No estoy seguro de que sea posible determinar una solución ideal, pero existe la manera de encontrar herramientas que se adapten a sus tareas y conocimientos.

  1. Dado que Github admite los repositorios de búsqueda con etiquetas de tema, puede encontrar fácilmente las herramientas más populares buscando el tema “ciencia de datos” y ordenando por “la mayoría de las estrellas”. Los siguientes temas también podrían ser interesantes para el científico de datos:
  1. Análisis de los datos
  2. Aprendizaje automático
  3. Aprendizaje profundo
  4. Minería de datos
  • Otro recurso importante son las listas impresionantes de github:
    1. Ciencia de datos impresionante
    2. Ciencia de datos con Ruby
    3. Impresionante visualización de ciencia de datos
  • KDNuggets realiza encuestas periódicas para encontrar las herramientas más populares
    1. ¿Qué software / herramientas de análisis, minería de datos y ciencia de datos ha utilizado en los últimos 12 meses?
    2. Los 15 marcos principales para expertos en aprendizaje automático
  • Herramientas principales de la competencia de ciencia de datos de Kaggle https://www.kaggle.com/wiki/Soft
  • En mi opinión, The R Project for Statistical Computing y su ecosistema , que consiste en una miríada de paquetes para cada análisis bajo el sol, su comunidad conocedora y receptiva y una riqueza de todo tipo de documentación y recursos para todos los niveles de habilidades y experiencia. Si bien el siguiente artículo no es exhaustivo (si es posible), presenta un buen punto de partida para razonar hacia un marco de apreciación y adopción de R (el término es mío):
    http: //www.econometricsbysimulat… .

    Las mejores herramientas de código abierto para un científico de datos son la programación R (Rstudio), Python, Java y Javascript.

    Si no le gustan tanto los lenguajes de programación (incluso esto comprometería su reputación como científico de datos), puede probar Tableau Software. Tiene un panel de control atractivo que le permite aplicar algoritmos a los datos y, en general, implementar su análisis sin escribir una línea de código.

    Si desea aplicar algunos algoritmos de aprendizaje automático, puede usar WEKA: Minería de datos con software de código abierto de aprendizaje automático en Java. Puede usar su GUI (interfaz gráfica de usuario) para ver los resultados de su análisis.

    Feliz aprendizaje 🙂

    Si bien “científico de datos” puede parecer un término nuevo para muchos, la práctica ha existido durante mucho tiempo utilizando apodos específicos de dominio. Hay muchas herramientas excelentes disponibles.

    Al igual que con los lenguajes de programación, la ‘mejor’ herramienta depende de la naturaleza de los problemas que está tratando de resolver, la forma de los datos, los antecedentes de los desarrolladores, la infraestructura disponible y otras variables. Sin conocer estos detalles, un consejo general sería mirar a R, SciPy y Hadoop al considerar lo anterior.

    R y Python son buenos (R mejor en estadísticas, más aprendizaje automático; Python mejor en propósitos generales, PNL y aprendizaje profundo).

    R studio, hadoop, spark