¿Cuáles son las mejores herramientas de código abierto para un científico de datos?

De los resultados de la encuesta de software KDnuggets 2016 del año pasado, que me gusta porque tiende a tener una mejor distribución geográfica, el ecosistema R es seguido muy de cerca por el ecosistema Python (incluido scikit-learn), y es posible que Python pueda superar R en el futuro cercano.

Sin embargo, los dos no son equivalentes, por lo que podría ser un caso de ambos en lugar de cualquiera. Nuestro equipo considera que R (y Shiny) es bueno para la creación de prototipos y el análisis estadístico, mientras que Python funciona mejor en un entorno de producción. Eso también es consistente con los resultados: el crecimiento en Python podría ser una función de la evolución natural de un equipo de ciencia de datos, desde hacer experimentos y trabajos ad-hoc hasta una mayor integración con el software empresarial.

¿Cómo utilizan los bancos la minería de datos?

¿Cómo tenemos equilibrio de carga en los reductores en caso de sesgo de datos?

¿Cuál es el panorama del big data en 2016?

Estadísticas: ¿Qué significa el Principio de marginalidad?

¿Cuál es su fuente de aprendizaje automático y noticias de ciencia de datos? ¿Por qué?

Cómo saber si estoy listo para una entrevista de ciencia de datos

Sugiero no buscar las “mejores herramientas” sino buscar herramientas que se adapten a su experiencia, tareas y entorno.

Demasiados de ellos son los mejores para ciertas tareas. No estoy seguro de que sea posible determinar una solución ideal, pero existe la manera de encontrar herramientas que se adapten a sus tareas y conocimientos.

Dado que Github admite los repositorios de búsqueda con etiquetas de tema, puede encontrar fácilmente las herramientas más populares buscando el tema “ciencia de datos” y ordenando por “la mayoría de las estrellas”. Los siguientes temas también podrían ser interesantes para el científico de datos:

Análisis de los datos
Aprendizaje automático
Aprendizaje profundo
Minería de datos

Otro recurso importante son las listas impresionantes de github:

Ciencia de datos impresionante
Ciencia de datos con Ruby
Impresionante visualización de ciencia de datos

KDNuggets realiza encuestas periódicas para encontrar las herramientas más populares

¿Qué software / herramientas de análisis, minería de datos y ciencia de datos ha utilizado en los últimos 12 meses?
Los 15 marcos principales para expertos en aprendizaje automático

Herramientas principales de la competencia de ciencia de datos de Kaggle https://www.kaggle.com/wiki/Soft …

Begtin Ivan

En mi opinión, The R Project for Statistical Computing y su ecosistema , que consiste en una miríada de paquetes para cada análisis bajo el sol, su comunidad conocedora y receptiva y una riqueza de todo tipo de documentación y recursos para todos los niveles de habilidades y experiencia. Si bien el siguiente artículo no es exhaustivo (si es posible), presenta un buen punto de partida para razonar hacia un marco de apreciación y adopción de R (el término es mío):
http: //www.econometricsbysimulat… .

Alket Cecaj

Las mejores herramientas de código abierto para un científico de datos son la programación R (Rstudio), Python, Java y Javascript.

Si no le gustan tanto los lenguajes de programación (incluso esto comprometería su reputación como científico de datos), puede probar Tableau Software. Tiene un panel de control atractivo que le permite aplicar algoritmos a los datos y, en general, implementar su análisis sin escribir una línea de código.

Si desea aplicar algunos algoritmos de aprendizaje automático, puede usar WEKA: Minería de datos con software de código abierto de aprendizaje automático en Java. Puede usar su GUI (interfaz gráfica de usuario) para ver los resultados de su análisis.

Feliz aprendizaje 🙂

Aleksandr Blekh

Si bien “científico de datos” puede parecer un término nuevo para muchos, la práctica ha existido durante mucho tiempo utilizando apodos específicos de dominio. Hay muchas herramientas excelentes disponibles.

Al igual que con los lenguajes de programación, la ‘mejor’ herramienta depende de la naturaleza de los problemas que está tratando de resolver, la forma de los datos, los antecedentes de los desarrolladores, la infraestructura disponible y otras variables. Sin conocer estos detalles, un consejo general sería mirar a R, SciPy y Hadoop al considerar lo anterior.

Jabulani Chibaya

R y Python son buenos (R mejor en estadísticas, más aprendizaje automático; Python mejor en propósitos generales, PNL y aprendizaje profundo).

Jabulani Chibaya

R studio, hadoop, spark

Jabulani Chibaya

More Interesting

¿Cómo se puede aumentar artificialmente la varianza de un conjunto de datos?

¿Cuál es la mejor opción para estudiar análisis de datos?

Cómo detectar patrones de respuesta de opción múltiple en R

¿Cuál es el futuro del big data en India?

¿Debería unirme a 'dominar el análisis de datos con R' por edureka o 'Análisis de datos con R' por Udacity?

¿Qué estadística simple o técnica de ciencia de datos utilizó para obtener una visión interesante cuando se enfrentó a grandes cantidades de datos?