¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?

Tengo experiencia en análisis de datos con R y Python. Estos son algunos de mis pensamientos sobre los pros de cada idioma (básicamente los contras del otro):

R – Pros:

  • Algunos paquetes de terceros son realmente convenientes en la manipulación de datos, y le ahorra docenas de líneas de código y una cantidad incontable de tiempo para finalizar la misma tarea.
  • Grandes visualizaciones e implementaciones simples para crear gráficos (generalmente se necesitan 3 líneas de código para implementar el mismo gráfico en Python)
  • Muchos paquetes de código abierto que permiten la facilidad de implementar diferentes modelos
  • Capacidades estadísticas más fuertes
  • Más uso en investigación

Python – Pros:

  • ¡RÁPIDO! (aunque R puede ponerse al día utilizando las funciones de implementación en C / C ++)
  • Relativamente más fácil de aprender que R si conoce otros lenguajes de programación (sintaxis similar) [R es algo diferente pero aún no es tan difícil de aprender]
  • Más uso en empresas reales

Al comparar R con SciPy, debe tener en cuenta que SciPy está construido sobre NumPy y Python, que también proporcionan mucha flexibilidad.

Personalmente, descubrí que Python es más flexible y fácil de usar para obtener datos sin procesar, potencialmente malformados, y una representación en la memoria para trabajar, lo que me permite comenzar a analizar los datos más rápido.

Además, cuando agrega Pandas, que también está estrechamente relacionado con NumPy, a la mezcla, obtiene una gran flexibilidad y potencia adicionales, similar a la que obtendría con los marcos de datos R.

Junto con el hecho de que Pandas también proporciona muchos accesos directos que le permiten trazar datos rápidamente, Python generalmente me proporciona el tiempo más corto entre tomar un archivo de datos aleatorio y hacer mis primeros trazados.

Dicho esto, si se trata principalmente de archivos csv bien formateados o datos sintéticos, R podría ser la mejor opción para usted.

He usado tanto R como Python + Scipy. Ambos son bastante buenos y fáciles de aprender.

Para mis propósitos, R parece tener más bibliotecas de terceros fácilmente utilizables en mi línea de trabajo. Le sugiero que mire su campo de estudio y luego mire si todas las implementaciones que necesita están disponibles. En el peor de los casos, puede escribirlo usted mismo.

Para el análisis de datos numéricos, R es mucho mejor ya que es un lenguaje específico de dominio que funciona bien para la programación funcional.

Personalmente uso Python para raspar y formatear datos, y luego pasar los datos formateados a R a través de rpy2.

More Interesting

Estadísticas: ¿Qué significa el Principio de marginalidad?

¿Por qué hay muchos módulos en el ecosistema hadoop en lugar de un solo módulo?

¿Cuánto importa el tema de tesis doctoral para conseguir un buen trabajo?

¿Cómo un nuevo graduado que no es CS ingresa a la ciencia de datos?

¿Cuáles son algunos problemas de aprendizaje automático que se resolvieron con soluciones generativas en lugar de soluciones discriminatorias?

¿Cuál es la diferencia entre data warehouse / BI y data science?

¿Cuáles son los mejores equipos de ciencia de datos fuera de los Estados Unidos?

¿Cuáles son las desventajas comunes de tener un conjunto de datos dispersos al crear un modelo ML?

¿Cuáles son las desventajas de las notebooks iPython para el análisis de datos? ¿Hay algún trabajo de investigación disponible que hable sobre la rigidez y la linealidad del portátil?

¿Qué ideas procesables ha recopilado Netflix del análisis de big data? ¿Cómo influye en la habitación del escritor?

¿Cuál es el caso de uso más importante de la ciencia de datos en telecomunicaciones?

¿Cuáles son los conceptos erróneos comunes sobre la ciencia de datos?

¿En qué casos un análisis causal es más apropiado para una empresa o departamento de investigación que el modelo predictivo?

¿Cómo juegan un papel los datos y el análisis en el negocio de un cliente?

Quiero aprender R y python simultáneamente para minería y análisis de datos. ¿Hay algún sitio web que proporcione una estructura de curso similar para ambos?