Es solo una idea personal. Estoy usando R y Python para la mayoría de mis análisis de datos (principalmente R ya que estoy más familiarizado con él).
- Ambos tienen muchos paquetes / bibliotecas que contienen funciones útiles y convenientes de minería / análisis de datos y modelado / predicción.
- Las funciones de trazado también son potentes y siempre puede hacer que sus trazados sean más profesionales.
- Fácil de comenzar con / muchos materiales en línea para aprender R (especialización en ciencia de datos de Coursera) y Python (Udemy, etc.)
- Siempre puede ejecutar análisis en C / C ++ para mejorar la eficiencia.
Si esos datos son demasiado grandes y comienzan a ser lentos para usar R / Python para analizarlos, Hadoop es una buena herramienta para hacerlo. Recién comencé con él y no pude discutir en detalle sobre eso.
Espero que alguien más pueda hacerlo.
- ¿Cuáles son los valores reales de Kaggle?
- ¿Qué controles / auto revisión aplica para la visualización de datos?
- ¿Cómo se recomiendan elementos basados en el historial de navegación (y elementos y características del usuario) cuando no hay ejemplos o calificaciones 'negativas'?
- ¿Es Big Data todo sobre sistemas distribuidos?
- ¿Cómo podemos recopilar grandes datos de Internet en general?