Inicialmente solo iba a comentar, no a responder, pero como varias personas lo han mencionado brevemente, creo que merece expandirse. Las personas con entrenamiento en estadísticas entienden el muestreo. En algún momento, cuando intente integrar análisis o un sistema de aprendizaje automático en el código de producción, necesitará algo que se amplíe a un clúster de tamaño arbitrario que pueda extenderse a través de máquinas virtuales en centros de datos, Dios sabe dónde, pero cuándo está realizando su trabajo básico, explorando datos, formando y probando hipótesis, construyendo y evaluando modelos predictivos, no necesita usar los 5 TB más de lo que Nate Silver necesitaba para sondear a cada votante en Estados Unidos para predecir con resultados perfectos de elección de precisión en todos los distritos del país.
No te lo tomes a mal. Las muestras más grandes arrojan conclusiones más sólidas, pero el metanálisis que implicaba sacar conclusiones de muchos estudios agregados existía antes de los grandes datos y realmente antes de que las estadísticas fueran incluso principalmente computacionales y es muy fácil formar modelos formados en corridas completamente separadas entre sí, aunque ciertamente es más rápido y satisfactorio de una manera muy agradable de poder hacerlo todo a la vez en un gran sistema distribuido.
También tenga en cuenta que SparkR es una cosa ahora, por lo que puede usar R encima de Hadoop. Microsoft también adquirió Revolution Analytics y está convirtiendo a R en la pieza central de sus sistemas de aprendizaje automático de Azure. Solo porque requirió cargar todos los datos en la memoria en 1994 o cuando salió por primera vez y solo podía ejecutarlo en una sola máquina en la parte superior de la biblioteca C nativa, no significa que ese sea el caso. Cuando utiliza un clúster local de servidores de los que es propietario y está razonablemente seguro de que no se irá a la basura en medio de su trabajo y no necesita replicación automatizada y gestión de conmutación por error proporcionada por el modelo MapReduce, puede usar algo como nieve. También hay Bigmemory, por lo que ni siquiera es cierto cuando trabajas en una sola máquina que tus datos deben caber en la memoria para que puedas usarlos todos. Incluso dplyr puede operar en tablas de bases de datos relacionales en lugar de data.frames si lo desea, aunque podría decirse que en ese momento también puede usar SQL, que será mucho más rápido.
- Mientras se realiza PCA en 96 variables, la contribución de varianza expandida de cada componente es muy inferior a 1-1.5%. ¿Qué dice sobre los datos?
- ¿Cuánto de R (o minería de datos) debo aprender para la investigación de mercado y para un negocio personal / propio?
- ¿Hay algún científico de datos en la Antártida?
- Después de la ingeniería, ¿cuál es mejor, capacitación en ciencias de datos o un curso de diploma de ciencias de datos PG?
- ¿Cuáles son las características en la minería de opinión?