¿Cómo se puede determinar si un conjunto de datos es grande o pequeño?

Bueno, por supuesto, no hay un umbral específico, como usted no dice “999 datos son pequeños, y desde 1000 se vuelven grandes”. Además, depende en gran medida de sus datos y especialmente del espacio subyacente donde viven sus datos. También hay limitaciones prácticas. Aquí hay algunas reglas básicas:

  • Si el tamaño de su conjunto de datos es mayor que su capacidad de RAM, tendrá que usar trucos específicos para implementar sus algoritmos y ese es un umbral práctico.
  • Depende del algoritmo que desee aplicar y su complejidad. Si tiene un algoritmo cúbico, ¡un conjunto de datos será “grande” con bastante rapidez!
  • Más teórico, pero en el origen de la exageración sobre “big data”: cuantos más datos ( independientes ) tenga, más información puede obtener sobre un fenómeno específico. Sin embargo, tener información “suficiente” depende de la complejidad del fenómeno estudiado (que generalmente no se entiende completamente). Pero bueno, heurísticamente, un conjunto de datos es lo suficientemente grande si la información estadística que extrae de él se mantiene verdadera para futuras observaciones.

More Interesting

¿Cómo serán las oportunidades de trabajo de Big Data para una persona de TI con 1.5 años de experiencia en 2016?

¿Qué grado es útil para la ciencia de datos?

¿Cuáles son los programas similares a Data Science for Social Good y The Fellowship | Código para América?

¿Qué tan buenas serán las oportunidades si agrego habilidades / conocimientos adquiridos por CFA-I además de mis habilidades básicas de análisis de datos?

¿Cuál es el mejor curso de posgrado a tiempo completo en ciencia de datos?

¿Cómo son las ubicaciones de Agies Mumbai después de PGP en Data Science?

¿Cuáles son las razones que explican que Random Forest funcione mejor que los métodos sin ensamblaje?

¿Existe algún algoritmo de clasificación que esté en su lugar, estable y que tenga un tiempo de ejecución lineal?

¿Cuáles son los buenos MOOC disponibles para aprender Data Science en YouTube?

¿Qué lo motivó a convertirse en gerente de ciencia de datos en lugar de permanecer en el papel de un científico de datos senior?

¿Cómo realizan los científicos de datos la selección del modelo? Al abordar, por ejemplo, un problema de clasificación, ¿cómo eligen los científicos de datos entre regresión logística, SVM, KNN, árboles de decisión, redes neuronales, etc.? ¿Es diferente para Kaggle?

¿Cuál es la diferencia entre ETL y R Programming?

Cómo comenzar a trabajar con el análisis de datos

¿Hay alguna plataforma que genere automáticamente informes de información para los usuarios a partir de una tabla de estadísticas?

¿Puede un ANN probar un nuevo conjunto de datos contra el conjunto de entrenamiento, aprender de manera incremental las características del nuevo conjunto de datos y actualizar el modelo de forma incremental?