Desde el punto de vista estadístico, algunos métodos simplemente no son posibles con grandes cantidades de datos. No puedo gestionar una clasificación jerárquica en el conjunto de datos en el que trabajo. Necesariamente tendré que usar un algoritmo más nuevo, a menudo etiquetado como “Big Data”. Pero a diferencia de @Andrew Hansen, esos nuevos algoritmos también pueden ser más interesantes que los anteriores.
EDITAR:
David Stokar hizo un comentario muy interesante: ¿por qué no probar y usar el método tradicional?
- ¿Cuáles son las responsabilidades de un científico de datos en diferentes empresas?
- ¿Cuáles son los consejos prácticos para trabajar con una gran cantidad de datos para el análisis en Excel?
- ¿Está Microsoft Excel fuera de moda y menospreciado por los profesionales de la ciencia de datos?
- ¿Cuál es la mejor manera de lidiar con los datos faltantes cuando se utiliza la regresión polinómica fraccional?
- ¿Orientación profesional para personas de 25 años de edad con inclinación cuantitativa con datos / habilidades de programación?
Esto es realmente lo que hago la mayor parte del tiempo. Por lo tanto, mi respuesta no fue inteligente y es necesario editarla.
Big Data aún no se ha definido. Por ahora, creo que está más relacionado con la forma en que se generan los datos: datos no estructurados, a menudo producidos como un subproducto de una actividad en lugar de un proceso de recopilación de estructuras. Por ejemplo: registros de sitios web, datos de sensores, datos de “Internet de las cosas”. Estos son más difíciles de evaluar con métodos tradicionales, ya que debe pensar en cómo recopilar, estructurar, usar y actualizar los datos.
David Stokar, ¡me alegraría escuchar tu punto de vista desarrollado sobre todo esto!