Big Data: ¿Cuántos datos son suficientes para realizar análisis de datos y obtener resultados válidos?

Estuve tentado de responder 30, pero eso sería una broma estadística y realmente no respondería los puntos en su pregunta ampliada.

Asi que:
1: ¿Cuántos datos son suficientes?
Nunca tienes suficientes datos. Más información casi siempre conduce a mejores resultados. Suaviza el ruido y le permite obtener una mayor confianza en sus resultados. Esto es impulsado por la ley más poderosa del mundo: la Ley de los grandes números.
Como se ha mostrado, más datos le permiten utilizar algoritmos simples con los resultados que lograría utilizando menos datos y métodos más complejos. Entonces, un buen lema que se usa a menudo es “obtener más datos es más importante que obtener mejores algoritmos”. El famoso artículo de Banko & Brill es un buen recurso para esto (página en lancs.ac.uk).

2: ¿Hay alguna forma de calcular la cantidad de datos que necesitamos?
Sí, pero depende de lo que esté haciendo, por lo que no hay una respuesta general y es por eso que recibe muchas respuestas “depende” de su publicación.

3: Calidad de datos
Hay al menos dos categorías para “calidad”. Uno es la calidad del formato de datos y el otro es la calidad de los datos en sí.
La calidad del formato de datos depende de cómo se formatean los datos, ¿hay demasiados valores faltantes? ¿tienes varias variables mezcladas en una? ¿tiene diferentes observaciones mezcladas en la misma “fila”? Hay un buen artículo sobre eso llamado “Tidy Data” por Hadley Wickham. (Página en jstatsoft.org).
Entonces tienes la calidad de los datos en sí. ¿Tienes mucho ruido? ¿Muchos valores atípicos? ¿Son sus variables independientes o correlacionadas? ¿Tienen poder predictivo? ¿Necesitas más funciones? ¿Necesitas menos funciones? ¿Alguna característica es muy ruidosa respecto a las demás? Etc. Aquí es donde debe lidiar con la ingeniería de características y la selección de características, ya sea manual o automáticamente. Es un campo completo por sí solo.

tl; dr: 30

Luis.

Big Data es un término colectivo y común utilizado para describir posibles fuentes de datos que pueden o no ser relevantes para su uso en análisis de datos para un caso de uso particular. Y creo que no habrá una respuesta correcta sobre cuántos datos son suficientes. Debido a que todas las empresas son diferentes y todos los datos, se pueden medir de diferentes maneras. Sin embargo, los datos son tan grandes como para las soluciones, que están en un acuerdo con ellos.

Entonces, si elige una buena, no habrá preguntas como esas. En este caso, puede consultar ShopingCartElite. Eso va sin decir que la mayor cantidad de datos conduce a mejores resultados. Así que creo que puede resolver todos sus problemas relacionados con la desaceleración de los servicios web y el análisis de datos web. Esta empresa es una solución única para resolver todos los problemas de comercio electrónico. Su tecnología Hypersonic CDN crea uno de los sitios web más rápidos allí. Además, su software TEA (Threat and Engagement Analytics) es una herramienta de análisis web que elimina a los visitantes falsos que llegan al sitio web y garantiza que el tráfico genuino llegue al sitio web. Además, cuenta con una buena herramienta de SEO, Omni-Channel Hub, Easy Data Feed y otros para administrar su tienda sin problemas. Definitivamente te recomiendo que lo revises.

Divulgación: escribí esta publicación y revisé esta compañía en mi respuesta.

Para el aprendizaje automático, normalmente los datos de un mes no son suficientes para obtener resultados sólidos, a menos que tenga grandes volúmenes de datos registrados y disponibles.

1. Para algunos comportamientos entonces sí. Análisis de puntos críticos. Experiencia de usuario. Viajes web. Básicamente cualquier cosa descriptiva.

2. Hay muchos cálculos listos para el cálculo del tamaño de la muestra, el entrenamiento y los conjuntos de validación. Cada método desplegado tendrá sus propias reglas y preferencias para cada tipo de análisis. Cuando no tiene suficientes datos, el arranque puede ayudar, pero no es una ciencia perfecta o totalmente confiable y se basa en la existencia / comprensión de la distribución de resultados que es probable que obtenga. Cuando compare el resultado de esto con la realidad más adelante, verá lo que quiero decir.

3. No faltan valores de datos.
Todo en conformación a estructuras y valores permitidos / esperados.
Sin faltas de ortografía.
Todos los datos, es decir, no faltan filas.
Comprensión de todos los datos recopilados, presentados y conformados

Voy a morder la bala y darle una respuesta definitiva: necesita un mínimo de 18 meses de datos, preferiblemente 24, para construir un modelo decente.

¿Por qué? Simple: estacionalidad.

¿Pero tu negocio no es estacional? Sí, he escuchado eso antes. Eres incorrecto Todo negocio es estacional. Incluso los ataques al corazón son estacionales (1).

Ahora que hemos eliminado esto, veamos qué puedes hacer ahora. Mi sugerencia es que comiences a entender el paisaje. Familiarizarse con los datos. Mire los patrones de navegación y ventas, obtenga una idea de la frecuencia con la que los clientes navegan y compran. ¿Cuáles son las categorías más populares? ¿Se compran algunos artículos o categorías juntos? Esto debería ser suficiente para comenzar, y para cuando haya terminado, habrá más datos listos.

(1) La estacionalidad en las muertes por insuficiencia cardíaca y las muertes cardiovasculares totales.

Francamente, no hay MB o GB de datos que cubran todo lo que necesita para crear un buen modelo de aprendizaje automático. Se trata de la inclusión y exhaustividad del modelo en términos de la diversidad de los puntos de datos entre sí y, por lo tanto, solo una vez que haya creado el modelo en sus datos de prueba basados ​​en la división 80:20: 80% para el tren y 20% para prueba, solo entonces puede saber con base en el MAPE (Error porcentual absoluto medio: se usa ampliamente para predecir qué tan bien funciona un modelo al predecir el comportamiento / propensión del usuario a comprar).


En general, el objetivo es minimizar MAPE y obtener el mejor R cuadrado (Indica qué tan bien le está yendo a su modelo a partir de la predicción del caso base)
y al final del día se convierte más en un ARTE que en una ciencia.
Entonces, si puede obtener los mejores valores de MAPE en la primera iteración, es un superhéroe o, de lo contrario, debe cambiar los tamaños de prueba a un volumen cada vez mayor (85%, 90%, etc.) y avanzar hasta eventualmente conviértete en el superhéroe que quieres ser.

Si está trabajando en una empresa que se ocupa de fabricantes y revendedores y necesita datos para probar un cierto patrón, generalmente una copia de seguridad de 5 años de datos históricos es suficiente para verificar los patrones y la efectividad del modelo.

Pero en su caso, sería mejor ver productos similares de otras compañías y hacer una investigación basada en la experiencia del usuario y ver qué tan bien se vende el producto en el mercado global. En consecuencia, podría hacer un plan tentativo e indicar las fuentes de su investigación y mencionar que tenía que mirar la imagen completa para ver qué progreso haría su producto en el mercado.

Hay formas de hacer un buen análisis con N = 1.
Hay formas de hacer un mal análisis con N = 10000000000.

Hay más de lo último que lo primero.

La cantidad de datos necesarios para hacer un “buen” análisis depende de sus preguntas, los métodos que desea utilizar, etc. La cantidad que necesita para tener una buena posibilidad de obtener resultados significativos requiere un análisis de potencia, que requiere toda la información anterior más una medida del tamaño del efecto, pero la validez del análisis depende mucho más de la calidad de los datos que de la cantidad . Más basura en solo le permite dar una estimación más precisa de lo incorrecto.

Datos de calidad: ¿son precisos los números? ¿Es una muestra aleatoria de una población bien definida? Los datos de alta calidad ciertamente pueden tener valores perdidos.