Big Data: ¿Cuántos datos son suficientes para realizar análisis de datos y obtener resultados válidos?

Estuve tentado de responder 30, pero eso sería una broma estadística y realmente no respondería los puntos en su pregunta ampliada.

Asi que:
1: ¿Cuántos datos son suficientes?
Nunca tienes suficientes datos. Más información casi siempre conduce a mejores resultados. Suaviza el ruido y le permite obtener una mayor confianza en sus resultados. Esto es impulsado por la ley más poderosa del mundo: la Ley de los grandes números.
Como se ha mostrado, más datos le permiten utilizar algoritmos simples con los resultados que lograría utilizando menos datos y métodos más complejos. Entonces, un buen lema que se usa a menudo es “obtener más datos es más importante que obtener mejores algoritmos”. El famoso artículo de Banko & Brill es un buen recurso para esto (página en lancs.ac.uk).

2: ¿Hay alguna forma de calcular la cantidad de datos que necesitamos?
Sí, pero depende de lo que esté haciendo, por lo que no hay una respuesta general y es por eso que recibe muchas respuestas “depende” de su publicación.

3: Calidad de datos
Hay al menos dos categorías para “calidad”. Uno es la calidad del formato de datos y el otro es la calidad de los datos en sí.
La calidad del formato de datos depende de cómo se formatean los datos, ¿hay demasiados valores faltantes? ¿tienes varias variables mezcladas en una? ¿tiene diferentes observaciones mezcladas en la misma “fila”? Hay un buen artículo sobre eso llamado “Tidy Data” por Hadley Wickham. (Página en jstatsoft.org).
Entonces tienes la calidad de los datos en sí. ¿Tienes mucho ruido? ¿Muchos valores atípicos? ¿Son sus variables independientes o correlacionadas? ¿Tienen poder predictivo? ¿Necesitas más funciones? ¿Necesitas menos funciones? ¿Alguna característica es muy ruidosa respecto a las demás? Etc. Aquí es donde debe lidiar con la ingeniería de características y la selección de características, ya sea manual o automáticamente. Es un campo completo por sí solo.

tl; dr: 30

Luis.

¿Cuáles son algunos de los mejores recursos / estudios de caso sobre análisis de datos / prácticas de segmentación de clientes / métricas en las startups?

¿Cómo se usan los datos?

¿Qué hace la combinación de datos y el software de análisis avanzado?

¿Los grandes datos solo están desestructurados o pueden estructurarse también?

Si DNS usa UDP, ¿cómo se garantiza que la dirección del host será correcta?

¿Por qué hay una diferencia tan grande en cuanto a costos …?

Big Data es un término colectivo y común utilizado para describir posibles fuentes de datos que pueden o no ser relevantes para su uso en análisis de datos para un caso de uso particular. Y creo que no habrá una respuesta correcta sobre cuántos datos son suficientes. Debido a que todas las empresas son diferentes y todos los datos, se pueden medir de diferentes maneras. Sin embargo, los datos son tan grandes como para las soluciones, que están en un acuerdo con ellos.

Entonces, si elige una buena, no habrá preguntas como esas. En este caso, puede consultar ShopingCartElite. Eso va sin decir que la mayor cantidad de datos conduce a mejores resultados. Así que creo que puede resolver todos sus problemas relacionados con la desaceleración de los servicios web y el análisis de datos web. Esta empresa es una solución única para resolver todos los problemas de comercio electrónico. Su tecnología Hypersonic CDN crea uno de los sitios web más rápidos allí. Además, su software TEA (Threat and Engagement Analytics) es una herramienta de análisis web que elimina a los visitantes falsos que llegan al sitio web y garantiza que el tráfico genuino llegue al sitio web. Además, cuenta con una buena herramienta de SEO, Omni-Channel Hub, Easy Data Feed y otros para administrar su tienda sin problemas. Definitivamente te recomiendo que lo revises.

Divulgación: escribí esta publicación y revisé esta compañía en mi respuesta.

Tanya Zyabkina

Para el aprendizaje automático, normalmente los datos de un mes no son suficientes para obtener resultados sólidos, a menos que tenga grandes volúmenes de datos registrados y disponibles.

1. Para algunos comportamientos entonces sí. Análisis de puntos críticos. Experiencia de usuario. Viajes web. Básicamente cualquier cosa descriptiva.

2. Hay muchos cálculos listos para el cálculo del tamaño de la muestra, el entrenamiento y los conjuntos de validación. Cada método desplegado tendrá sus propias reglas y preferencias para cada tipo de análisis. Cuando no tiene suficientes datos, el arranque puede ayudar, pero no es una ciencia perfecta o totalmente confiable y se basa en la existencia / comprensión de la distribución de resultados que es probable que obtenga. Cuando compare el resultado de esto con la realidad más adelante, verá lo que quiero decir.

3. No faltan valores de datos.
Todo en conformación a estructuras y valores permitidos / esperados.
Sin faltas de ortografía.
Todos los datos, es decir, no faltan filas.
Comprensión de todos los datos recopilados, presentados y conformados

Tanya Zyabkina

Voy a morder la bala y darle una respuesta definitiva: necesita un mínimo de 18 meses de datos, preferiblemente 24, para construir un modelo decente.

¿Por qué? Simple: estacionalidad.

¿Pero tu negocio no es estacional? Sí, he escuchado eso antes. Eres incorrecto Todo negocio es estacional. Incluso los ataques al corazón son estacionales (1).

Ahora que hemos eliminado esto, veamos qué puedes hacer ahora. Mi sugerencia es que comiences a entender el paisaje. Familiarizarse con los datos. Mire los patrones de navegación y ventas, obtenga una idea de la frecuencia con la que los clientes navegan y compran. ¿Cuáles son las categorías más populares? ¿Se compran algunos artículos o categorías juntos? Esto debería ser suficiente para comenzar, y para cuando haya terminado, habrá más datos listos.

(1) La estacionalidad en las muertes por insuficiencia cardíaca y las muertes cardiovasculares totales.

Tanya Zyabkina

Francamente, no hay MB o GB de datos que cubran todo lo que necesita para crear un buen modelo de aprendizaje automático. Se trata de la inclusión y exhaustividad del modelo en términos de la diversidad de los puntos de datos entre sí y, por lo tanto, solo una vez que haya creado el modelo en sus datos de prueba basados en la división 80:20: 80% para el tren y 20% para prueba, solo entonces puede saber con base en el MAPE (Error porcentual absoluto medio: se usa ampliamente para predecir qué tan bien funciona un modelo al predecir el comportamiento / propensión del usuario a comprar).

En general, el objetivo es minimizar MAPE y obtener el mejor R cuadrado (Indica qué tan bien le está yendo a su modelo a partir de la predicción del caso base)
y al final del día se convierte más en un ARTE que en una ciencia.
Entonces, si puede obtener los mejores valores de MAPE en la primera iteración, es un superhéroe o, de lo contrario, debe cambiar los tamaños de prueba a un volumen cada vez mayor (85%, 90%, etc.) y avanzar hasta eventualmente conviértete en el superhéroe que quieres ser.

Peter Flom

Si está trabajando en una empresa que se ocupa de fabricantes y revendedores y necesita datos para probar un cierto patrón, generalmente una copia de seguridad de 5 años de datos históricos es suficiente para verificar los patrones y la efectividad del modelo.

Pero en su caso, sería mejor ver productos similares de otras compañías y hacer una investigación basada en la experiencia del usuario y ver qué tan bien se vende el producto en el mercado global. En consecuencia, podría hacer un plan tentativo e indicar las fuentes de su investigación y mencionar que tenía que mirar la imagen completa para ver qué progreso haría su producto en el mercado.

Tanya Zyabkina

Hay formas de hacer un buen análisis con N = 1.
Hay formas de hacer un mal análisis con N = 10000000000.

Hay más de lo último que lo primero.

La cantidad de datos necesarios para hacer un “buen” análisis depende de sus preguntas, los métodos que desea utilizar, etc. La cantidad que necesita para tener una buena posibilidad de obtener resultados significativos requiere un análisis de potencia, que requiere toda la información anterior más una medida del tamaño del efecto, pero la validez del análisis depende mucho más de la calidad de los datos que de la cantidad . Más basura en solo le permite dar una estimación más precisa de lo incorrecto.

Datos de calidad: ¿son precisos los números? ¿Es una muestra aleatoria de una población bien definida? Los datos de alta calidad ciertamente pueden tener valores perdidos.

Tanya Zyabkina

More Interesting

¿Es muy difícil sobresalir en ciencia de datos? ¿Qué instituto debería considerar para los cursos de ciencia de datos en Pune?

¿Qué buscas en los científicos de datos?

¿Qué debería preferir para un programa de ciencia de datos a tiempo parcial, Aegis o Great Lakes?

Big data o Hadoop, ¿cuáles son esos y con qué debo ir?

¿Qué tipo de análisis de datos puedo hacer en las redes sociales usando R?

¿Qué tan difícil es para un chico experimentado de 5 años cambiar a la carrera de ciencia de datos en India?

Cómo aprender análisis de big data fácilmente desde un entorno que no sea de TI

¿Cómo es el mercado laboral en Canadá para los estudiantes de MS en CS y Data Science?

¿Cómo ayuda la normalización de datos en Machine Learning?

¿Cuáles son los preparativos iniciales para unirse a un programa de ciencia de datos para una nueva?