¿Qué tiene que ver el ‘big data’ con las predicciones?

Por “predicciones”, supongo que te refieres a “aprendizaje automático” (existen otras técnicas para predecir cosas, y el aprendizaje automático no está dedicado a la predicción).

Al entrenar un modelo de aprendizaje automático, un concepto importante es la compensación de sesgo-varianza: Wikipedia. Simplemente dicho, el sesgo es el error que cometió porque su modelo pierde algunas especificidades de sus datos. Por lo general, su modelo es demasiado simple para tener en cuenta la complejidad de sus datos. La variación es el error que cometió porque tiene en cuenta las especificidades que no son relevantes, es decir, su modelo se basa parcialmente en el ruido.

Esto es una compensación porque generalmente reduce el sesgo al entrenar modelos más complejos. Pero al hacerlo, tiendes a incluir más detalles en tu entrenamiento, y una parte de estos detalles son ruidos. Por el contrario, si intenta reducir la variación entrenando modelos más simples, estos modelos corren el riesgo de volverse demasiado simples para capturar la esencia de sus datos.

Esta compensación a veces se asocia con la adaptación de un modelo: los modelos con poca varianza y alto sesgo se ajustan a la realidad, mientras que los modelos con alta varianza y bajo sesgo se sobreponen al objetivo de verdad.

La promesa de los grandes datos es reducir la variación : al considerar una muestra de datos más grande, es probable que descubra qué es el ruido y qué es la señal de sus datos. El aumento de la muestra de datos no tiene un impacto directo en el sesgo, pero dado que existe una compensación entre el sesgo y la varianza, y dado que puede controlar “mágicamente” la varianza, puede poner su esfuerzo en el sesgo. En otras palabras: con big data, puede entrenar modelos complejos para disminuir el sesgo y aún controlar la varianza mediante el uso de una muestra de datos tan grande como sea necesario. Por lo tanto, big data ayuda a entrenar modelos que no se ajustan demasiado (demasiado).

Se entrelaza donde necesita las variables ya conocidas para básicamente una “guía de referencia”

More Interesting

¿Cómo puede un principiante aprender big data, aprendizaje profundo y aprendizaje automático de forma rápida y sencilla?

No quiero ser programador, pero tengo interés en SQL y Big Data. ¿Cómo puedo conseguir esto?

¿Cómo reconocer a Rising Stars en el campo de los negocios? Que métodos

¿Qué son pasantías geniales orientadas a datos que no requieren un fondo intensivo de codificación?

¿Qué opinas sobre Big Data? ¿Es bueno o malo?

¿Cuál es el mejor libro para aprender Python para la ciencia de datos?

¿Cuál es la diferencia entre big data, análisis, ciencia de datos, análisis de datos, minería de datos, inteligencia empresarial, econometría, estadística, aprendizaje automático (inteligencia artificial) y modelado matemático?

Como especialista en estadística, ¿qué cursos de informática debo tomar para convertirme en científico de datos?

¿Cuáles son los cursos de matemáticas y estadísticas en línea recomendados para ciencia de datos y aprendizaje automático?

¿Qué conocimiento de bases de datos se considera suficiente para un científico de datos?

¿Cuál es la diferencia entre trabajar en análisis y ciencia de datos?

¿Debería haber siempre más datos de entrenamiento que datos de prueba? ¿Por qué?

¿Un científico de datos necesita conocer algoritmos y estructuras de datos, así como un ingeniero de software?

¿Cuáles son los inconvenientes de Mongo DB? ¿Es bueno comenzar una carrera con la ciencia de datos?

¿Tener experiencia en ciencia de datos es útil para los negocios?