En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?

Supongo que está hablando de un modelo que realiza algún tipo de inferencia bayesiana. Como dice Jeremy Arnold, dada la información suficiente, una actualización anterior eventualmente anula en la posterior. Sin embargo, puede llevar tiempo, si su prior es terriblemente malo.

Si tiene muchos datos, y son buenos datos, es decir, no sesgados (abarca el espacio del problema), entonces no debería preocuparse demasiado. En ese caso, si no está seguro de la validez del prior, puede tener más sentido elegir un prior no informativo y dejar que los datos hablen por sí mismos. En ese caso, no proporcionará una ventaja inicial a su algoritmo, pero tampoco lo iniciará lejos del camino verdadero y dificultará la convergencia (lo que sucedería si su anterior estuviera totalmente equivocado).

Entonces sí, dado el tiempo y los datos suficientes, el éxito es casi inevitable :-). El punto es cuánto estás dispuesto a esperar.

More Interesting

¿Qué temas aprendiste como parte de un curso de ciencias de datos durante tu maestría en los Estados Unidos? ¿Cuáles son algunas sugerencias que me ayudarían a convertirme en un científico de datos exitoso?

¿Qué piensan los científicos de datos del libro "Programming Collective Intelligence"?

Tengo un dato de 50 filas de Lakh. ¿Cómo lo abro en R o Python? ¿O hay alguna otra alternativa que no sea usar Hadoop?

¿Cómo es IIT Ropar para el aprendizaje automático o la ciencia de datos?

¿Cuál es su opinión de Stanford MS en Estadística: Ciencia de datos?

¿Qué compañías en la India ofrecen trabajos de nivel básico para científicos de datos?

¿Qué clases debo tomar en Udacity si quiero ser un científico de datos?

Si necesito aprender ciencia de datos, ¿qué puedo aprender en el primer paso o de la A a la Z?

¿Puedo hacer cosas de aprendizaje automático / minería de datos sin ser un "tomador de decisiones"?

¿Qué es la secuencia de clics?

¿Por qué el bosque aleatorio (scikit-learn) usa tanta memoria? ¿Existen otras implementaciones además de scikit-learn que son más eficientes en memoria?

Cómo obtener un gran conjunto de datos para simular big data

¿Tienes alguna recomendación de biblioteca para construir un robot de póker?

¿Hasta qué punto son aplicables las leyes de privacidad de la UE, por ejemplo, el derecho al olvido, a las empresas que dependen de modelos personalizados de aprendizaje automático?

¿Qué servidor utiliza Google para guardar grandes datos?