¿Cuándo y por qué un clasificador Bayes ingenuo es una opción mejor / peor que un clasificador forestal aleatorio?

Bosques al azar,

  • Es robusto contra el sobreajuste al menos con mis experiencias y las afirmaciones del creador Leo Breiman y Adele Cutler.
  • Está influenciado por el Adaboost.
  • Da mejores resultados con el creciente número de ejemplos.
  • También podría usarse para la agrupación, la inferencia estadística y la selección de características
  • Funciona bien con datos numéricos y categóricos (necesita estimar una distribución sobre valores continuos para bayes ingenuos, sin embargo, es controvertido tener algunas suposiciones)

Sin embargo;

  • más lento para entrenar
  • Es necesario establecer bien sus parámetros de aleatorización. (Selección de nodos, número de árboles, aleatorización de variables de instancia).
  • Algunas objeciones por su sobreajuste.

Ingenuo Bayes,

  • Fácil de entrenar y entender los resultados,
  • Tiene diferentes extensiones para diferentes necesidades.
  • Su modelo es más pequeño que los bosques aleatorios, ya que debe mantener todos los árboles en la memoria.
  • Resultados prometedores para tareas textuales.
  • Hace que cualquiera pueda hacer ML si sabe contar.

sin embargo

  • Como su nombre se basa en suposiciones ingenuas que generalmente no son concordantes con los datos (exp: Todas las variables no están correlacionadas entre sí, pero en general no es cierto)
  • Es realmente frágil el sobreajuste sin ningún supuesto de regularización.

Otro problema relacionado con la respuesta de Adam Gibson:
Cuando necesite escalar su clasificador para aprender de decenas / cientos de millones de instancias, generalmente desea paralelizar la ejecución del algoritmo.
Apache Mahout sugiere que utilice Naive Bayes, en lugar de otros algoritmos, para este tamaño de problema, ya que tienen una implementación paralela de reducción de mapas.

Otra consideración aquí es la velocidad y la escala. Debido al tamaño de los modelos, obtendrá tiempos de cálculo más rápidos con ingenuos bayes. El rendimiento y la escala son importantes en muchos problemas del mundo real. Los ingenuos bayes a menudo son “suficientemente buenos” en muchas aplicaciones del mundo real.

Cuando sus datos son dinámicos y siguen cambiando. NB puede adaptarse rápidamente a los cambios y a los nuevos datos mientras usa un RF, tendría que reconstruir el bosque cada vez que algo cambia.

Siempre peor

More Interesting

Cómo implementar el descenso de gradiente de mini lotes en una red neuronal

¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Cuál es la ventaja del modelo espacial autorregresivo?

¿Qué son las máquinas complejas?

¿Cómo utilizaría el aprendizaje automático para resolver este tipo de preguntas: 1 + 4 = 5, 2 + 5 = 12, 3 + 6 = 21, 8 + 11 =?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Cuáles son los principales enfoques de la inteligencia artificial?

¿Cómo analizan los algoritmos de aprendizaje automático y los algoritmos basados ​​en léxico las palabras coloquiales en un análisis de sentimientos de Twitter?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

¿Cuáles son algunos ejemplos de empresas no tecnológicas que crean valor a través del uso de Big Data y qué tecnologías específicas están utilizando, por ejemplo, Hadoop, sistemas dedicados, SAP en formas novedosas, piratas informáticos, etc.

¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

¿Cuál es la diferencia entre factorización y parametrización?

¿Cuáles son las consecuencias de usar la función de error del tren [matemáticas] \ min_ {f \ in \ mathcal {H}} \ max_ {i \ in \ {1… N \}} \ | f (x ^ {(i)}) - y ^ {(i)} \ | ^ 2 [/ math] en lugar del error de tren medio empírico estándar para Machine Learning?

¿Es útil R para aprender a investigar en planificación urbana, economía y diseño?