¿Cuándo y por qué un clasificador Bayes ingenuo es una opción mejor / peor que un clasificador forestal aleatorio?

Bosques al azar,

Es robusto contra el sobreajuste al menos con mis experiencias y las afirmaciones del creador Leo Breiman y Adele Cutler.
Está influenciado por el Adaboost.
Da mejores resultados con el creciente número de ejemplos.
También podría usarse para la agrupación, la inferencia estadística y la selección de características
Funciona bien con datos numéricos y categóricos (necesita estimar una distribución sobre valores continuos para bayes ingenuos, sin embargo, es controvertido tener algunas suposiciones)

Sin embargo;

más lento para entrenar
Es necesario establecer bien sus parámetros de aleatorización. (Selección de nodos, número de árboles, aleatorización de variables de instancia).
Algunas objeciones por su sobreajuste.

Ingenuo Bayes,

Fácil de entrenar y entender los resultados,
Tiene diferentes extensiones para diferentes necesidades.
Su modelo es más pequeño que los bosques aleatorios, ya que debe mantener todos los árboles en la memoria.
Resultados prometedores para tareas textuales.
Hace que cualquiera pueda hacer ML si sabe contar.

sin embargo

Como su nombre se basa en suposiciones ingenuas que generalmente no son concordantes con los datos (exp: Todas las variables no están correlacionadas entre sí, pero en general no es cierto)
Es realmente frágil el sobreajuste sin ningún supuesto de regularización.

¿El parámetro C afecta a una clase SVM?

¿Qué sucede cuando las computadoras aprenden a componer música mejor que los humanos?

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?

¿Qué conocimiento se requiere para la pasantía de ML como estudiante universitario de CS?

¿Cómo fue experimentar Napster cuando salió por primera vez?

¿Cuál es la diferencia entre ‘Inferencia’ y ‘Estimación del modelo’ en los documentos de LA?

Otro problema relacionado con la respuesta de Adam Gibson:
Cuando necesite escalar su clasificador para aprender de decenas / cientos de millones de instancias, generalmente desea paralelizar la ejecución del algoritmo.
Apache Mahout sugiere que utilice Naive Bayes, en lugar de otros algoritmos, para este tamaño de problema, ya que tienen una implementación paralela de reducción de mapas.

Adam Gibson

Otra consideración aquí es la velocidad y la escala. Debido al tamaño de los modelos, obtendrá tiempos de cálculo más rápidos con ingenuos bayes. El rendimiento y la escala son importantes en muchos problemas del mundo real. Los ingenuos bayes a menudo son “suficientemente buenos” en muchas aplicaciones del mundo real.

Adam Gibson

Cuando sus datos son dinámicos y siguen cambiando. NB puede adaptarse rápidamente a los cambios y a los nuevos datos mientras usa un RF, tendría que reconstruir el bosque cada vez que algo cambia.

Charles H Martin

Siempre peor

Adam Gibson

More Interesting

Cómo implementar el descenso de gradiente de mini lotes en una red neuronal

¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Cuál es la ventaja del modelo espacial autorregresivo?

¿Qué son las máquinas complejas?

¿Cómo utilizaría el aprendizaje automático para resolver este tipo de preguntas: 1 + 4 = 5, 2 + 5 = 12, 3 + 6 = 21, 8 + 11 =?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Cuáles son los principales enfoques de la inteligencia artificial?