¿Cuál es la diferencia entre la regresión logística y Naive Bayes?

A continuación se muestra la lista de las 5 principales diferencias entre Naïve Bayes y Regresión logística.

1. Propósito o qué clase de inclinación de la máquina resuelve?
Ambos algoritmos se pueden usar para clasificar los datos. Usando estos algoritmos, puede predecir si un banquero puede ofrecer un préstamo a un cliente o no, o identificar que el correo dado es Spam o jamón.

2. Mecanismo de aprendizaje de algoritmos
Naïve Bayes : para las características dadas (x) y la etiqueta y, estima una probabilidad conjunta de los datos de entrenamiento. Por lo tanto, este es un modelo generativo
Regresión logística: estima la probabilidad (y / x) directamente de los datos de entrenamiento minimizando el error. Por lo tanto, este es un modelo discriminatorio

3. Supuestos del modelo
Naïve Bayes: el modelo supone que todas las características son condicionalmente independientes. Por lo tanto, si algunas de las características dependen entre sí (en el caso de un gran espacio de características), la predicción podría ser deficiente.
Regresión logística: si las divisiones presentan espacio linealmente, funciona bien incluso si algunas de las variables están correlacionadas

4. Limitaciones del modelo
Naïve Bayes: Funciona bien incluso con menos datos de entrenamiento, ya que las estimaciones se basan en la función de densidad conjunta
Regresión logística: Con los pequeños datos de entrenamiento, las estimaciones del modelo pueden sobrepasar los datos

5. Enfoque a seguir para mejorar los resultados
Naïve Bayes: Cuando el tamaño de los datos de entrenamiento es menos relativo a las características, la información / datos sobre probabilidades previas ayudan a mejorar los resultados
Regresión logística: cuando el tamaño de los datos de entrenamiento es menos relativo a las características, la regresión de Lasso y Ridge ayudará a mejorar los resultados.

Un comentario rápido para complementar las otras respuestas muy informativas.

Como otros han mencionado, Naive Bayes ajusta los pesos de las características de forma independiente, mientras que la regresión logística explica las correlaciones entre las características. Como resultado, los clasificadores Naive Bayes a menudo están mal calibrados, lo que significa que las probabilidades pronosticadas de Naive Bayes pueden no ser adecuadas para las frecuencias empíricas de los resultados.

(En otras palabras, si toma todos los ejemplos para los cuales su clasificador genera una puntuación de 0.8, aproximadamente el 80% de esos ejemplos deberían tener etiquetas positivas y el 20% debería tener etiquetas negativas. Un clasificador mal calibrado no tendrá esta propiedad a través del rango de probabilidades predichas).

Por ejemplo, supongamos que es un motor de búsqueda y que predice la probabilidad de que un usuario haga clic en un anuncio para poder calcular cuánto dinero espera ganar al mostrarlo. Esto viene dado por la probabilidad de un clic multiplicado por la cantidad que pagaría el anunciante por mostrar el anuncio.

Un clasificador entrenado con Naive Bayes podría saber que existe una alta probabilidad de que alguien que sea viejo haga clic en el anuncio. Es posible que sepa por separado que existe una alta probabilidad de que alguien que ha hecho mucho clic en el pasado lo haga. Ahora ve a un usuario que es viejo y ha hecho clic en muchos anuncios en el pasado, y le pide a su clasificador Naive Bayes una predicción. Cuando se combinan estas probabilidades, al clasificador le agradará sobrestimar las probabilidades de que el usuario haga clic, lo que le dará una estimación demasiado optimista de sus ingresos.

La regresión logística no sufrirá tanto este problema, ya que explica las correlaciones y apunta implícitamente a hacer predicciones calibradas.

Entonces, si le preocupan las probabilidades reales (en lugar de solo las clasificaciones relativas), es una buena idea calibrar explícitamente Naive Bayes o usar regresión logística, si es posible. Rich Caruna tiene un buen artículo (pdf) sobre el tema.

Tengo algunas notas adicionales sobre Naive Bayes y Regresión logística aquí:

Modelado basado en datos: clase 2
Modelado basado en datos: clase 5

More Interesting

¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

¿Cuáles son las diferentes técnicas para el procesamiento del lenguaje natural para resolver un ensayo de clasificación automática?

¿Qué métodos (sin supervisión) deberían usarse para la categorización jerárquica automática de documentos?

¿Qué tan difícil es entrenar idiomas indios con CMUSphinx?

Si pudieras elegir cinco miembros perfectos para un equipo de desarrollo de aprendizaje automático y en la nube, ¿qué habilidades requerirías que tuvieran?

¿Cuáles son algunos buenos recursos para conceptos sobre la identificación de similitudes entre documentos?

¿Qué debe saber todo programador competitivo (Topcoder) sobre los concursos de Kaggle y ML?

¿Cree en los resultados producidos por el análisis de control metabólico (modelado matemático utilizando parámetros cinéticos)?

¿Se pueden usar los modelos ocultos de Markov como clasificadores binarios? Si es así, ¿cómo?

¿Qué harás cuando entrenes a tu modelo?

¿Debería considerarse un experto en aprendizaje automático después de completar la clase de ML del profesor Andrew en Coursera?

¿Cómo podemos suprimir el ruido de fondo en un teléfono durante una llamada telefónica?

¿Cuántas redes neuronales cubre el curso Coursera de Andrew Ng?

Siendo un principiante, ¿dónde debería comenzar a aprender Machine Learning?

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?