¿Cuáles son las ventajas de usar un árbol de decisión para la clasificación?

Agregaré que uno de los grandes beneficios es que no necesita preocuparse por normalizar los datos.

Para los predictores de cola larga derecha, a menudo necesita registrarlo antes de poder ingresarlo en una regresión logística. No necesita hacer lo mismo para los árboles de decisión, ya que generalmente solo le importa el orden de los datos del predictor.

Además, los árboles de decisión combinados en un conjunto crean algunos de los mejores clasificadores binarios. De un artículo que compara el poder predictivo de los algoritmos de clasificación binaria:

Con un excelente rendimiento en las ocho métricas, los árboles reforzados calibrados fueron el mejor algoritmo de aprendizaje en general. Los bosques aleatorios ocupan un segundo lugar, seguidos de árboles ensacados no calibrados, SVM calibrados y redes neuronales no calibradas.

Para el resto del documento, vea la página en cornell.edu

¿Cuál es el escenario actual / las perspectivas futuras de la ciencia de datos en la India en comparación con Silicon Valley?

¿Por qué la mayoría de los científicos computacionales (p. Ej. Biólogos, astrofísicos) son malos programadores según los estándares de CS?

¿Cuál es la importancia de las estadísticas y las matemáticas en el campo de la ciencia de datos? ¿Cuántas matemáticas y estadísticas se requieren para convertirse en un científico de datos?

Cómo explicar la normalización de la base de datos con ejemplos del mundo real

¿Cuál es el mejor instituto en India para aprender ingeniería inversa y desarrollo de exploits?

¿Cómo afectaría exactamente la falta de experiencia en programación Java a la competencia de uno en Hadoop y su pila de tecnología?

Estoy de acuerdo con Peter Flom en que una gran ventaja: son fáciles de entender. En particular, un árbol de decisión binario ingenuo es fácil de codificar, visualizar, manipular y explicar.

Los clasificadores más avanzados, el agrupamiento y el aprendizaje automático pueden ser más precisos para conjuntos de datos grandes, pero los algoritmos avanzados no pueden visualizarse ni manipularse fácilmente.

Ankit Sharma

Solo agregando a Peter Flom y Jeff Nelson respuestas

Imagen cortesía: Comparación de clasificadores de aprendizaje automático basados en sus hiperplanos o límites de decisión – Data Scientist en Ginza, Tokio

Peter Flom

Diría que el mayor beneficio es que la salida de un árbol de decisión puede ser fácilmente interpretada (por los humanos) como reglas. No estaría muy seguro acerca de las otras razones comúnmente citadas o mencionadas en las otras respuestas aquí (avíseme si estoy equivocado):

Facilidad de codificación: estoy de acuerdo en que esto es relativamente más fácil de codificar , pero las cosas se complican una vez que se cuenta la poda para evitar el sobreajuste. Y admitámoslo: ningún algoritmo DT es práctico sin algún medio para eliminar el sobreajuste. Incluso si observa el algoritmo CART original, el mecanismo de poda sugerido lleva un tiempo acostumbrarse.
Abordar la no linealidad, inferir términos de interacción, etc. – Tenemos un montón de clasificadores no lineales disponibles para nosotros hoy, y en este sentido, los DT ya no son especiales. Lo único que sigue siendo especial acerca de los DT es que pueden explicar la no linealidad de una manera intuitiva; se remonta a lo que dije antes sobre la conveniente interpretación de la salida de los DT (algunos puntos interesantes hechos por Peter Flom en los comentarios)
Predicción rápida: esto puede o no ser cierto o importante: depende de su conjunto de datos y alternativas. Si tiene un clasificador SVM para su problema y un núcleo que es barato de calcular, entonces todo lo que calcularía durante el tiempo de predicción son los valores del núcleo wrt cada uno de los vectores de soporte; Esto puede no ser una gran pérdida de recursos. Sin embargo, admito que en la mayoría de los casos la predicción de DT es muy rápida.
Construir un DT es rápido, esto es cierto. Pero la compensación aquí es que los algos DT son codiciosos : buscan solo algunas de las posibilidades en un espacio de hipótesis relativamente más grande. Es posible que tenga otro clasificador para su conjunto de datos que no sea tan rápido de entrenar, pero sea más preciso.

El único inconveniente que tienen los DT es que son clasificadores de alta varianza, es decir, el DT aprendido es sensible al diseño preciso de los puntos y, si tiene menos datos, puede adaptarse al ruido. Aquí hay un diagrama que muestra el rendimiento de C4.5 (un tipo específico de DT) frente a Naive Bayes, en datos con un límite de separación no lineal:

Tenga en cuenta cómo hasta 1000 ejemplos más o menos, Naive Bayes supera a los DT porque los DT sobrepasan el conjunto de entrenamiento. (Fuente: Página en washington.edu)

Por supuesto, se puede abordar la alta varianza de los DT, y generalmente se hace con el ensamblaje .

Travis Addair

Aquí hay algunas cosas buenas sobre los árboles. Otros clasificadores binarios pueden compartir algunos de los rasgos, pero no conozco ninguno que los comparta todos .

Fácil de entender y comunicarse con los demás: el dendograma tiene sentido muy rápidamente para cualquier persona inteligente.
Capaz de encontrar interacciones extrañas. Suponga que está prediciendo el comportamiento de votación (demócrata / republicano) y tiene datos sobre educación, ingresos, sexo y edad. Si el ingreso solo es importante para las personas que tienen un alto nivel de educación (por ejemplo), los árboles pueden encontrarlo. Puede ver todas las interacciones en una regresión, pero incluso con solo 4 variables y solo 2 interacciones, hay 6 interacciones; A medida que aumenta el número de variables y la complejidad de las interacciones, el número de posibles interacciones crece rápidamente. Además (ver 1) una interacción de 4 vías en una ecuación de regresión es mucho menos intuitiva que un árbol de 4 niveles
Hacer suposiciones mínimas.

Por supuesto, los árboles no son perfectos: pueden ser inestables, no siempre funcionan bien; algunos creen que requieren muestras muy grandes para ser útiles y, aunque el resultado es visualmente atractivo, puede ser difícil traducirlo a texto.

Peter Flom

Todas las respuestas anteriores son ciertamente ciertas. Para poner mis puntos de vista en perspectiva,

Si la implementación del árbol de decisión tiene como objetivo traducirse en un problema comercial como la detección de fraude o la predicción de incumplimiento de préstamo, etc., las principales ventajas que obtiene con los árboles de decisión son:

Desde una perspectiva empresarial,

Explicabilidad : la gente de negocios adora los algoritmos que les dan reglas fáciles de interpretar en forma de casos if-else que pueden usarse en sus sistemas de producción en tiempo real en lugar de ecuaciones complejas generadas por otras técnicas como la regresión logística, etc.
Atributos importantes: Llegue a una conclusión acerca de los atributos más importantes que evalúa la ganancia de información, que a veces no es realmente trivial al mirar los datos, incluso cuando tiene un buen conocimiento del dominio. Los datos pueden decirte algo más interesante.

Desde la perspectiva de un desarrollador,

Velocidad : son muy rápidos de construir y probar.
No linealidad: la creación de algoritmos que funcionan con datos altamente no lineales fácilmente es el sueño de cualquier desarrollador de aprendizaje automático. Vea la facilidad del código en la construcción de un árbol de decisión.
Visualizar: en algunos casos de uso, visualizar el árbol puede ser importante. Esto no se puede hacer en algoritmos complejos que aborden necesidades no lineales como los métodos de conjunto.

Voltear lados:

Débil en la parte inferior: los árboles tienden a desempeñarse increíblemente bien en la parte superior, pero al mismo tiempo tienden a ajustarse demasiado en la parte inferior. ¡Este es un gran revés y, por lo tanto, una gran ciencia sobre dónde podar el árbol ! (En la implementación de C5.0, la poda es automática, no tiene que preocuparse por esto)
Búsqueda codiciosa: el algoritmo realiza una búsqueda codiciosa en cada nodo. Esto muy bien limita el alcance de los árboles. Una selección más natural, como en el caso del bosque aleatorio, funciona muy bien en la mayoría de los casos (y, por lo tanto, el mejor rendimiento del bosque aleatorio en la mayoría de los casos).

William Chen

También agregaría los árboles de decisión:

Maneje fácilmente atributos irrelevantes a través de la ganancia de información, que es una métrica comúnmente utilizada para el aprendizaje del árbol de decisiones.
Son robustos contra distribuciones sesgadas. Imagine aprender un clasificador Naive Bayes con variable sesgada. El sesgo de la variable afectará la corrección de la distribución aprendida (gaussiana). Los árboles de decisión, por otro lado, manejan la variable sesgada con gracia, ya que no hacen suposiciones sobre la distribución de la variable al construir divisiones de eje.

Árbol de decisión
Pensando en los datos

Abhishek Ghose

Creo que el mayor beneficio del árbol de decisión binario es la velocidad:
* Siempre miras una variable a la vez, la construcción de árboles es rápida.
* La clasificación es súper rápida: ejecuta una comparación booleana, presto magnifico, ya está.

Un perceptrón de tres capas ofrece los mismos beneficios, excepto que quizás sea más compacto para múltiples clasificadores.

El mayor inconveniente de estos métodos es que, por supuesto, no desea subestimar / sobreajustar. No conozco una buena manera, aparte de los conjuntos de prueba y error y entrenamiento, para evitar el sobreajuste. Puede hacer una buena suposición, como no hacer grupos de menos de 4 puntos, pero todavía está adivinando.

Por lo tanto, es simple y rápido, pero como cualquier club, puede golpear los datos demasiado y hacer un desastre. SVM sería más como el bisturí en esta analogía.

Peter Flom

Aquí hay una imagen mental de alto nivel, rápida y sucia para ayudar a entender las diferencias:

Imagine los datos de entrenamiento etiquetados trazados en una cuadrícula bidimensional. Un árbol de decisión subdividirá efectivamente la cuadrícula en “cuadros” cada vez más precisos alrededor de sus datos. Algunas cajas tendrán etiqueta A, otras etiqueta B.

La mayoría de los otros clasificadores, como la alternativa más común: la máquina de vectores de soporte, dibujará efectivamente una línea para separar sus datos. Cuando digo “línea” realmente me refiero a alguna función potencialmente complicada (gracias al truco del núcleo) que podría ser una parábola, un polinomio arbitrario o incluso un círculo. Pero al final del día, cualquier dato en un lado de la línea está etiquetado como A, y el otro lado está etiquetado como B.

Por lo tanto, realmente depende de cómo estén organizados sus datos (que puede ser más difícil de visualizar en dimensiones más altas). Si están organizados en “bolsillos” o mini-grupos, entonces un árbol de decisión tiene sentido. Si son fácilmente separables por algún garabato loco, entonces un SVM tiene sentido.

Luis Argerich

Creo que las respuestas de William Chen, Abhishek Ghose y Peter Flom cubren la mayoría de los puntos.
Además de estos, recientemente encontré un uso interesante de los árboles de decisión que algunos podrían encontrar útil (esto está muy relacionado con la alta capacidad de interpretación humana del marco como se destaca en las respuestas aquí).

Proporcionan una herramienta de comprobación de integridad rápida para determinar si sus proveedores de datos han falsificado los datos que están vendiendo.

Dejame explicar.

En mi experiencia como científico de datos, a menudo trato con datos obtenidos de proveedores de datos en el dominio empresarial. En una de esas ocasiones, estaba intentando retroceder en un parámetro relacionado con los ingresos, dado un conjunto de métricas de gastos. Resultó que el error de regresión era demasiado maldito para acercarse a cero, lo que implicaba que nos habíamos topado con lo que resultó ser un motor de reglas simple e intuitivo que el proveedor de datos había utilizado para generar las variables de datos de ingresos falsos, basadas en corazonadas y reglas generales prevalentes en el dominio.

Reventado!

El punto es que muchos proveedores de datos fraudulentos que intentan vender datos falsos emplean motores de reglas (leen los árboles de decisión) para producir cosas falsas, y siempre es una buena idea realizar una verificación rápida para determinar la calidad de los datos. usted está pagando
Una verificación rápida de DT ahora es un primer paso firme en nuestra cartera de proyectos de adquisición de conjuntos de datos.

Ankit Sharma

Un árbol de decisión es una representación gráfica de un algoritmo, que ilustra todas las decisiones posibles, los costos, la utilidad y las consecuencias de un problema, y permite la comparación de tales alternativas en un panel. Siga leyendo para descubrir las ventajas del análisis del árbol de decisión.

Transparencia

Una gran ventaja del modelo de árbol de decisión es su naturaleza transparente. A diferencia de otros modelos de toma de decisiones, el árbol de decisiones hace explícitas todas las alternativas posibles y rastrea cada alternativa hasta su conclusión en una sola vista, lo que permite una fácil comparación entre las diversas alternativas. El uso de nodos separados para denotar decisiones definidas por el usuario, incertidumbres y el final del proceso brinda mayor claridad y transparencia al proceso de toma de decisiones.

Especificidad

Una de las principales ventajas del análisis de árbol de decisión es su capacidad para asignar valores específicos a problemas, decisiones y resultados de cada decisión. Esto reduce la ambigüedad en la toma de decisiones. Cada escenario posible a partir de una decisión encuentra representación mediante un tenedor y un nodo claros, lo que permite ver todas las soluciones posibles claramente en una sola vista.

La incorporación de valores monetarios a los árboles de decisión ayuda a hacer explícitos los costos y beneficios de diferentes cursos de acción alternativos.

Naturaleza comprensiva

El árbol de decisión es el mejor modelo predictivo, ya que permite un análisis exhaustivo de las consecuencias de cada decisión posible, como a qué conduce la decisión, si termina en incertidumbre o en una conclusión definitiva, o si conduce a nuevos problemas para los que El proceso necesita repetición.

Un árbol de decisión también permite particionar datos en un nivel mucho más profundo, no tan fácil de lograr con otros clasificadores de toma de decisiones como la regresión logística o el soporte de máquinas vectoriales.

Facilidad de uso

Los árboles de decisión también puntúan en facilidad de uso. El árbol de decisiones proporciona una ilustración gráfica del problema y varias alternativas en un formato simple y fácil de entender que no requiere explicación.

Los árboles de decisión desglosan los datos en ilustraciones fáciles de entender, basadas en reglas que los humanos y los programas SQL entienden fácilmente. Los árboles de decisión también permiten la clasificación de datos sin cálculo, pueden manejar variables continuas y categóricas, y proporcionan una indicación clara de los campos más importantes para la predicción o clasificación, todas las características sin comparación al comparar este modelo con otros modelos compatibles como el vector de soporte o Regresión logística.

Las matemáticas simples pueden replicar fácilmente la explicación de las decisiones contenidas en el árbol de decisiones.

Flexibilidad

A diferencia de otras herramientas de toma de decisiones que requieren datos cuantitativos completos, los árboles de decisión siguen siendo flexibles para manejar elementos con una combinación de características categóricas y de valor real, y elementos con algunas características faltantes. Una vez construidos, clasifican nuevos elementos rápidamente.

Resistencia

Otra de las ventajas del análisis del árbol de decisión es que se enfoca en la relación entre varios eventos y, por lo tanto, replica el curso natural de los eventos y, como tal, se mantiene robusto con poco margen para errores, siempre que los datos ingresados sean correctos.

Peter Flom

Aunque muchas personas ya respondieron a esta pregunta, y dieron una muy buena explicación, pero esto es lo que entiendo.

El árbol es más fácil de entender y explicar. Puede dibujar la estructura de árbol para ver cómo se divide.
Rápido, como muchas personas mencionaron, el árbol solo usa una característica para hacer la división.
No requiere ninguna suposición, como la regresión lineal.
No es necesario considerar la escala. La mayoría de las veces, uso Xgboost, que es un árbol impulsado por gradiente, recientemente me encontré con este problema. Los datos funcionaron bien para Xgboost, pero un resultado muy malo para la regresión de cresta del núcleo. Después de reescalar los datos, la regresión de cresta funcionó bien. Porque una característica tiene un número muy grande en comparación con otras características.

Travis Addair

Simple de entender e interpretar.
Tener valor incluso con pocos datos duros.
Permitir la adición de nuevos escenarios posibles.
Ayuda a determinar los peores, mejores y esperados valores para diferentes escenarios.
Se puede combinar con otras técnicas de decisión.

¿Por qué no intentar crear un árbol de decisión para su clasificación con Edraw Max? Realmente es un buen programa para dibujar el árbol de decisión. ¡Fácil de usar y que ahorra tiempo! ¡Y está disponible para Mac, Windows y Linux!

William Chen

A todas las buenas respuestas, agregaría las características de manejo de árboles de decisión (DT) que son multimodales (grumosas). Es decir, supongamos que existe una alta correlación con una clasificación si;