¿Se pueden usar los árboles de decisión para encontrar atributos de variables latentes de una muestra?

Realmente no. Sin embargo, hay un enfoque que funciona bien si tiene grandes cantidades de datos que ocasionalmente he visto usar, que es:

  1. Genere muchas combinaciones de atributos (por ejemplo, diferencias entre atributos, productos de atributos, relaciones de atributos, etc.). Básicamente, estos son atributos latentes.
  2. Construye árboles de decisión usándolos.
  3. Si una variable latente se usa mucho en los árboles de decisión (especialmente cerca de la raíz), sabrá que es útil como discriminante.

Sin embargo, realmente necesita muchos datos para hacer esto ; de lo contrario, los árboles de decisión se adaptarán en exceso. Cuando trabajé con Ross Quinlan (autor de C4.5), tenía una regla general que era mínima para construir un árbol razonable: 5 * número de atributos * número de valores que cada atributo podría tomar (para valores continuos , se ajusta a la precisión que le interesa).

Entonces, por ejemplo, si tiene 32 atributos y cada atributo toma 16 valores, necesita al menos 5 * 32 * 16 = 2560 ejemplos. Si, por ejemplo, observa productos de dos atributos, hay 32 * 31/2 = 496 atributos de producto. Entonces, de repente, necesitas 39680 ejemplos. Haz productos, proporciones, sumas y diferencias, y necesitas ~ 160,000 ejemplos.

Los árboles de decisión son supervisados, por lo que necesitaría un conjunto de entrenamiento con esa variable latente observada. Sin embargo, si tiene eso, solo está utilizando un clasificador / regresor de árbol de decisión estándar.

No están diseñados para eso. Tengo un artículo inédito que busca un hogar que se ocupe del modelado de vías a través de los árboles de decisión y su incapacidad para capturar toda la vía.

Existe un método de aprendizaje automático (basado en la ciencia de datos topológicos) que tiene la capacidad de encontrar variables latentes dentro de una muestra (independientemente de la estructura latente o el tamaño de la muestra). Es una generalización del análisis factorial: https://www.slideshare.net/Collehttps://www.slideshare.net/Colle

More Interesting

¿Hay bases de datos de palabras clave abiertas?

¿R necesita una herramienta de flujo de trabajo visual como RapidMiner y Knime?

Como dicen, cada función posible se puede modelar con una percepción de 2 capas, en teoría, ¿se puede modelar una función del universo en una red neuronal con 2 o 3 capas de profundidad?

¿Cómo seleccionaría los datos para capacitar y probar los modelos?

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?

¿Cuál es la mejor herramienta de aprendizaje automático para Mac OS?

Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés

¿Dónde puedo encontrar el algoritmo para encontrar los otros nombres de la entidad popular?

¿Cuáles son algunos de los documentos fundamentales en el aprendizaje automático / algoritmos analíticos?

¿Cuáles son los temas candentes del aprendizaje profundo para el análisis de imágenes médicas en 2017?

¿Hay alguna diferencia entre el algoritmo de retropropagación utilizado en la etapa de ajuste fino del autoencoder y el algoritmo típico de retropropagación?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

Cómo interpretar los resultados de un análisis de PCA

¿Qué hacen los ingenieros de aprendizaje automático diariamente?