¿Cuáles son los buenos algoritmos para la extracción de características para grandes conjuntos de datos?

Supongo que el problema que describe es el de la siguiente configuración predictiva:
Las características dadas [matemáticas] (x_1, x_2,…, x_n) [/ matemáticas] que corresponden a una respuesta [matemáticas] y [/ matemáticas], y un tamaño de muestra de n. La configuración es ‘n >> p’ (es decir, muchos más ejemplos que características).

Por lo general, en tal caso, no querrá reducir el número de predictores e ir con un enfoque de descenso de gradiente estocástico utilizando algoritmos como Pegasos o GURLS. Dichos algoritmos pueden converger sin tener que evaluar cada muestra, reduciendo así el desafío que plantea un tamaño de muestra masivo.

También los enfoques duales tienden a realizar una especie de selección de muestra. De este modo, abordar el problema no como una cuestión de reducción de características, sino de reducir el número de muestras a las que se consideran más importantes.

Reducir el número de muestras sería mi primer y más importante consejo.

Dicho esto, si aún desea reducir el número de predictores, hay algunas maneras de hacerlo. Guyon et. Alabama. escribió un gran artículo en 2003 (ver aquí) sobre la cantidad de formas de abordar esto, generalmente hay tres sabores:

  • Las envolturas utilizan un método de aprendizaje automático de elección para calificar subconjuntos de características de acuerdo con su poder predictivo.
  • Filtra , filtrando subconjuntos de características como una forma de preprocesamiento.
  • Métodos integrados , realizar selección de funciones en el proceso de capacitación

La regresión logística, el lazo y la red elástica son métodos integrados típicos.

Mi consejo en el caso de un enfoque de selección de características sería elegir un método integrado y analizar los resultados de estos métodos en segmentos más pequeños aleatorizados utilizando la Selección de estabilidad. El principal beneficio con este método sería que está seleccionando las características más predictivas en función de la pregunta que está tratando de responder con estos datos.

La autocodificación profunda a través de RBM apiladas es una forma elegante de extraer funciones. Se ha utilizado para la visión por computadora y el reconocimiento de escritura a mano, pero no hay razón para que no se puedan aplicar para fines más estadísticos. Las RBM apiladas permiten una extracción robusta de características, incluidos los patrones espacio-temporales. No creo que PCA solo sea el mejor enfoque para detectar actividad fraudulenta porque el algoritmo simplemente gira en torno a la proyección de puntos de datos en un múltiple lineal, lo que es bueno para el procesamiento de señales, pero se pierde patrones de alto nivel que las redes neuronales y las RBM fácilmente capturar. Creo que los RBM están muy infrautilizados, en parte debido a la falta de bibliotecas fáciles de usar.

Geoffrey Hinton y sus alumnos han generado mucho trabajo excelente en autocodificación. Aquí hay dos buenos lugares para comenzar:

Reducción de la dimensionalidad de los datos mediante redes neuronales.

Publicaciones de Geoffrey Hinton

More Interesting

¿Cómo funcionan las redes de propuestas regionales (RPN)?

Quiero comprar una PC de segunda mano decente para comenzar con el aprendizaje profundo comprando una GeForce GTX 1070, ¿qué características me deberían interesar?

¿Necesitamos aplicar una prueba de significación estadística en el aprendizaje automático?

Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?

¿Cuál es el método del núcleo? ¿Cómo se usa en los sistemas de recomendación?

Cómo optimizar las consultas SPARQL

¿La red neuronal convolucional (CNN) tiene que ver con la arquitectura de red y factores como la tasa de aprendizaje, la función de pérdida utilizada, etc.

¿Qué es más poderoso, la red neuronal convolucional o la red artificial? ¿Cuál es más conveniente de usar?

¿Por qué las variedades son importantes para el aprendizaje profundo o el aprendizaje de refuerzo profundo?

¿Cuál es el beneficio de utilizar la agrupación promedio en lugar de la agrupación máxima?

¿Cuáles son las consecuencias de usar la función de error del tren [matemáticas] \ min_ {f \ in \ mathcal {H}} \ max_ {i \ in \ {1… N \}} \ | f (x ^ {(i)}) - y ^ {(i)} \ | ^ 2 [/ math] en lugar del error de tren medio empírico estándar para Machine Learning?

¿Qué se enseña en los cursos de posgrado de aprendizaje automático?

¿Qué es el algoritmo de descenso de gradiente?

Como dicen, cada función posible se puede modelar con una percepción de 2 capas, en teoría, ¿se puede modelar una función del universo en una red neuronal con 2 o 3 capas de profundidad?

¿Cuáles son las relaciones entre diversidad y precisión en los enfoques de conjunto?