¿Cuáles son algunos métodos de aprendizaje automático supervisados ​​y no supervisados ​​para trabajar con conjuntos de datos que tienen características muy grandes y un bajo número de muestras?

No soy un experto en este tema, pero por lo que he recopilado, existen métodos específicos para tratar estos conjuntos de datos en este momento, así como modificaciones de los métodos clásicos.

Los siguientes son métodos de clasificación clásicos aplicados a datos de genes de microarrays:

Bosques al azar

SVM

Vista general de la tarea.

También hay métodos basados ​​en LDA que se supone que son mejores en esto. Pero no he trabajado con datos de microarrays, así que no puedo confirmar. Algunos ejemplos:

Vista general

Comparación de métodos LDA

La siguiente presentación ofrece una descripción general de los métodos disponibles en R, así como fragmentos de código:

Una descripción general sobre el análisis de datos de microarrays utilizando R

Paquete de estadísticas para el análisis de microarrays para R. Este sitio web tiene algo de teoría y códigos completos para ejecutar el análisis.

Paquete SMA de Berkeley Uni

Bioconductor es un repositorio muy grande para hacer tales análisis. Usé algunos paquetes de ellos, aunque nunca para el análisis de microarrays. Bioconductor tiene buena documentación y creo que podría ser muy útil.

Manual de bioconductores

Creo que también puede haber equivalentes en Python, pero principalmente trabajo con R, así que no puedo ayudarte con eso.

Espero que esto sea útil.

Un algoritmo de máquina de vectores de soporte puede funcionar bien también con no tantos ejemplos de entrenamiento, si el espacio de características es suficientemente grande.

Para entrenar el algoritmo con un gran espacio de características y evitar perder tiempo de procesamiento, se debe usar la teoría de los multiplicadores de Lagrange y las funciones del núcleo.

Sugiero echar un vistazo al procedimiento de optimización secuencial, que podría generar resultados satisfactorios en términos de tiempo de entrenamiento de procesamiento, incluso con un gran espacio de funciones (actualmente lo estoy usando en mi tesis y estoy trabajando bien con 100 funciones). Eche un vistazo a https://www.google.it/url?sa=t&s … para obtener una explicación del método y el código.

Consulte este artículo en la página de Ciencia del New York Times sobre el aprendizaje del programa bayesiano de Salakhhutdinov, Lake y Tenenbaum: un avance de aprendizaje en inteligencia artificial que rivaliza con las habilidades humanas.

More Interesting

¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas?

¿Qué resultado arrojará una máquina de aprendizaje profundo bien entrenada de esta imagen?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?

¿Qué conocimiento matemático se necesita para comenzar a trabajar en el aprendizaje profundo?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

¿R es tan popular solo por las bibliotecas que pueden manejar varias funciones estadísticas?

¿Cuáles son los algoritmos disponibles para diseñar un detector de actividad de habla hablada cercana?

¿En qué se diferencia un autoencoder (apilado) de un MLP, aparte de que los autoencoders aprenden funciones de identidad aproximadas?

¿Por qué tenemos que convertir el valor categórico en factor (en R) o variables ficticias antes de aplicar algoritmos de aprendizaje automático (especialmente regresión lineal)? ¿Afecta nuestros resultados?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?

¿Cuáles son algunos de los mejores programas de posgrado de aprendizaje automático que no requieren un título universitario de CS?

¿Son las preguntas el verdadero punto de partida del análisis de Big Data?

¿Qué significa el espacio de hipótesis en Machine Learning?

¿Dónde puedo obtener más información sobre la persona en el MIT Media Lab que está trabajando para eliminar el sesgo en el aprendizaje automático?