¿Cuáles son algunos métodos de aprendizaje automático supervisados y no supervisados para trabajar con conjuntos de datos que tienen características muy grandes y un bajo número de muestras?

No soy un experto en este tema, pero por lo que he recopilado, existen métodos específicos para tratar estos conjuntos de datos en este momento, así como modificaciones de los métodos clásicos.

Los siguientes son métodos de clasificación clásicos aplicados a datos de genes de microarrays:

Bosques al azar

SVM

Vista general de la tarea.

También hay métodos basados en LDA que se supone que son mejores en esto. Pero no he trabajado con datos de microarrays, así que no puedo confirmar. Algunos ejemplos:

Vista general

Comparación de métodos LDA

La siguiente presentación ofrece una descripción general de los métodos disponibles en R, así como fragmentos de código:

Una descripción general sobre el análisis de datos de microarrays utilizando R

Paquete de estadísticas para el análisis de microarrays para R. Este sitio web tiene algo de teoría y códigos completos para ejecutar el análisis.

Paquete SMA de Berkeley Uni

Bioconductor es un repositorio muy grande para hacer tales análisis. Usé algunos paquetes de ellos, aunque nunca para el análisis de microarrays. Bioconductor tiene buena documentación y creo que podría ser muy útil.

Manual de bioconductores

Creo que también puede haber equivalentes en Python, pero principalmente trabajo con R, así que no puedo ayudarte con eso.

Espero que esto sea útil.

AprendizajeAprendizaje automáticoAprendizaje no supervisadoPregunta de la lista de

¿Alguien ha intentado utilizar motores de recomendación y alguna forma de filtrado colaborativo para destacar agujeros en el mercado y producir conceptos para un mayor desarrollo en los productos?

¿Son las computadoras mejores pensadores visuales?

¿Cómo podemos saber si una heurística es mejor que otra sin ejecutarla?

¿Vale la pena adquirir un conocimiento profundo tanto del aprendizaje automático como de la biología? ¿Debo concentrarme?

¿Qué tipo de enrutador debo comprar?

¿Se puede utilizar el análisis semántico latente para la clasificación de documentos?

Un algoritmo de máquina de vectores de soporte puede funcionar bien también con no tantos ejemplos de entrenamiento, si el espacio de características es suficientemente grande.

Para entrenar el algoritmo con un gran espacio de características y evitar perder tiempo de procesamiento, se debe usar la teoría de los multiplicadores de Lagrange y las funciones del núcleo.

Sugiero echar un vistazo al procedimiento de optimización secuencial, que podría generar resultados satisfactorios en términos de tiempo de entrenamiento de procesamiento, incluso con un gran espacio de funciones (actualmente lo estoy usando en mi tesis y estoy trabajando bien con 100 funciones). Eche un vistazo a https://www.google.it/url?sa=t&s … para obtener una explicación del método y el código.

Carlo Benussi

Consulte este artículo en la página de Ciencia del New York Times sobre el aprendizaje del programa bayesiano de Salakhhutdinov, Lake y Tenenbaum: un avance de aprendizaje en inteligencia artificial que rivaliza con las habilidades humanas.

Carlo Benussi

More Interesting

¿Cómo se puede utilizar el aprendizaje automático para la clasificación de exoplanetas?

¿Qué resultado arrojará una máquina de aprendizaje profundo bien entrenada de esta imagen?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?

¿Qué conocimiento matemático se necesita para comenzar a trabajar en el aprendizaje profundo?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

¿Cuáles son los algoritmos disponibles para diseñar un detector de actividad de habla hablada cercana?

¿En qué se diferencia un autoencoder (apilado) de un MLP, aparte de que los autoencoders aprenden funciones de identidad aproximadas?

¿Por qué tenemos que convertir el valor categórico en factor (en R) o variables ficticias antes de aplicar algoritmos de aprendizaje automático (especialmente regresión lineal)? ¿Afecta nuestros resultados?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?