No soy un experto en este tema, pero por lo que he recopilado, existen métodos específicos para tratar estos conjuntos de datos en este momento, así como modificaciones de los métodos clásicos.
Los siguientes son métodos de clasificación clásicos aplicados a datos de genes de microarrays:
Bosques al azar
- ¿Cuál es el algoritmo detrás de LinkedIn Pulse?
- ¿Cuáles son algunas buenas bibliotecas de Deep Learning donde puedo usar una Red de creencias profundas con clasificadores como SVM gaussiano?
- ¿Qué compañías con sede en Dallas están desarrollando y / o invirtiendo en tecnologías de Inteligencia Artificial / Aprendizaje Automático?
- ¿Cuál es el gradiente de la función de probabilidad logarítmica en la regresión logística multinomial?
- ¿Qué piensa Yoshua Bengio sobre la idea de un algoritmo de aprendizaje único?
SVM
Vista general de la tarea.
También hay métodos basados en LDA que se supone que son mejores en esto. Pero no he trabajado con datos de microarrays, así que no puedo confirmar. Algunos ejemplos:
Vista general
Comparación de métodos LDA
La siguiente presentación ofrece una descripción general de los métodos disponibles en R, así como fragmentos de código:
Una descripción general sobre el análisis de datos de microarrays utilizando R
Paquete de estadísticas para el análisis de microarrays para R. Este sitio web tiene algo de teoría y códigos completos para ejecutar el análisis.
Paquete SMA de Berkeley Uni
Bioconductor es un repositorio muy grande para hacer tales análisis. Usé algunos paquetes de ellos, aunque nunca para el análisis de microarrays. Bioconductor tiene buena documentación y creo que podría ser muy útil.
Manual de bioconductores
Creo que también puede haber equivalentes en Python, pero principalmente trabajo con R, así que no puedo ayudarte con eso.
Espero que esto sea útil.