¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

Diría que generar un conjunto de datos con una mezcla de normales multivariantes es un juego justo, pero como Olivier ha mencionado, esto puede generar un conjunto de datos que es linealmente separable. No creo que haya una elección “óptima” de modelo para los datos, ya que la máquina de vectores de soporte ni la red neuronal presuponen que los datos se generaron de acuerdo con un proceso probabilístico. Por lo tanto, no creo que elegir una distribución específica para dibujar las matrices de covarianza o si difieren significativamente de una clase a otra. Para superar la no seperabilidad, puede probar una mezcla de normales multivariantes en algún espacio y usar un núcleo (función de deformación) para deformar los datos. Si no recuerdo mal, hay algunos núcleos de uso común aquí: Aprendizaje de MOOC de datos, incluidas las funciones de base radial mencionadas anteriormente.

¿Por qué visualizamos filtros en redes neuronales convolucionales? ¿No son los filtros solo conjuntos de pesas? ¿De qué sirve tratar un conjunto de pesas como una imagen?

Cómo aplicar ConvNet en el análisis de sentimientos

Cómo construir una aplicación de Android orientada al aprendizaje automático

¿Cuál es el mejor algoritmo para descubrir características bien correlacionadas?

¿Cuáles son algunos textos recientes sobre métodos de kernel?

¿Cuál es la mejor manera de crear un conjunto de capacitación para el aprendizaje automático?

Aquí hay una función de utilidad para generar un conjunto de datos artificiales (de entrada) de n_características y n_muestras configurables donde puede controlar el perfil de correlación lineal entre las características: la mayor parte de la varianza se puede explicar por características equivalentes a `effect_rank`. También puede agregar una “cola gorda” de correlación que da forma al resto de la varianza:

https://github.com/scikit-learn/ …

Para resumir, este generador le permite controlar la forma de los valores singulares del conjunto de datos que se genera: un rango efectivo bajo significa características altamente correlacionadas.

Luego puede reutilizarlo para construir un conjunto de datos supervisado (en este caso para regresión lineal) eligiendo un modelo de verdad fundamental aleatorio con regresores n_informativos

https://github.com/scikit-learn/ …

Para construir un conjunto de datos de clasificación binaria supervisada, simplemente limite las matrices y_train e y_test a algún nivel arbitrario `a`.

y_train [y_train y_train [y_train> = a] = y_test [y_test> = a] = 1

Sin embargo, una nota: este conjunto de datos será linealmente separable. Para SVM con núcleos y redes neuronales multicapa, sería más interesante construir un modelo de verdad fundamental basado en vectores RBF gaussianos n_centros, por ejemplo, para introducir no linealidades. Para hacer esto aún más interesante, puede hacer que esos vectores base se encuentren en una variedad baja y tenue de un espacio de dimensión mucho más alta utilizando la Q de la matriz QR de la matriz aleatoria para proyectar aleatoriamente el espacio más alto sin romper las distancias por pares.

Giri Gopalan

More Interesting

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Qué es la curva de recuperación de precisión (PR)?

¿Cuál es la maldición de la dimensionalidad?

¿Cuáles son los algoritmos principales detrás de Google Translate?

¿Dónde puedo encontrar el algoritmo para encontrar los otros nombres de la entidad popular?

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

¿A quién o qué investigación de laboratorio en aprendizaje automático le parece más interesante?

¿Qué es la precisión en el aprendizaje automático?

¿Cuáles son algunos libros sobrevalorados en aprendizaje automático, estadísticas y aprendizaje profundo?

¿En qué año se desplaza una creciente masa de empleos a través de la automatización en los Estados Unidos?