¿Alguna vez ha recibido mejores resultados con su aprendizaje automático de lo que esperaba?

Sí, cuando proyecté el conjunto de datos MNIST a través de una red neuronal convolucional (CNN) con solo características fijas aleatorias y entrené una máquina de vectores de soporte lineal (SVM) de varias clases en la parte superior.

El resultado, 86 +% de precisión en 10 000 ejemplos de prueba.

No esperaba que el aprendizaje de transferencia pueda ocurrir incluso con pesos aleatorios no entrenados para el extractor de características CNN.

Esperaba resultados pobres y 86 +% no es pobre para las características fijas aleatorias y solo entrena la capa de clasificación final.


Estoy sorprendido y decepcionado al mismo tiempo.

Parece que las características, especialmente las características de bajo nivel, en una CNN pueden ser aleatorias y fijas y aún así pueden producir buenos resultados.

Ni siquiera estoy seguro de cómo explicar esto correctamente. Pero me ha dado algunas ideas interesantes.

El hecho de que las características aleatorias fijas en un CNN + una capa de salida SVM lineal multiclase entrenable pueda funcionar extremadamente bien en MNIST tal vez muestra que MNIST no es un conjunto de datos tan desafiante.

O esto también puede aplicarse a otros conjuntos de datos más complicados también.

Espero que esto ayude.

Sí, particularmente dentro de los conjuntos de datos médicos y educativos, ya que estos generalmente involucran el comportamiento humano (que es notoriamente difícil de predecir).

Sí, la mayoría de las veces supongo que es un error en la línea de base hasta que me siento lo suficientemente seguro como para decir que no lo es. ¡Pero generalmente es un error!

More Interesting

¿Cómo funciona The Grid?

¿Cuál es la diferencia entre i) Inteligencia artificial, ii) Minería de datos, iii) Recuperación de información, iv) Procesamiento de lenguaje natural, y v) Aprendizaje automático y reconocimiento de patrones?

¿Qué bibliotecas de OCR tienen en cuenta la ortografía de una palabra para predecir los caracteres y cómo lo hacen?

¿Qué no admite OpenAI conceptos como TINU (https://tinu.live)?

¿Los robots, la automatización, la inteligencia artificial y las computadoras nos dejarán a todos desempleados?

¿Cuál es el trabajo de la red neuronal en el procesamiento de imágenes?

¿Construiría un sistema multi-GPU para el aprendizaje profundo con GTX Titan X o Tesla K40 / K80? ¿Cuáles son los pros y los contras?

¿Qué es el aprendizaje por refuerzo y por qué es difícil?

¿Qué es lo importante de un algoritmo de aprendizaje profundo exitoso?

¿Qué es una red neuronal de desplazamiento espacial (SDNN)?

¿AI comenzará a automatizar la escritura de software (incluidos ML e AI)? Si es así, ¿qué debe hacer un desarrollador para seguir siendo relevante y empleable?

¿Es la aplicación de aprendizaje profundo para las tareas de aprendizaje de redes neuronales artificiales con más de una capa oculta?

¿Cómo sería el futuro para los graduados de IA?

En una red neuronal de reconocimiento facial, ¿cuántos nodos separados se necesitan en el nodo final del lado de salida (para la clasificación facial)?

¿Cuál es la diferencia entre el aprendizaje en línea y el aprendizaje fuera de línea en la red neuronal?