Cómo probar un conjunto de datos no se puede clasificar

Esta es realmente una muy buena pregunta, tocando los fundamentos de la ciencia y la epistemología. Nunca se puede “probar” que un conjunto de datos puede o no clasificarse, o de manera más general, que se ajusta a un modelo dado. Solo puede tener una alta confianza (es decir, una estimación muy alta de la probabilidad de su afirmación). En particular, para su pregunta original, incluso obtener la confianza de que no hay un modelo posible que clasifique correctamente un conjunto de datos arbitrarios es aún peor, ya que tendría que pasar por todas las clases posibles de modelos, incluidos los de “caja negra” que arbitrariamente asignar grupos “correctos” a las muestras. Lo mejor que puede hacer es considerar una clase razonable de modelos dado su conocimiento previo sobre los datos y decir que está satisfecho de que estos modelos no puedan, de hecho, ajustarse a ellos.

Por cierto, nunca mencionó en su pregunta si tiene buenas razones para creer que los datos son clasificables. El conocimiento previo sobre los datos y el espacio del problema es lo más importante sobre la ciencia de datos, mucho más importante que el algoritmo específico que intenta utilizar. ¿Recolectó los datos usted mismo? ¿De qué se trata, es decir, a qué se refieren las dimensiones del vector (“características”)? ¿La descripción de datos contiene alguna pista sobre qué tipo de clasificaciones se pueden esperar? ¿Le dieron algún tipo de prueba con etiquetas de “verdad fundamental” o “bien conocido”, o está en el aire si hay alguna etiqueta razonable? En el análisis exploratorio, ¿ves patrones? Si le entregaron una matriz arbitraria de 1000 × 1000 y le dijeron que la clasificara, su pánico es muy justificable: en principio, siempre puede ser el resultado de un generador de números aleatorios.

Aprendizaje automáticoCiencia de datosdatosInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Cuál es la intuición para SVM-Rank y cuándo debo usarla?

¿Cómo se puede imitar la intuición humana en los algoritmos de aprendizaje automático? ¿Es importante el modelado de la intuición en el aprendizaje profundo?

¿Qué algunos documentos sobre desafíos en predicción financiera con técnicas de aprendizaje automático?

¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de 'C' en la función de regresión logística scikit-learn?

¿El error de clasificación de las redes neuronales se denomina "tasa de error"?

Cómo usar el método probabilístico para probar el problema de Ramsey multicolor

Quiero comprar la mejor computadora portátil. ¿Cuáles son algunas sugerencias?

Como dijo Meir Maor, si tiene varias etiquetas (sin ningún patrón emergente) en la mayoría de los casos, probablemente nunca podrá clasificar en este conjunto de datos.

Si no es así (p. Ej., En la mayoría de los casos), siempre podrá clasificar completamente su conjunto de entrenamiento, siempre que esté lo suficientemente preparado. Si no puede hacer eso, probablemente haya un problema en su implementación del algoritmo.

Le aconsejo que trace la precisión en el conjunto de entrenamiento y prueba en función de algunos parámetros de regularización para ver qué sucede con su conjunto de entrenamiento y prueba.

Además, puede intentar trazar los datos en una dimensión inferior (con PCA / KPCA / ICA) para ver si puede ver un patrón. Si hay uno, definitivamente hay algo mal con su algoritmo.

Peter Flom

Probablemente no puedas. Puede probar un grupo de clasificadores que representan un cierto espacio de hipótesis y no muestran una separación razonable dentro del espacio de hipótesis relevante.

Sin embargo, su podría ser otra función. Por ejemplo, la función que devuelve la etiqueta correcta para cada ejemplo entrenado. Lo cual se separará bien pero no se generalizará.

Si tiene varios ejemplos idénticos con diferentes etiquetas, puede usarlos para mostrar un límite en el rendimiento de cualquier clasificador. Si las muestras no son idénticas pero muy similares, podría suponer que ciertos pequeños cambios son irrelevantes y mejoran su límite.

Esto rara vez produce límites razonables con datos enriquecidos.

Meir Maor

No creo que esto sea posible. Solo es posible mostrar que un método en particular no funciona; Si prueba muchos métodos y nada funciona, entonces es una buena indicación de que los datos son un desastre que no se pueden enderezar, pero no veo ninguna manera de que pueda encontrar una prueba de esto.

Después de todo, hay métodos que aún no se han inventado.

Meir Maor

Si no puede clasificar un conjunto de datos por ningún método conocido, puede inferir que el conjunto de datos es completamente aleatorio o que existe una característica importante que no está incluida en el conjunto de datos.

Debe evitar afirmar de manera asertiva que el conjunto de datos no se puede clasificar. Puede indicar que el conjunto de datos no se puede clasificar en función de las características dadas. Luego puede explorar la posibilidad de una característica oculta.

Por cierto, este es un tema de intensa investigación en física cuántica. Para dar un significado al principio de incertidumbre de la física cuántica, los físicos han pensado en multiverso y dimensiones superiores.

Meir Maor

More Interesting

¿El aprendizaje profundo hará que otros algoritmos de aprendizaje automático sean obsoletos?

¿Cuál es el objetivo de la detección de fraude con tarjeta de crédito?

¿Cómo debo representar las características para la clasificación de texto?

¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?

¿Cuál es el mejor clasificador que puedo usar en 'Reconocimiento facial en tiempo real' después de extraer funciones usando 'Alexnet'?

¿Cómo encuentro y uso información en el diseño de máquinas?

¿Cuántas imágenes de entrenamiento deberían usarse para una buena tarea de reconocimiento de género en OpenCV? ¿Hay algún conjunto de datos disponible para esta tarea?

¿Cómo detectar el idioma de un texto escrito en inglés? ¿Hay una API disponible donde podamos dar el texto como entrada?

¿Será factible dentro de los próximos 5 años que una API de aprendizaje automático maneje la construcción de representaciones significativas a partir de datos sin procesar?

¿Qué método de reducción de dimensionalidad puede mantener las relaciones de traslación entre puntos?

¿Cómo puedo aprender a realizar simulaciones de dinámica molecular? ¿Cuáles son algunas buenas fuentes para aprender sobre este campo?

¿Qué hace exactamente esta función, tf.nn.embedding_lookup (), en TensorFlow?

Para comenzar en los roles de la ciencia de datos, ¿los cursos de Jigsaw Academy o Coursera son lo suficientemente buenos?

Cómo comparar el rendimiento de mis modelos de Deep Learning con puntos de referencia estándar cuando se utiliza el aumento de conjunto de datos

Soy nuevo en la programación de Python. Quiero aprender el aprendizaje automático. ¿Qué libros son buenos?

Web Analytics