En el contexto del aprendizaje automático práctico, ¿cuáles son las principales conclusiones de la teoría del aprendizaje estadístico?

Hay 3 ideas que me han resultado muy útiles en la práctica.

1) Uso de la complejidad de Rademacher como medida de rendimiento.

El mejor artículo es:

http://pages.cs.wisc.edu/~jerryz…

Pero básicamente esto significa, aleatorizar las etiquetas en un conjunto de datos.

Suponga que alguien le proporciona un conjunto de datos y sospecha que las etiquetas son ruidosas o simplemente erróneas. Lo que hago es crear primero un modelo simple que funcione. Digamos, un modelo de bolsa de palabras para clasificar texto. Luego, agregue algo de ruido aleatorio a las etiquetas. En principio, el modelo debería degradar el rendimiento y debería rastrear la aleatoriedad añadida. Si no es así, puede usar esto para estimar el ruido en sus etiquetas.

2) La idea de réplicas para probar el aprendizaje transductivo.

Aquí, la idea proviene de Vapnik, a saber, que si puedes ‘crear’ una réplica de tus datos, entonces puedes probar la parte inductiva del teorema de VC probando primero la parte transductiva.

Entonces, en un sentido práctico, si desea hacer un aprendizaje transductivo o semi-supervisado, ¿necesita tener una forma de medir la calidad de su réplica? En otras palabras, si desea aprender de los datos no etiquetados, debe asegurarse de que sus datos no etiquetados tengan las mismas “propiedades estadísticas” que los datos etiquetados.

En una SVM transductiva, generalmente se supone que los datos no etiquetados tienen, en realidad, la misma fracción de datos etiquetados positivamente que el conjunto de datos etiquetados. (es decir, el parámetro T-SVM R) Pero también hay otras métricas, como ejecutar un algoritmo no supervisado para ‘predecir’ las etiquetas y luego verificar la métrica de la silueta

sklearn.metrics.silhouette_score – documentación de scikit-learn 0.17.1

o agregando un regularizador a la TSVM que implementa una métrica de agrupación no supervisada.

3) Saber si los límites de VC se escalan como 1 / N o 1 / sqrt (N)

Esto se explica mejor en el formalismo LUPI

SVM + / LUPI: Aprendizaje utilizando información privilegiada

Básicamente, la idea práctica es que si puede estimar la “confianza” de una etiqueta, puede agregar esto al modelo como un “peso de instancia”. En estos días, las buenas implementaciones de modelos como Random Forests y SVM permiten pesos de instancia. Por ejemplo, sklearn permite esto.

Por supuesto, tienes que estimar los pesos; He hecho esto con éxito usando algunas técnicas inteligentes de búsqueda de cuadrícula.

La disciplina de la estadística es muy interesante. No solo proporcionan suficientes fórmulas analíticas en su teoría, sino que también crean métodos que funcionan en conjuntos de datos. Hacen un esfuerzo concertado para escuchar los problemas de la otra disciplina y el sentido de sus datos, ya que están codificados y enmarcados en el método estadístico. Mi interés, aparte de modelar los datos y aplicar el método relevante, ahora está en el muestreo apropiado. Creo que la idea de tomar muestras y encontrar datos representativos para el estudio, que también se generaliza a una población amplia, tiene un gran valor y es apropiada para el aprendizaje en la vida cotidiana. La teoría detrás del muestreo para los conjuntos de datos para entrenar modelos de aprendizaje, lazos para comprender la disciplina o la empresa. Coincide con la buena calidad de los datos y, por supuesto, ese término clave, la representatividad de los ejemplos y las observaciones, sin embargo, recopilan datos.

Definiciones

Por ejemplo, pérdida : puede entrenar algoritmos usando alguna pérdida, convirtiendo sus problemas en problemas de optimización numérica.
Resulta que para muchos problemas esto corresponde al método de máxima verosimilitud (o, a veces, máximo a posteriori ). La pérdida a menudo es solo una probabilidad de registro negativa (negativa ya que maximiza la probabilidad y minimiza la pérdida y registra para convertir los productos en sumas).

More Interesting

¿Cuánto del aprendizaje automático debo saber para participar en un simple hackathon?

¿Cuáles son las mejores revistas en computación evolutiva?

¿Cómo y dónde puedo comenzar a aprender inteligencia artificial y aprendizaje automático?

¿Qué tipo de preguntas responde mal Watson?

¿Puede la inteligencia artificial estar en camino de automatizar cada trabajo, o es solo otra exageración de Silicon Valley?

¿Los desarrolladores front-end serán reemplazados por IA?

¿Qué pasaría si construimos una IA superinteligente amigable y nos diga que un mundo mejor es imposible?

¿Cómo está transformando la inteligencia artificial la profesión jurídica?

¿Debería considerarse que la computación flexible forma parte de la inteligencia artificial o la informática blanda debe considerarse una disciplina separada? ¿Y por qué?

¿Deberíamos establecer el comunismo cuando los robots toman todos los trabajos?

¿Existe una base racional general para que las redes neuronales artificiales sean las estructuras de aprendizaje 'definitivas' para los dominios en los que se destacan actualmente?

¿Cuáles son algunos problemas de aprendizaje automático que se resuelven mejor sin usar redes neuronales, dado que las redes neuronales tienden a ser más complicadas?

¿Cuál es el propósito del sesgo en una neurona artificial?

¿Es el lenguaje C una buena opción para la programación de IA?

¿Qué avances deben ocurrir en ingeniería para permitir robots humanoides avanzados? ¿Cuándo ocurrirán esos avances?