¿Cómo entrenamos un clasificador para el cual solo tenemos: 1) un conjunto de datos que son datos de entrenamiento explícitamente positivos y 2) un conjunto de datos que se desconoce (tiene el potencial de ser positivo o negativo)?

Pruebe el aprendizaje transductivo para adivinar qué puntos de datos están etiquetados positivamente

Aprendizaje automático con etiquetas faltantes: SVM transductoras

tiene que experimentar un poco con los conjuntos de datos que introduce para intentar construir un modelo SVM que tenga una precisión de validación cruzada razonable y no cambie demasiadas etiquetas que sabía que eran verdaderas originalmente

–

20
Charles H Martin, Consultoría de cálculo; predecimos cosas Editar biografía
Votos de Jalem Raj Rohit, Vikram Jha, Akilesh Potti, Bạch Giang, (más)
tengo uno

Aprendizaje automático

comentarios y preguntas son bienvenidos

Además, he configurado un repositorio de Github para esta publicación de blog
github.com

Contenido calculado / tsvm

el archivo Léame está actualizado
esencialmente lo que estoy tratando de hacer es establecer un proyecto de investigación de código abierto, colaborativo, de ciencia de datos / aprendizaje automático

que corresponden al trabajo descrito en mi blog
Estos proyectos están diseñados para proyectos de investigación científica de buena fe que requieren recolectar nuestros propios datos y diseñar experimentos que prueben sistemáticamente ideas teóricas específicas.

A diferencia de kaggle, que es aislado, competitivo y predefinido, estos proyectos están destinados a ser compartidos, colaborativos y requieren un marco

Cada proyecto involucra

1. comprensión matemática y avance
2. experimentos de ciencia de datos
3. desarrollando un código

Estoy muy abierto a tener colaboradores interesados en hacer una nueva investigación en ciencia de datos

¿Es factible construir su propia máquina fMRI?

Cómo resolver un problema de la máquina Atwood con fricción

¿La normalización de lotes hará la diferencia al entrenar con tamaño de lote = 1?

Cómo proceder si no puedo desempeñarme mejor en un conjunto de datos en particular cuando intento ajustar un modelo de aprendizaje automático

¿Puede un fármaco ser estadísticamente efectivo para toda la población, pero estadísticamente no es efectivo para todas las subpoblaciones (como hombres y mujeres) por separado?

¿Cuándo se utilizarían los bosques aleatorios sobre las máquinas potenciadas por gradiente (GBM)?

Interesante problema Al buscar en Google aparecieron los nombres “aprendizaje de una clase” y “aprendizaje positivo sin etiquetar”. Aquí hay varios documentos relacionados:
Wang et. Alabama. : Aprendizaje semi-supervisado a partir de datos positivos y no etiquetados utilizando entropía [1]
Zhu et. al .: Aprendizaje de una clase y resumen de conceptos para flujos de datos con etiquetas vagas [2]
Nguyen et. al: Aprendizaje positivo sin etiquetar para la clasificación de series de tiempo [3]

[1] http://www.cs.sfu.ca/~ester/pape …
[2] http://www.cs.umb.edu/~ding/pape …
[3] http://ijcai.org/papers11/Papers …

Charles H Martin

El libro de Bing Liu sobre “Minería de datos web” tiene una buena sección (5.2) sobre “Aprender de ejemplos positivos y no etiquetados”. Es lo que él llama “PU Learning”. El enfoque de dos pasos que describe implica primero extraer un conjunto de documentos confiablemente negativos (RN) del conjunto sin etiquetar, y describe cuatro métodos para hacerlo, pero es un poco complejo de explicar aquí.

Algunas de las técnicas que menciona están cubiertas en un artículo que escribió (2003?) Titulado “Aprendiendo a clasificar textos usando datos positivos y sin etiquetar” – ver http://www1.i2r.a-star.edu.sg/~x … , así que lo leería primero si no tienes acceso a su libro.

Charles H Martin

Hola y gracias por la pregunta

Lo que ha descrito es aprender con conjuntos de datos positivos y no etiquetados (PU). La idea es brevemente la siguiente: tiene puntos de datos positivos (tal vez porque son muy abundantes, o más baratos para muestrear, o …) y tiene puntos de datos no etiquetados. El conjunto de datos no etiquetados, aunque no está categorizado, seguramente debe tener alguna información sobre el espacio de clasificación. La pregunta entonces es: si es así, ¿qué tipo de información podemos extraer? ¿Es útil esa información para discriminar lo positivo de lo negativo? Hay muchos trabajos que exploran estas preguntas y sus límites.

Aquí hay una lista muy pequeña de documentos:

Denis et al 2005 – Aprendiendo de ejemplos positivos y sin etiquetar. Informática teórica 348 (2005) 70–83.

duPlessis et al 2014 – Análisis del aprendizaje a partir de datos positivos y sin etiquetar.

Elkan y Noto 2008 – Clasificadores de aprendizaje a partir de solo datos positivos y sin etiquetar. KDD’08, 24-27 de agosto de 2008, Las Vegas, Nevada, EE. UU.

Li y Liu 2003 – Aprendizaje con ejemplos positivos y sin etiquetar utilizando regresión logística ponderada. Actas de la Vigésima Conferencia Internacional sobre Aprendizaje Automático (ICML-2003), Washington DC, 2003.

Zhou et al 2012 – Aprendizaje positivo y sin etiquetar de múltiples vistas. JMLR: Taller y Actas de la Conferencia 25: 555–570, 2012

El tema de la PU fue candente en ~ 2005. Recuerdo que en ese momento me topé con él mientras buscaba aprender sobre conjuntos de datos altamente desequilibrados. Los dos problemas en algunos dominios se pueden conectar.

Espero que esto ayude.

Ken Krugler

Esta publicación de blog aborda su pregunta precisa de una manera sucinta

http://www.machinedlearnings.com …

Charles H Martin

More Interesting

¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

Al cambiar de plataforma, ¿cómo se debe planificar con anticipación para garantizar que el almacenamiento y el análisis de datos se mantengan rápidos y eficientes?

¿Cuál es la diferencia entre aprendizaje gradual y aprendizaje de refuerzo?

¿Dónde puedo encontrar el algoritmo para encontrar los otros nombres de la entidad popular?

¿Existe alguna relación entre el aprendizaje automático y el campo de la electrónica analógica o digital?