Con lo sviluppo rapido di scienza e tecnologia di oggi, tutti i tipi di information dopo l'altro, risultando in una varietà di letteratura scientifica, Corpus notizie e anche information su Internet è davvero esplosivo. Tanta gente desidera salvare le informazioni per trovare le informazioni di cui hanno bisogno, poi di classificarli. Tuttavia, la classificazione tradizionale manuale a causa di un cycle life lunga, cost / benefici e spesso require knowledge professional qualificato personale può quindi essere difficile per meet le esigenze pratiche degli today, but now molti sistemi, perché il numero di documenti richiesti, sample più grandi, con conseguente diminuzione di efficienza del sistema, o perché il documento non soddisfa il numero di campioni, con conseguente classificazione dei incomplete, poco chiare, la mancanza di capacità di apprendimento e di altre questioni. Pertanto, lo studio di efficaci classificazione automatica di testo è reso necessario, ed è nel recupero del testo, reperimento di informazioni, informazioni di filtraggio, l'organizzazione dei dati, gestione delle informazioni e anche la ricerca su Internet ha una gamma molto ampia di applicazioni.
Nel processo di classificazione dei documenti, dei quali svolge un importante esempio di impatto, gli esempi più dei più accurata è la classificazione dei documenti più accurata. Tuttavia, per grandi quantità di classificazione dei documenti, per essere classificazione precisa delle istanza di un grandissimo numero di requisiti, che riduce notevolmente l'efficienza della classificazione. In considerazione di ciò, abbiamo have EM (Expectation-Maximization) algoritmo, basato su documenti non classificati, tenendo conto della impatto sulla classificazione di fattori, combined in un automatico sistema di classificazione Metadata. sistema di classificazione automatica dei metadati del documento non classificato unisce il contributo dei risultati della classificazione ottenuta con meno quantità di esempi di ottenere risultati classificazione più accurata. documento non classificato, tenendo conto di fattori di incertezza, aggiungere il coefficiente λ, può essere regolato nella sua. Attraverso alcuni degli esempi esistenti testato, il sistema può realizzare la prestazione migliore classificazione in grado di soddisfare la classificazione del grado di informazioni Jingque 需求. base classification grado-based, abbiamo migliorato la loro parte, così che l'utente fornisce solo le parole chiave per ogni classe della documents non classificati possono essere classificate effectively.
I metadati del sistema Aurora ha le seguenti caratteristiche:
1, il campione (o parole chiave) della domanda di piccole dimensioni, facili da attuare in merito alla classificazione del documento massiccio
Metadata sistema di classificazione automatica in quanto considerate documento non classificato sulla classificazione di alcuni elementi, riducendo notevolmente il numero di documenti classificati. Secondo le statistiche, nella classificazione non classificato 10.000 documenti, per ottenere risultati migliore classificazione, il metodo convenzionale richiede 2.000 campioni di documenti classificati (cioè la classificazione di documenti), e metadati utilizzando il nostro sistema automatico di classificazione solo 600 documento campione può ottenere gli stessi risultati di classificazione.
2, la classificazione intelligente, accurato i risultati
sistema di classificazione automatica dei metadati di prendere intelligente classificatore per classificare il documento, mediante la formazione classificatore può continuare ad aggiornare la classificazione iniziale. Nella formazione continua e il processo di apprendimento, il classificatore sarà più esperienza, quindi, il costante miglioramento della precisione di classificazione migliorare costantemente, quando il classificatore raggiunge uno stato stazionario, il sistema saranno i risultati massimali di classificazione .
3, la classificazione di alta affidabilità
sistema di classificazione dei metadati automatico in base alla classificazione statistica dei documenti utilizzando un metodo estremamente efficiente di taglio della parola e la parola inglese per la trasformazione di root (vedi Metadata Partner della radice), in modo che le informazioni di parola e le informazioni coerenti con il documento originale, garantire l'affidabilità del processo di classificazione.
4, considerando la classificazione del documento non è il ruolo della classificazione per raggiungere lo stato ottimale
Nel processo di classificazione, non molto più grande del numero di campioni documenti classificati i documenti, secondo l'algoritmo EM, accuratezza di classificazione dipende in gran parte documenti non classificati. documento non classificato sulla classificazione dei due tipi: per aumentare o diminuire la precisione di classificazione. Tenendo conto di questo fattore, metadati algoritmo EM per il sistema di classificazione automatica è stata migliorata, l'introduzione del coefficiente λ, al fine di documentare l'impatto del grado di adeguamento non classificate. Dopo il nostro test, prendere λ = 0.5.
5, la classificazione di velocità
Poiché il metodo utilizzato nel accurato ed efficiente come la premessa, così l'attuazione del processo di classificazione è stato molto veloce. Questa è la classificazione di un gran numero di documenti possibile. In questo caso, il sistema può essere utilizzato in più settori per affrontare con più informazioni sostanziali.
6, con una vasta gamma di impieghi
Come accennato in precedenza, nel presente in molte zone, sono tenuti a astraendo automatico Zuowei un sottosistema necessario attuare al nucleo di Cheng Wan Hou al lavoro, o hai bisogno di sistema automatico di astrazione per l'accesso alle informazioni, analizzare 辅助 informazioni in grado di affrontare dati di massa. Pertanto, riepilogo automatico sarà essenziale per molti settori di buon lavoro.
Metadata sistema automatico di schema di classificazione rassegna è il seguente: