Met de snelle ontwikkeling van wetenschap en technologie van vandaag, alle soorten van informatie na de andere, wat resulteert in een verscheidenheid van wetenschappelijke literatuur, nieuws corpus en zelfs informatie op het internet is inderdaad explosief. Dus veel mensen willen de informatie aan de informatie die zij nodig vinden, dan moeten ze te classificeren. Echter, traditionele handmatige tekst indeling, omdat een lange periode, hoge kosten en lage rendementen, vaak tot een professionele kennis van de vaardigheden van het personeel, dus het is moeilijk om praktische vandaag, maar nu veel systemen, omdat de hoeveelheid van het monster requirements document groter, wat resulteert in afname van de efficiëntie van het systeem, of omdat het document niet voldoet aan het aantal monsters, wat resulteert in de classificatie van onvolledige, onduidelijke, gebrek aan lerend vermogen en andere zaken. Daarom is de studie van de effectieve automatische tekst indeling noodzakelijk is geworden, en het is in de tekst retrieval, information retrieval, informatie filteren, organisatie van gegevens, informatie management en zelfs zoeken op het internet heeft een zeer breed scala van toepassingen.
In het document indeling proces, indeling speelt een belangrijk voorbeeld van het effect, de meer voorbeelden van hoe nauwkeuriger de nauwkeuriger document classificatie. Echter, voor grote hoeveelheden van document indeling, de exacte indeling van de aanleg van een zeer groot aantal van de eisen, die sterk vermindert de efficiëntie van de indeling. Met het oog hierop hebben wij EM (Verwachting-Maximization) algoritme, gebaseerd op niet-geclassificeerde documenten, rekening houdend met de gevolgen voor de indeling van factoren, gecombineerd in een metadata-automatische classificatie systeem. Metadata automatische classificatie-systeem combineert geclassificeerde document van de bijdrage van de indeling bereikte resultaten met minder aantal voorbeelden om meer nauwkeurige classificatie resultaten te verkrijgen. Niet geclassificeerd document opstellen, rekening houdend met factoren van onzekerheid, voeg de coëfficiënt λ, kan worden aangepast aan haar. Via een aantal voorbeelden van bestaande tests, kan het systeem tot betere resultaten indeling, de vraag naar informatie classificatie nauwkeurigheid te voldoen. Aanleg-indeling op basis van basis, we verbeterden hun kant, zodat de gebruiker bepaalt alleen de sleutelwoorden voor elke klasse van de niet-geclassificeerde documenten effectief kan worden ingedeeld.
Metadata Aurora systeem heeft de volgende kenmerken:
1, bij de steekproef (of trefwoorden) in de vraag naar kleine, eenvoudig te implementeren op de enorme document indeling
Metadata automatische classificatie systeem beschouwd als niet-geclassificeerde document over de indeling van bepaalde factoren, sterk vermindert het vereiste aantal van gerubriceerde documenten. Volgens de statistieken, in de 10.000 niet-geclassificeerde documenten indeling, een betere classificatie resultaten te bereiken, de conventionele methode vereist 2000 monsters gerubriceerde documenten (dwz classificatie van documenten), en metadata met behulp van ons geautomatiseerd classificatiesysteem slechts 600 steekproef document kan dezelfde resultaten bereiken van de indeling.
2, intelligente indeling, nauwkeurige resultaten
Metadata automatische classificatie-systeem van intelligente classifier te nemen om het document te classificeren, door middel van de indeler opleiding kan nog steeds de oorspronkelijke indeling te actualiseren. In de continue opleiding en leerproces, de classifier zal meer ervaring dus,, voortdurend wordt verbeterd classificatie nauwkeurigheid voortdurend te verbeteren, wanneer de classifier een steady state bereikt, zal het systeem worden de beste resultaten indeling .
3, indeling van de hoge betrouwbaarheid
Metadata automatische classificatie-systeem op basis van de statistische classificatie van het document, met behulp van een efficiënte methode voor het snijden van woorden, woorden en Engels Zuo root te worden verwerkt (zie Metadata Partner van chemische root), dus het woord 信息 in overeenstemming met het oorspronkelijke document informatie, zorgen voor de betrouwbaarheid van de classificatie-proces.
4, gelet op de indeling van het document is niet de rol van de indeling van de optimale toestand te bereiken
In de indeling proces, niet veel groter dan het aantal monsters gerubriceerde documenten documenten, volgens de EM-algoritme, classificatie nauwkeurigheid hangt grotendeels af van niet-geclassificeerde documenten. Niet geclassificeerd document over de indeling van de twee-voudig: het verhogen of verlagen van de classificatie nauwkeurigheid. Rekening houdend met deze factor, Metadata EM algoritme voor de automatische classificatie-systeem is verbeterd, de invoering van de coëfficiënt λ, met het oog op de gevolgen van de niet-geclassificeerde mate van aanpassing document. Na onze test, neem λ = 0,5.
5, indeling snelheid
Omdat de methode die wordt gebruikt in het accuraat en efficiënt als het uitgangspunt, zodat de invoering van de classificatie proces was erg snel. Dit is de indeling van een groot aantal documenten mogelijk te maken. In dit geval kan het systeem worden gebruikt in meer gebieden te maken met meer belangrijke informatie.
6, met een breed scala van toepassingen
Zoals eerder vermeld, in het heden op vele gebieden, worden automatisch de Digest Xu Wei Zuo Yao een noodzakelijke subsysteem, zal worden ingebed in de kern Hou Cainengwancheng werk, of moeten abstraheren automatische systeem als Huoqu informatie, analyseren van informatie van Zhu Fu betekent dat het adres aan massale gegevens. Daarom zal automatisch samenvatten van essentieel belang zijn voor veel gebieden van goed werk.
Metadata automatische classificatie-systeem overzicht schema is als volgt: