Automatisk Classification System (Metadata Aurora)



Med den hurtige udvikling af videnskab og teknologi i dag, ja alle former for information efter den anden, hvilket resulterer i en række videnskabelige litteratur, nyheder corpus og selv oplysninger på internettet er eksplosiv. Så mange mennesker vil have oplysninger til at finde de oplysninger, de har brug for, så skal klassificere dem. Men den traditionelle manuelle tekstklassificeringssystemer på grund af lang periode, høje omkostninger, lav effektivitet, og ofte nødt til at have ekspertise til at være kompetent, så det er vanskeligt at opfylde de praktiske behov i dag, men nu er mange af systemet, på grund af antallet af prøver krævede dokumenter større, hvilket resulterer i nedsat effektivitet af systemet, eller fordi dokumentet ikke opfylder antallet af prøver, der resulterer i klassificeringen af ufuldstændig, uklar, manglende indlæringsevne og andre spørgsmål. Derfor har studiet af effektive automatiske tekstklassificeringssystemer blive nødvendigt, og det er i teksten hentning, informationssøgning, information filtrering, data organisation, informationsstyring og selv den søgning på internettet har en meget bred vifte af applikationer.



I dokumentet klassificering, spiller klassificering et vigtigt eksempel på konsekvenserne, flere eksempler af den mere nøjagtig, jo flere nøjagtig klassificering af dokumenter. Men for store mængder af klassificering af dokumenter og for at være præcis klassificering af tilfælde af et meget stort antal krav, som reducerer effektiviteten af klassificeringen. På baggrund af dette har vi EM (Forventning-maksimeringstesten) algoritme, baseret på uklassificerede dokumenter under hensyntagen til indvirkningen på klassificering af faktorer, kombineres i en Metadata automatisk klassifikationssystem. Metadata automatisk klassificering system kombinerer hemmeligstemplet dokument bidrag af klassificeringen resultater med mindre beløb eksempler for at opnå mere nøjagtig klassificering resultater. Hemmeligstemplet dokument, idet der tages hensyn usikkerhedsmomenter, skal du tilføje koefficienten λ, kan justeres til. Gennem en række eksempler på eksisterende test, kan systemet opnå en bedre klassifikation resultater, at imødekomme efterspørgsel efter informationer klassificering nøjagtighed. Instans-klassificering grundlag, vi forbedret på deres side, så brugeren kun giver nøgleordene for hver klasse i den uklassificeret dokumenter effektivt kan klassificeres.
Metadata Aurora system har følgende egenskaber:

1, til prøven (eller søgeord) i efterspørgslen efter små, nemme gennemføre på den massive klassificering af dokumenter
Metadata automatiske klassificeringssystem som anses for ikke-hemmeligstemplet dokument om tarifering af visse faktorer, hvilket reducerer det nødvendige antal klassificerede dokumenter. Ifølge statistikker, i de 10.000 uklassificeret dokumenter klassificering, for at opnå bedre klassifikation resultater, kræver den konventionelle metode 2000 prøver klassificerede dokumenter (dvs. klassificeringen af dokumenter) og Metadata bruge vores automatiske klassificeringssystem kun 600 prøve dokumentet kan opnå de samme resultater af klassificering.

2, intelligent klassificering, præcise resultater
Metadata automatisk klassificering system, der tager intelligent klassifikator at klassificere dokumentet, gennem klassificeringen uddannelse kan fortsætte med at opdatere den oprindelige klassificering. I den løbende undervisning og læringsproces vil klassificeringen blive mere erfaring, således, løbende forbedres klassificering nøjagtighed konstant at forbedre, når klassificeringen når et steady state, vil systemet være den bedste klassificering resultater .

3, klassificering af høj pålidelighed
Metadata automatisk klassificering system baseret på den statistiske klassifikation af dokumenter ved hjælp af en yderst effektiv metode til at klippe ord, og det engelske ord for root forarbejdning (se Metadata partner i roden af), så at ordet information og oplysninger i overensstemmelse med det oprindelige dokument, sikre troværdigheden af den klassificering processen.

4, i betragtning af klassificeringen af dokumentet er ikke den rolle, som klassificeringen for at nå den optimale tilstand
Ved klassificeringen proces, ikke meget større end antallet af prøver klassificerede dokumenter dokumenter, alt efter EM-algoritmen klassificering nøjagtighed afhænger i høj grad uklassificerede dokumenter. Uklassificeret dokument om klassificering af de to gange: at hæve eller sænke klassificering nøjagtighed. Under hensyntagen til denne faktor, Metadata EM algoritme til automatisk klassificering system er blevet forbedret, indførelsen af koefficienten λ, for at dokumentere konsekvenserne af uklassificeret grad af tilpasning. Efter vores test, tage λ = 0,5.

5, klassifikation hastighed
Fordi metoden anvendes i nøjagtig og effektiv som den forudsætning, så anvendelsen af klassifikationen processen var meget hurtigt. Dette er klassificeringen af et stort antal dokumenter muligt. I dette tilfælde kan systemet bruges i flere felter til at behandle flere væsentlige oplysninger.

6, med en bred vifte af anvendelser
Som tidligere nævnt er der mange områder i den nuværende, er vi nødt til automatisk abstracts et delsystem, der skal gennemføres i de centrale til at fuldføre arbejdet, eller skal have adgang til oplysninger, som automatisk abstrahere system, de hjælpemidler, analyse af informationsbehandling massive data. Derfor vil automatisk et sammendrag af afgørende betydning for mange områder af gode arbejde.

Metadata automatisk klassifikationssystem oversigt diagram er som følger: