Med den snabba utvecklingen inom vetenskap och teknik i dag är all slags information efter den andra, vilket resulterar i en mängd vetenskaplig litteratur, corpus nyheter och även information på Internet verkligen explosiv. Så många människor vill att informationen för att hitta den information de behöver, då måste klassificera dem. Men den traditionella manuella texten klassificering på grund av långa period med höga kostnader, dålig effektivitet, och ofta måste ha kompetens att vara behörig, så det är svårt att tillgodose praktiska behov i dag, men nu många av systemet, på grund av det antal prover som krävs dokument större, vilket leder till minskad effektivitet i systemet, eller för att handlingen inte uppfyller antalet prover, vilket leder till klassificering av ofullständiga, oklara, brist på inlärningsförmåga och andra frågor. Därför har studien en effektiv automatisk text klassificering blir nödvändiga, och det är i texten hämtning, informationssökning, information filtrering, data organisation, informationshantering och även sökning på Internet har ett mycket brett spektrum av applikationer.
I dokumentet klassificering, spelar klassificering ett viktigt exempel på verkan, fler exempel på den mer exakt desto noggrannare klassificering av handlingar. För stora mängder klassificering av handlingar och för att vara exakt klassificering av fallet av ett mycket stort antal krav, som kraftigt reducerar effektiviteten i klassificeringen. Mot bakgrund av detta har vi EM (Förväntningen-maximering) algoritm som bygger på oklassificerade dokument med hänsyn till påverkan på klassificeringen av faktorer kombineras i en metadata automatiskt klassificeringssystem. Metadata automatisk klassificering systemet kombinerar oklassificerade dokument bidrag klassificeringen resultat som uppnåtts med mindre mängd exempel för att få bättre klassificering resultat. Oklassificerade dokument, med hänsyn till osäkerhetsfaktorer, lägg koefficienten λ, kan anpassas till dess. Genom några exempel på befintliga tester, kan systemet få bättre klassificering resultat, för att möta behoven av information klassificering noggrannhet. Exempel-baserade klassificering grund, förbättrade vi på deras sida, så att användaren endast tillhandahåller de viktigaste orden för varje klass i den oklassificerade dokument effektivt kan klassificeras.
Metadata Aurora-systemet har följande egenskaper:
En, till provet (eller sökord) i efterfrågan på små, lätt att genomföra på den massiva klassificering av handlingar
Metadata automatisk klassificering som anses klassificerade dokument om klassificering av vissa faktorer, avsevärt minskar det nödvändiga antalet sekretessbelagda handlingar. Enligt statistik, i 10.000 oklassificerade dokument klassificering, för att uppnå bättre klassificering resultat krävs det konventionella metoden 2000 prover sekretessbelagda handlingar (dvs klassificering av handlingar) och metadata med hjälp av vårt automatiska klassificeringssystem endast 600 provet dokument kan uppnå samma resultat för klassificering.
2, intelligent klassificering, korrekta resultat
Metadata automatiska klassificeringssystem för att ta intelligenta klassificerare att klassificera handlingen genom klassificerare utbildning kan fortsätta att uppdatera den ursprungliga klassificeringen. I den fortlöpande utbildning och lärande process kommer klassificerare vara mer erfarenhet och därmed, kontinuerligt förbättras klassificering noggrannhet ständigt förbättra, när klassificerare når ett stabilt tillstånd, kommer systemet att vara den bästa klassificeringen resultat .
3, klassificering av hög tillförlitlighet
Metadata automatisk klassificering som grundas på den statistiska indelningen av dokument med hjälp av en högeffektiv metod att skära av ordet och det engelska ordet för rot-behandling (se metadata Partner av roten), så att ordet information och information i överensstämmelse med originalen, säkerställa tillförlitligheten av klassificeringen processen.
4, med tanke på klassificeringen av handlingen inte är den roll som klassificeringen för att nå optimalt tillstånd
I klassificeringen processen, inte mycket större än det antal prover sekretessbelagda handlingar dokument beroende på EM algoritm, klassificering noggrannhet beror till stor del på oklassificerade dokument. Oklassificerade dokument om klassificeringen av två slag: att höja eller sänka klassificeringen noggrannhet. Med hänsyn till denna faktor, Metadata EM algoritm för automatisk klassificering system har förbättrats, införandet av koefficienten λ, för att dokumentera effekterna av oklassificerade graden av anpassning. Efter vårt test, ta λ = 0,5.
5, klassificering hastighet
Eftersom den metod som används korrekt och effektivt som premissen, så att genomförandet av klassificeringen av processen var mycket snabb. Detta är den klassificering av ett stort antal dokument som möjligt. I detta fall kan systemet användas i flera fält att ta itu med mer omfattande information.
6, med ett brett användningsområde
Som tidigare nämnts är många områden i detta måste vi automatiskt sammanfattningar ett delsystem som skall införas i kärnan att slutföra arbetet, eller behöver tillgång till information som automatiskt abstracting systemet, extra medel för informationsbehandling massiva data. Därför kommer automatisk textsammanfattning vara avgörande för många områden av det goda arbetet.
Metadata automatiska klassificeringssystem översikt diagram är följande: