Automatisk Klassifisering System (Metadata Aurora)



Med den raske utviklingen av vitenskap og teknologi i dag, er alle typer informasjon etter den andre, noe som resulterer i en rekke av vitenskapelig litteratur, nyheter corpus og til og med informasjon på Internett virkelig eksplosive. Så mange mennesker ønsker at informasjonen skal finne den informasjonen de trenger, så må klassifisere dem. Men den tradisjonelle manuelle klassifiseringen, som en lang syklus med høye kostnader, lav effektivitet, og ofte må ha kompetanse til å være kompetent, kan den ikke dekke de faktiske behovene i dag, men nå mange av systemet, på grunn av antall prøver påkrevde dokumenter større, noe som resulterer i redusert effektivitet i systemet, eller fordi dokumentet ikke oppfyller antall prøver, noe som resulterer i klassifisering av ufullstendige, uklare, manglende læringsevne og andre problemer. Derfor har studiet av effektive automatiske tekst klassifisering blir nødvendig, og det er i teksten henting, innhenting av informasjon, informasjon filtrering, data organisasjon, informasjonshåndtering og til og med Internett-søk har et meget bredt spekter av programmer.



I dokumentet klassifisering prosessen, spiller klassifikasjon et viktig eksempel på virkningen, jo mer eksempler på mer nøyaktig desto mer nøyaktig dokumentet klassifisering. Men for store mengder dokument klassifikasjon, for å være presis klassifisering av forekomsten av et stort antall krav, som kraftig reduserer effektiviteten av klassifisering. I lys av dette, har vi EM (Forventning-Maksimering) algoritme, basert på ugradert dokumenter å ta hensyn til innvirkning på klassifiseringen av faktorene, kombinert i en Metadata automatisk system for klassifisering. Metadata automatisk klassifiseringssystem kombinerer uklassifiserte dokumentere bidrag i klassifiseringen resultater oppnådd med mindre mengde eksempler for å få mer nøyaktige resultater klassifisering. Uklassifisert dokumentet, tar hensyn til faktorer av usikkerhet, legge til koeffisienten λ, kan justeres til. Gjennom noen eksempler på eksisterende tester, kan systemet oppnå bedre klassifisering resultater, for å møte behovet for informasjon klassifisering nøyaktighet. Eksempler-baserte klassifisering basis, bedret vi på sin side, slik at brukeren gir bare stikkord for hver klasse av de uklassifiserte dokumentene kan være effektivt klassifiseres.
Metadata Aurora systemet har følgende egenskaper:

1, til prøven (eller søkeord) i etterspørselen etter små, enkle implementere på den massive dokumentet klassifisering
Metadata automatisk klassifiseringssystem som regnes ugradert dokument på klassifisering av visse faktorer, i stor grad reduserer det nødvendige antall klassifiserte dokumenter. Ifølge statistikk, på 10,000 uklassifisert dokumenter klassifisering, for å oppnå bedre klassifisering resultater, krever den konvensjonelle metoden 2000 prøver klassifisert dokumenter (dvs. klassifisering av dokumenter), og metadata ved hjelp av vårt automatiske system for klassifisering av bare 600 sample dokumentet kan oppnå samme resultat av klassifisering.

2, intelligent klassifisering, nøyaktige resultater
Metadata automatisk klassifiseringssystem å ta intelligent klassifikator å klassifisere dokumentet, gjennom klassifikator trening kan fortsette å oppdatere den opprinnelige klassifiseringen. I kontinuerlig opplæring og læringsprosess, vil klassifikator være mer erfaring, derfor kontinuerlig forbedret klassifisering nøyaktighet stadig bedre, når klassifikator når en stabil tilstand, vil systemet være det beste klassifiseringen resultater .

3, klassifisering av høy pålitelighet
Metadata automatisk klassifiseringssystem basert på statistiske klassifisering av dokumenter ved hjelp av en svært effektiv metode for å kutte ordet, og det engelske ordet for rot-behandling (se Metadata Partner av roten av), slik at ordet informasjon og informasjon i samsvar med det opprinnelige dokumentet, sikre påliteligheten av klassifiseringen prosessen.

4, med tanke på klassifisering av dokumentet er ikke rollen til klassifiseringen å oppnå den optimale staten
I klassifiseringen prosessen, ikke mye større enn det antall prøver klassifisert dokumenter dokumenter, i henhold til EM algoritmen, klassifisering nøyaktighet avhenger i stor grad på uklassifiserte dokumenter. Uklassifisert dokument på klassifisering av de to-fold: å heve eller senke klassifisering nøyaktighet. Hensyntatt denne faktoren, Metadata EM algoritmen for automatisk klassifisering systemet har blitt forbedret, innføringen av koeffisienten λ, for å dokumentere virkningen av ugradert grad av justering. Etter testen vår, tar λ = 0,5.

5, klassifisering hastighet
Fordi metoden som brukes i nøyaktig og effektiv som forutsetning, slik at gjennomføringen av klassifiseringen prosessen var svært rask. Dette er klassifisering av et stort antall dokumenter mulig. I dette tilfellet kan systemet brukes i flere felt å håndtere mer konkret informasjon.

6, med et bredt spekter av formål
Som tidligere nevnt, mange områder i dag, må vi automatisk abstrakt et subsystem skal implementeres i kjernen til å fullføre arbeidet, eller trenger tilgang til informasjon som automatisk abstracting system, den ekstra hjelp av informasjonsbehandling massive data. Derfor vil automatisk samandrag være avgjørende for mange områder av godt arbeid.

Metadata automatisk klassifiseringssystem oversikt diagram er som følger: