MoodustamineKolledžid ja ülikoolid

Mis on korpuslingvistika?

Just paar aastakümmet tagasi automatiseerida keeleuurimine, teadlased võiksid vaid unistada. Tööd tehti käsitsi, see meelitab suur hulk õpilasi, on väga tõenäoline, "hooletu" vigu, ja mis kõige tähtsam - see kõik võttis kaua, kaua.

Mis areng infotehnoloogia on saanud võimalikuks uurimistööd suurusjärgus kiiremini, ja täna üks kõige lootustandvamaid suunas uuringus keel on korpuslingvistika. Selle peamiseks iseärasuseks on kasutada suurtes kogustes teksti informatsiooni, info ühte andmebaasi, erilisel moel ja kutsus tähistatud keha.

Praeguseks on palju hooneid loodud erinevatel eesmärkidel põhjal erinevate keeleliste materjali ulatuvad miljonite kümnete miljardite sõnavaraüksusi. See suund on tunnustatud paljutõotav ja näitab märkimisväärseid edusamme kohaldamise ja teaduslikel eesmärkidel. Eksperdid, ühel või teisel viisil suheldes füüsiliste keeles, on soovitatav tutvuda keha tekstid vähemalt algtasemel.

Ajalugu korpuslingvistika

Moodustamise see trend on tingitud loomist USA Browni keha alguses 60-ndatel eelmise sajandi. Kollektsioon sisaldab teksti kõik 1 miljon sõna vormid ja täna keha selle suurus oleks täiesti konkurentsivõimetuks. See on suuresti tingitud tempo areng infotehnoloogia, samuti kasvavat nõudlust uute teadusuuringute vahendeid.

90. korpuslingvistika kujunenud üheks täielikku ja sõltumatut distsipliini, kogumik tekstid on koostatud ja tähistatud kümneid keeli. Sel ajal oli ta loonud, näiteks British National Corpus 100 miljonit märgid.

Mis areng selles valdkonnas lingvistika, tekst mahud on järjest rohkem ja rohkem (ja jõuda miljardeid sõnastik ühikut) ja paigutus muutub üha mitmekesisemaks. Praeguseks on Internet ruumi võib leida rümpade suuline ja kirjalik keel, mitmekeelne ja õppimise orienteeritud kunsti või akadeemilise kirjanduse, nagu ka paljud teised liigid.

Millised on eluaseme

Body liiki kehas lingvistika võib esitada mitmel põhjusel. Intuitiivselt liigitamise alus võib olla teksti keel (vene, saksa), juurdepääsu režiimi (Avatud lähtekoodiga, suletud, kaubik), žanr allikmaterjali (mängu-, dokumentaal-, akadeemilise, ajakirjanduse).

Huvitavad viis tekitab materjalide kõnest. Kuna tahtliku võib sellise kõne luua kunstlik keskkond vastanutest, ja saadud materjali ei saa nimega "spontaanne", kaasaegne korpuslingvistika on läinud teist teed. Vabatahtlik on varustatud mikrofoni ja päevasel ajal rekordiliselt kõik vestlused, milles ta osaleb. Inimesed ümber muidugi ei tea, et käigus igapäevases vestluses kaasa teaduse.

Hiljem sai rekord salvestatud andmebaasi ja on kaasas trükitud teksti ärakirja tüüp. Seega saab võimalikuks juurdehindlus vaja luua suukaudne ööpäevane kõne korpus.

taotlus

Võimaluse keelekasutust, ja võib-olla kasutada hoonete tekste. Meetodid kohaldada laevakere lingvistika võib olla:

  • Loomine programmi määrata võtme, on laialt kasutusel poliitika ja äri jälgida positiivseid ja negatiivseid vastuseid valijate ja klientide jaoks.
  • Connection infosüsteemi sõnastikke ja tõlkijad oma tulemusi parandada.
  • Erinevaid teadus ülesandeid, mis aitavad paremini mõista keele üksuse ajaloo arengut ja prognoosi muutused lähitulevikus.
  • Arendamine otsisüsteemides põhineb morfoloogilised, süntaktilised, semantilised ja muid funktsioone.
  • Optimeerimine eri keelte süsteemid ja teised.

Hoonete kasutamine

sarnane ressurss liides tüüpilise otsingumootor ja küsib kasutaja sisestada sõna või sõnade kombinatsioon otsida infobaasi. Peale moodustavad täpset päringut saab kasutada täiustatud versioon mis võimaldab leida tekstilist teavet peaaegu kõik keelelised kriteeriumid.

Otsi aluseks olla:

  • teatavasse rühma sõnaliikidega;
  • grammatiliste funktsioonide;
  • semantika;
  • stilistilise emotsionaalne värvimine.

Võite ühendada otsing kriteeriumid jada sõnad, näiteks leida kõik esinemistest tegusõna olevikus, ainsuse esimeses isikus, mis tuleb pärast eessõna "in" ja nimisõna accusative juhul. Lahendus selline lihtne ülesanne võtab alla paar sekundit ja nõuab ainult mõne hiireklõpsuga nimetatud aladel.

Loomise protsessi

Otsingu ise saab teostada kõigi subcorpus ja üks spetsiaalselt valitud, sõltuvalt vajadustest saavutada teatud eesmärk:

  1. Esimene samm on määratleda, mis tekstide aluseks puhul. Praktilistel põhjustel on sageli kasutatud ajakirjandusliku, uudised, online-kommentaare. Uurimisprojekti on kasutada mitmesuguseid paketi tüüpi, kuid tekst tuleb valida vastavalt mõned vaidlust.
  2. Saadud kogumise tekste eeltöödelda, on vigade parandamine, kui üldse, valmistada bibliograafilist ja ekstra-keeleline kirjeldus teksti.
  3. Elimineeritakse kõik mittetekstiline teave: Puhastab graafika, pildid, tabelid.
  4. On eraldamise märgid, mis on tavaliselt kõne, edasiseks töötlemiseks.
  5. Lõpuks viiakse morfoloogilised, süntaktilised ja muude märgiste saadakse elementide paljusust.

Tulemuseks on teostatud tehingutest süntaktiline struktuur hajutatud selles elementide paljusust, millest igaüks on tuvastatud sõnaliik, grammatiliste ja mõnel juhul semantiline atribuute.

Raskused loomisel hoonete

On oluline mõista, et ei ole piisavalt kokku panna komplekti sõnu või lauseid keha. Ühest küljest kogumik tekstid peaksid olema tasakaalus, st esindama eri liiki tekste teatud proportsioonides. Teiselt - sisu ümbrise tuleks vahedega erilisel moel.

Esimene probleem on lahendatud kokkuleppe alusel: näiteks kogumine hõlmab 60% ilukirjandustekstides 20% dokumentaalfilme, teatud protsendi antakse kirjalik esitus kõnekeel, seadusandlus, teaduslikud teosed, jne täiuslik retsept tasakaalustada keha täna ei eksisteeri ...

Teine küsimus, mis puudutab sisu paigutus, lahendada keeruline. On olemas spetsiaalsed programmid ja algoritmid automaatseks märgistamiseks tekstid, kuid nad ei anna täiuslikku tulemust, mis võivad põhjustada häireid ja tuleb käsitsi ümber tegema. Võimalused ja väljakutsed selle probleemi kirjeldatakse üksikasjalikult paberi V. P. Zaharova corpus linguistics.

Text Markup rakendatakse mitmel tasandil, mida me loetleda allpool.

morfoloogilised märgistamine

Koolist, me meeles pidama, et vene keeles on sõnaliigiti, ja igaüks neist on oma eripärad. Näiteks tegusõna kategooriad kaldega ajal, mil ei nimisõna. emakeelena kõneleja kõhklematult keeldub nimi- ja konjugeeritud tegusõnad, kuid tähistada keha 100 miljonit. märkide käsitsitöö ei tööta. Kõik vajalikud toimingud saab täita arvuti, aga see tuleb see õpetanud.

Morfoloogilised märgistamine peab arvuti "mõista" iga sõna teatud osa kõnes, millel on teatud grammatiliste funktsioone. Kuna Venemaa (ja mis tahes muu keel) tegutseb korrapäraselt mitmeid reegleid, siis on võimalik ehitada automaatne menetlus morfoloogiline analüüs, investeerides auto mitmeid algoritme. Siiski on erandid, samuti erinevate komplitseerivad faktorid. Selle tulemusena net arvuti analüüs täna ei ole kaugeltki ideaalne, isegi 4% vea annab väärtuse 4 mln. Sõnad kerel 100 miljonit. Osakute nõua käsitsi ümbertegemine.

Detailne raamat kirjeldab probleemi Zaharova V. P. "korpuslingvistika".

süntaktilised märkus

Sõelumise ja sõelumine - protseduur, mis määrab suhted sõnade lause. Kasutades kirjeldatud algoritme on võimalik määrata teksti suhtes, predikaat, täiendused, mitu pööret kõne. Uuri, mis sõnad Põhijada, ja mis - sõltuv, saame tõhusalt saada teavet teksti ja õpetada masin väljastama vastuseks otsingut ainult nõudmisel teabe meid huvitavates.

Muide, kaasaegne otsingumootorid kasutavad seda anda konkreetsed numbrid asemel pikki tekste vastuseks asjakohased päringud nagu "kui palju kaloreid õuna" või "kaugusele Moskvast Peterburi." Kuid selleks, et mõista isegi põhitõdesid kirjeldatud protsessis vajadust konsulteerida "Sissejuhatus korpuslingvistika" või muudeks juhendaja.

semantiline juurdehindlus

Semantika sõna - on Lihtsamalt öeldes tähenduses. Laialdaselt kohaldatavaks lähenemine semantiline analüüs sõna omistamine silte, mis peegeldab tema kuulub komplekti semantilised kategooriad ja alamkategooriad. Selline teave on väärtuslik optimeerimiseks algoritme analüüsida teksti toon, automaat kokkuvõtet ja teisi ülesandeid meetodeid korpuslingvistika.

Seal on mitmeid "root" puu, mis moodustab abstraktne sõna väga laias semantika. Selle puuoksale sõlmede moodustuvad sisaldavad rohkem ja täpsemaid sõnavaraliste elemente. Näiteks sõna "olend" võib olla seotud selliste mõistete kui "inimese" ja "loom". Esimene sõna jätkab hargneda eri kutsealade sugulust poolest, rahvuse ja teine - on klasside ja loomad.

Kasutamine otsisüsteemides

Kasutamise valdkonnad korpuslingvistika katta erinevaid tegevusvaldkondi. Korpused kasutatakse koostamise ja parandamise sõnastikud, luua automaattõlke süsteemid, salvestada, allalaadimise fakte, et määrata kindlaks tooni ja muud teksti töötlemiseks.

Lisaks neid ressursse kasutatakse aktiivselt uuring maailma keelte ja mehhanismid keele toimimisest üldiselt. Juurdepääs suurtes kogustes valmisteavet hõlbustab kiiret ja põhjalik uurimus arengusuunad keeles ning stabiilne moodustumise neologismide kõne kiirus muutus väärtustab sõnavaraüksusi ja teised.

Kuna töö nii suurte andmemahtude nõuab automatiseerimine, täna on vajalik tihe koostöö arvuti ja korpuslingvistika.

Vene riiklik Corpus

Sellisel juhul (lühendatult NKRYA) sisaldab mitmeid subcorpus, võimaldades kasutada ressurssi mitmesuguseid ülesandeid.

Materjalide andmebaasi jagatakse NKRYA:

  • et ajakirjanduses ilmunud '90s ja 2000ndate nii kodumaiste ja välismaiste;
  • salvestamise kõnes;
  • aktsentologicheski tähistatud tekstid (st kaubamärkide stressi);
  • murre kõnes;
  • luule;
  • Materjalide süntaktiline ja muud märgistused.

Infosüsteemi ka Subcorpus paralleelsete teoste tõlked vene keelde, saksa, prantsuse ja paljudes teistes keeltes (ja vastupidi).

Samuti andmebaasis on osa ajaloolise tekstid, esindades kirjaliku kõne vene erinevatel perioodidel selle arengut. Samuti on koolituse keha, mis võib olla kasulik välisriikide kodanike mastering vene keeles.

Vene riiklik Corpus sisaldab 400 miljoni sõnavaraüksusi ja mitmeti ees märkimisväärne osa Euroopa keeli organid.

väljavaated

Fakt kasuks tunnustada seda trendi on kättesaadavus lubades laboris korpuslingvistika vene ülikoolides, samuti välismaa. Kasutades ja teadusteema selle teabe ja otsing ressursside kaasneb arendada teatavaid piirkondi valdkonnas kõrge tehnoloogiate vastustest süsteemid, kuid see on eespool.

Edasiarendamine korpuslingvistika ennustatakse kõigil tasanditel, alates tehnilise ja rakendamise tingimused uued algoritmid, et optimeerida protsesse otsimine ja informatsiooni töötlemine, millega volitatakse arvutid, rohkem RAM ja tarbija, sest kasutajad on rohkem ja rohkem võimalusi kasutada seda tüüpi ressurssi oma igapäevases elu ja töö.

Kokkuvõtteks

Keset eelmise sajandi 2017. tundus kauges tulevikus, kus kosmose reisida läbi universumi ja robotid teha kõik tööd inimestele. Tegelikult teadus on täis "valged laigud" ja tehes meeleheitel katsed vastata küsimustele inimkonna sajandeid häiriv. Küsimused keele toimimisest siin hõivata aukohal ja kapis ja arvutilingvistikas aitab meil neile vastata.

Töötlemise suurte andmekogumite saab tuvastada mustrid, varem ligipääsmatud, ennustada arengu konkreetse keele funktsioonid jälgida moodustamine sõnade peaaegu reaalajas.

Praktilisel tasandil ülemaailmse kaitsed võib näha, näiteks potentsiaalne vahend, et hinnata avaliku meeleolu - Internet on pidevalt ajakohastatud igapäevaselt erinevate tekstide loodud tegelikud kasutajad: see kommentaare ja ülevaateid ja artikleid ning palju muud kõnes.

Lisaks töötavad asutused aitab kaasa sama riistvara, mis on seotud infootsinguks, oleme tuttavad teenuse "Google" või "Yandex", masintõlge, elektroonilised sõnastikud.

Me ei saa kindlalt väita, et korpuslingvistika teeb ainult esimesed sammud ja lähemas tulevikus areneda.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 et.birmiss.com. Theme powered by WordPress.