Zona
Fotolia 48123350 xs

BUDUĆNOST HRVATSKOG JEZIKA

Riječi nastaju ili dobivaju nova značenja zbog promjena u društvu. Kako sačuvati i obogatiti jezik te čemu služe jezične tehnologije?Pročitajte što o tome govore lingvističari.

Na što pomislite kad čujete riječ tigar? Do 1990., vjerojatno ste pomislili na životinju, no od te godine riječ tigar je u gotovo 50% svih objavljenih tekstova označavala pripadnika Prve gardijske brigade. Riječi nastaju, ili dobivaju nova značenja, zbog promjena u društvu, a stanja i procese koji se događaju u suvremenom hrvatskom jeziku pokušava obuhvatiti Hrvatski nacionalni korpus.
A tko bi nam bolje objasnio što taj korpus zaista je, nego profesor Marko Tadić, glavni istraživač koji ga je, na Zavodu za lingvistiku Filozofskog fakulteta u Zagrebu, i razvio.
"To je zapravo usustavljena zbirka odabranih tekstova, pretežito hrvatskog suvremenog standardnog jezika, koje pokriva različite medije, žanrove, stilove, područja i različitu tematiku. Sam je korpus popračen dodatnim lingvističkim i nelingvističkim podacima i smješten je u bazu podataka kojoj se može pristupiti putem Interneta."

Za koju publiku je korpus namijenjen i što u njega sve ulazi?

Čim je prešao 100 milijuna riječi ovo je postao najopsežniji hrvatski korpus, kojeg javno i slobodno mogu koristiti svi - od jezikoslovaca i profesora, do velikih komercijalnih i malih privatnih korisnika, koji se tek moraju predbilježiti kako bi dobili svoj korisnički račun i zaporku. Korpus uz to može biti itekako koristan i općoj publici, jer u njemu mogu recimo saznati u kojem broju dnevnih novina je neki tekst objavljen, ali i pronaći svaki tekst u kojem je uporabljena određena riječ.

Tadić ističe da u korpusu možete pronaći neku riječ s pripadajućim padežima ili konjugacijama, ali i izvedenicama, te načinom uporabe.
"Mi dobijemo zapravo, iz korpusa, popis svih riječi koje su se pojavile u tome korpusu. E sad je naravno, iz okoline u kojoj se ta riječ pojavila se može lijepo vidjeti jel se ona pojavila u doslovnom značenju, životinje tigar ili u prenesenom značenju, dakle pripadnika gardijske brigade. To se vidi dakle na način da se vidi koje su riječi prethodile toj riječi, odnosno koje ju slijede. I to nije nešto što se, zasada, može raditi automatski, barem analizu značenja ne možemo radit automatski, ali mnoštvo automatski već sad možemo radit - možemo raditi recimo analizu gramatičkih kategorija, dakle u kojem padežu se neka riječ pojavila, odnosno možemo čak pratiti, možemo čak upotrebljavat sustav koji smo razvili, a to je sustav za automatsko prepoznavanje naziva, odnosno imena u hrvatskim tekstovima. Tako da možemo automatski prepoznati recimo nazive osoba, nazive zemljopisnih pojmova, odnosno zemljopisnih mjesta, nazive raznoraznih institucija, dakle ustanova, udruga, tvrtki, organizacija itd."

Korpus može prepoznati i jednostavno novčane ili brojčane, tj. postotne izraze u hrvatskim tekstovima, što predstavlja izuzetno korisni alat poslovnim ljudima. Oni primjerice možda uopće nemaju vremena čitati novinske tekstove, ali su sretni ako to netko može učiniti umjesto njih, vadeći im samo po ključnim riječima ili imenima precizno ono što ih zanima.

Izvori odakle se uzimaju riječi su raznovrsni, napominje Tadić.
"Od dnevnog tiska do suradnje sa nakladničkim kućama, od kojih dobivamo materijal u digitalnom obliku, pa do recimo, ja tvrdim to svojim studentima stalno - u korpus mora ući i ono što se zove neželjena pošta, engleski termin to pokriva sa junk mail. To znači ako vam netko zatakne reklamni letak za brisač vašeg automobila, i taj reklamni letak mora naći svoje mjesto u korpusu, zbog toga što je i to jedan vid uporabe hrvatskoga jezika."

Sam korpus može se koristiti i na neke načine, o kojima njegovi tvorci prilikom kreiranja uopće nisu mislili.
"Recimo dobili smo jedno zanimljivo pitanje, gotovo anegdotalno, jednog kolege koji me pitao može li se taj korpus pretraživat po krajevima riječi, što je kako - odgovor je potvrdan, naravno da se može. A riječ je bilo zapravo o profesoru versifikacije kojeg je zanimalo može li se iz korpusa izvlačiti rima, odnosno mogu li se pronalaziti rime za, na krajevima stihova. To je recimo jedna namjena koja nama, koji smo sastavljali korpus, nikad nije pala na pamet, ali jednome prosvijećenom korisniku je to odmah palo na pamet."

Suvremene pojave u društvu utječu na rječnik i jezične tehnologije

Korpus prvenstveno služi zato da se pokuša uhvatiti stanje i procesi koji se događaju u suvremenom hrvatskom jeziku. Profesor Tadić neke od njih voli citirati svojim studentima, a riječ je o sljedećim primjerima:
"Srećom imamo hrvatski frekvencijski rječnik koji pokriva jezično stanje između 1938. i 1978. godine. I zanimljivo je recimo da u tom rječniku nećete naići na riječ tajkun. Dakle u to vrijeme u hrvatskom jeziku nije bilo riječi tajkun; ili je se nalazilo vrlo rijetko u nekakvim odabranim književnim djelima koja su možda govorila o financijskoj problematici ili poslovnoj. S druge strane danas, u hrvatskom suvremenom jeziku, i tu sa korpusom upravo to možemo pratiti, dakle, negdje od 1990. na ovamo se odjedanput pojavljuje jako puno slučajeva riječi tajkun, i to ne samo tajkun, nego i izvedenica iz te riječi, kao što je tajkunski ili tajkunarija ili tajkunsko politički, dakle nekakva složenica pridjevska i slično. Dakle, to je jedan od mogućih primjera gdje se vidi zapravo kako nove riječi se pojavljuju u hrvatskom jeziku i to uzrokovane prije svega suvremenim pojavama koje se događaju u hrvatskome društvu."

No sastavljanje korpusa i digitalnih rječnika ima vrlo važnu ulogu i u širem kontekstu. Naime usporedno sa stvaranjem jezičnih resursa, na Zavodu za lingvistiku razvijaju se i jezične tehnologije. Te jezične tehnologije bitne su nam iz tog razloga što živimo u vrijeme digitalnih komunikacijskih kanala i praktički je čitava naša komunikacija, htjeli mi to ili ne, okrenuta u digitalnom smjeru ili utemeljena na digitalnoj tehnologiji, pa moramo omogućiti uporabu prirodnog jezika i u takvim komunikacijskim kanalima.

Hrvatski jezik u budućnosti

Također, neminovno je da ćemo kad-tad ući u Europsku uniju, pri čemu ćemo se usmjeriti na informacijsko, tj. društvo znanja, koje ćemo morati ostvariti na hrvatskom jeziku, napominje Tadić.
"Jer je on materinski jezik većine građana Republike Hrvatske, a osim toga je i službeni jezik u Republici Hrvatskoj. Dakle nitko ne može očekivat od nas da ćemo to radit na nekom drugom jeziku, a i da bismo to mogli, da bismo to društvo mogli izgraditi takvim kakvo doista mora biti, moramo imati pomoć jezičnih tehnologija za hrvatski jezik. I to je upravo ono što mi ovdje u Zavodu za lingvistiku, Filozofskog fakulteta Sveučilišta u Zagrebu i radimo. Mi razvijamo raznorazne, ne samo jezične resurse, kao što je Hrvatski nacionalni korpus i Morfološki leksikon hrvatski, kao i druge vrste digitalnih rječnika; mi razvijamo i alate, koji dakle omogućuju obradu tih resursa i izgradnju sustava koji će nam omogućiti jednostavniju uporabu hrvatskog jezika u društvu znanja, odnosno informacijskom društvu."

Bez izgrađenih jezičnih tehnologija, hrvatski ne bi mogao postati ravnopravan s ostalim službenim jezicima u Uniji, dodaje Tadić.
"Ne možemo očekivat da će se svi službeni dokumenti Europske Unije, između ostalog objavljivat i na hrvatskom jeziku kad on postane službeni, bez pomoći jezičnih tehnologija. Mi nećemo moći skupit dovoljan broj prevoditelja, ljudi prevoditelja koji će bit spremni živjet i radit u raznim tijelima Europske Unije i prevodit službenu dokumentaciju i na hrvatski, onog trenutka kad hrvatski bude službeni jezik. Tu će svakako trebati razviti i imati sustave za strojno prevođenje, za strojno potpomognuto prevođenje, sa i na hrvatski, sa engleskog najvjerojatnije, a možda i nekih drugih jezika, službenih jezika Europske Unije."

Znači, čeka nas još puno posla, no veliki korak za hrvatski jezik već je učinjen. A kako neki drugi narodi, kao što su Indijanci mogu sačuvati svoj jezik uz pomoć tehnologije pogledajte u video isječku ispod.






Arhiva