Comparative Agendas projek eredményei részletesen

Comparative Agendas Project – MTA SZTAKI Cloud eredmények

 

Magyar Nemzet korpusz gépi tanulásos osztályozása

A Népszabadság már kódolt cikkeit tanuló halmazként felhasználva a Magyar Nemzet korpusz cikkeinek automatizált kódolását hajtottuk végre gépi tanulásos eljárásokkal. Az eljárás során a kiinduló 35021 Magyar Nemzet cikkből 5023 cikket sikerült kódolni, vagyis a korpusz 14,34%-át. Az eredmények egyrészt nagyon ígéretesek, mert a kódolás pontossága az összes kategóriára nézve átlagosan 94,85%-os volt, ami messze felülmúlja a kézi kódolás során elvárható pontossági küszöbértéket. Másrészt látszik, hogy a viszonylag alacsony kategorizált cikkszám (recall érték) fontos további kutatási kérdéseket vet fel.

 

Mesterséges szótárak létrehozása már kódolt korpuszból

A korpuszok automatizált gépi tanulásos kódolása által felvetett problémák lehetséges kezelésének egyik iránya a korpuszok szakértői szótárak alapján történő automatizált kódolása. A már kódolt korpuszból mesterségesen előállított szótárak létrehozása ennek az iránynak egy lehetséges kiterjesztése. A már osztályozott cikkek szavai és szópárjai alapján kerestünk minél erősebben (magas pontosság, magas recall) az adott témához kapcsolódó kifejezéseket.

 

Német Alkotmány Bíróság határozatainak gépi tanulásos osztályozása

A Comparative Agendas Projecthez kapcsolódóan német kutatókkal együttműködve a német Alkotmány Bíróság határozatainak gépi tanulásos osztályozásán dolgoztunk. A rendelkezésünkre bocsátott 6926 darab határozatból 609 darab volt már kézileg kódolva. Ez egy nagyon kicsi tanuló halmazt jelent, összesen nyolc kódkategória volt, amihez egyenként legalább harminc darab kódolt határozat tartozott. Ennek ellenére az első eredmények nagyon biztatóak. Összesen 186 új helyesen kódolt határozattal tudtuk bővíteni a tanuló halmazt az eljárás alkalmazásának első körét követően. Ez egy 30%-os növekedést jelent a kategorizált határozatok számában, és mindezt a nyolc kódkategóriára vetítve átlagosan 67%-os pontossággal sikerült elérni.

 

Korpuszok gépi tanulásos osztályozása Apache Spark rendszeren

A korpuszok automatizált gépi tanulásos kódolása által felvetett problémák lehetséges kezelésének egyik iránya a nagyobb kapacitású párhuzamos rendszerekkel való dolgozás. A legnagyobb kapacitású magában álló cloud instance-ünkön is korlátozott lehetőségek voltak a futtatás során: többek között részekre kellett bontani a kódolandó korpuszt, hogy le tudjon futni a program, illetve bizonyos beállítások mellett nem is lehetett lefuttatni a programot, mivel azoknak túl nagy lett volna a kapacitásigénye. Az eredményeink javítása érdekében a gépi tanulás során ezek nélkül a korlátok nélkül szeretnének dolgozni a szövegek bekategorizálásán. Ennek érdekben a SZTAKI kutatóival közösen elkezdtük a munkafolyamatunk egy Apache Spark keretrendszerű klaszterre való áthelyezését.

 

Magyar törvények korpuszán végrehajtott témamodellezés (topic modelling)

A témamodellezés (topic modelling) a nagy szöveges korpuszok szemantikai struktúrájának feltárásának egyik eszköze. Látens Dirichlet allokáció segítségével lettek beazonosítva a legfontosabb témák és hozzájuk tartozó kifejezések a magyar törvények korpuszán az 1990-2018-es időszak parlamenti ciklusaira nézve. A kialakított téma modell segítségével megragadhatóvá válik mind a meghatározó témák változása, mind a témákat leginkább jellemző kifejezések elmozdulásai.