RECENS HuTongue projekt tervekről részletesen

Köszönjük, hogy lehetőséget kapunk az MTA Cloud használatára. A HuTongue nevű (RECENS HuTongue spontán beszéd szövegkorpusz létrehozása és elemzése) MTA Cloudbeli projektben kutatócsoportunk az emberi pletyka mibenlétét vizsgálva egy egyedülálló korpuszt épített, amely 550 órányi magyar nyelvű, spontán beszélgetést tartalmaz. A nemzetközi tekintetben is páratlan korpusz hozzájárul annak az eddig kevéssé alátámasztott hipotézisnek az ellenőrzéséhez, hogy tényleg az emberi informális kommunikáció kétharmadát képezi-e a pletyka, és hogy a megjelenés kontextusában mi a funkciója, jellemzője és esetleges hatása. A korpusz szemantikus annotációja lehetővé teszi, hogy az informális kommunikáció mélyebb struktúráit is megismerhessük (pl. előfordul-e a halkabb beszédtónus pletyka közlésekor, vagy jellemzőbb-e a pletyka előfordulása kisebb csoportban).

A korpusz építésének folyamatát a 2018-ban a Magyar Tudományban megjelent cikk írja le (Galántai J., Pápay B., Kubik B., Szabó M.K. és Takács K. 2018. A pletyka a társas rend szolgálatában. Az informális kommunikáció struktúrájának mélyebb megértéséért a Computational Social Science eszközeivel. Magyar Tudomány, 2018/07, DOI: 10.1556/2065.179.2018.7.5.). A nagy szövegkorpusz eltárolása az MTA Cloudon egy olyan adatbázisban történik, amely hatékonyan képes nagy mennyiségű szöveget rögzíteni és kereshetővé tenni (Elasticsearch). A szöveges keresőmotor képes a teljes korpuszunk megbízható tárolására és gyorskereső, összegző és akár elemzési műveletek végrehajtására is. Az MTA Cloud kínálta lehetőségek azonban nem elsősorban a tároláshoz, hanem a korpusz gyors elemzéséhez kapcsolódnak. Ennek köszönhetően került sor a korpusz topic modellezésére és ebből született több konferencia-előadás és cikk is (pl. Pápay, Boróka, Balint Gyorgy Kubik, and Júlia Galántai. “Gossip is more than just story telling. Topic modeling and quantitative analysis on a spontaneous speech corpus.” In: Alípio Mário Jorge, Ricardo Campos, Adam Jatowt, Sérgio Nunes (ed.): Proceedings of the Text2StoryIR’18 Workshop, Grenoble, France, 26-March- 2018 Vol-2077 (2018): 15–23.). A korpuszból készült LDA topic modell eredményeiből született cikk, valamint egy diskurzus elemzés tanulmány jelenleg elbírálás alatt áll.
Az MTA Cloud további használatának során tervezzük a korpusz szentiment-elemzését, valamint a pletyka struktúrájának kvantitatív szövegelemzését. Az eredményeket nemzetközi folyóiratokban kívánjuk publikálni.