A beszélt és írott nyelv informatikai feldolgozásában történt előrelépés a Pécsi Tudományegyetemen

A beszélt és írott nyelv informatikai feldolgozásában történt előrelépés a Pécsi Tudományegyetemen

A beszélt és írott magyar szöveg feldolgozását lehetővé tevő – informatikában használatos – nyelvi modellt hoztak létre a Pécsi Tudományegyetemen (PTE) a Microsoft technológiájának támogatásával – közölte a Microsoft Magyarország a sajtó képviselőivel.

A közleményben a fejlesztés indokai közt azt írták: mindenki szívesebben használja az anyanyelvét chat és egyéb automatizált alkalmazásokban, mivel viszont a magyar nyelvet relatíve kevesen beszélik, a vállalkozások részére gyakran nem éri meg kifejleszteni a feldolgozásához elengedhetetlen szoftvereket.

A PTE Alkalmazott Adattudományi és Mesterséges Intelligencia csapata felismerte ezt a problémát, és a nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő természetes nyelvfeldolgozási módszerek kutatásába fogott.

A megoldást egy magyar nyelvű, úgynevezett „BERT” modell létrehozása jelentette. A BERT a Google órásvállalat egyik nyílt forráskódú technológiája, amely a természetes nyelvfeldolgozását hivatott támogatni.

A modern modell – amit a PTE munkatársai alig 200 munkaóra és 1000 euró befektetéssel hoztak létre – támogatja a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A modell működéséhez legalább 3,5 milliárd szót magába foglaló folyószöveg létfontosságú. Ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője például a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles. org térítésmentesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte.

Megjegyezték, hogy a csapat a cég révén alkotott Microsoft Azure mesterséges intelligenciáját és a ONNX Runtime gépi tanulási modellekhez készült, magas produktivitású következtető motort használta.

Közölték: a PTE részére kulcsfontosságú táj lett a mesterséges intelligencia és a felhőalapú tanítás, amióta a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül partnerkapcsolatot épített ki az intézmény az informatikai vállalattal 2019-ben.

mti