Legyél Te (is) Magyarország hangja!

kami911 képe

A Mozilla új kezdeményezése a szabadon elérhető, helyi beszélő számára számítógépes szövegértést megalkotását tűzte ki célul.

Újabb projekttel jelentkezik a Mozilla, a szabad internet szószólója. A Common Voice célja a hang-alapú ember-gép kommunikáció megkönnyítése a helyi nyelvi közösségeknek. A manapság népszerű számítógépes tanulást felhasználva, a Mozilla mérnökei szeretnének olyan könnyen felhasználható mintákat előállítani, amelyeket aztán más projektek beépíthetnek az alkalmazásaikba.

Így az alkalmazásokat fel lehetne ruházni a helyi beszélőt megértő honosított hangfelismeréssel, amely fontos a gépi hang alapú kommunikációhoz. Ez a sok beszélővel rendelkező nyelvek esetén megoldott, de az olyan kevés ember által beszélt nyelvek esetén, mint amilyen a magyar is, csak meglehetősen kezdetleges megoldások állnak rendelkezésre. Ráadásul ezek a megoldások minden nyelv esetén jellemzően zárt, kereskedelmi termékek.

A Mozilla célja a beszélt nyelveken – ahol elegendő hozzájárulás lesz – használható nyelvi hangcsomagok előállítása. Ehhez keresünk most a magyar ajkú önkénteseket is. Most adhatod a hangod, hogy segíts nekünk egy nyílt forrású hang-adatbázist építeni, amit bárki szabadon használhat arra, hogy innovatív alkalmazásokat készítsen eszközökre és a webre.

Olvass fel egy mondatot, vagy írj magyar mondatokat, hogy segítsd a gépeket megtanulni, hogyan beszélnek a magyar emberek. Ellenőrizze mások hozzájárulásait, javítva a minőséget. Ilyen egyszerű!

A Mozilla Voice már elérhető magyarul is, de a munka oroszlánrésze még csak most jön!

Először is szövegeket kell gyűjteni, melyeket az önkéntesek majd felolvashatnak. Nagyon fontos, hogy csak közkincsnek minősülő, azaz CC0 licenc alatt lévő szövegeket és saját szövegeket lehet használni, minden jogvédett tartalmat tiltott, például: kedvenc könyv, egy zeneszám szám, egy szöveg. Csak olyat ami már közkinccsé vált – de nem a torrent oldalakon… :D

Emlékeztetőül a Wikipédiáról, hogy mi is az a közkincs: A közkincs egy szellemi alkotásokra vonatkozó (leggyakrabban szerzői jogi) fogalom, mely olyan művet, alkotást jelent, amelynek felhasználására a szerző nem ír elő korlátozást. „A szellemi tulajdon tárgyai azok a szellemi javak (műszaki szellemi alkotások, árujelzők, művek, szomszédos jogi teljesítmények), amelyeket a jogi szabályozás – speciális oltalmi formák révén, előre megszabott feltételekkel – a közkincs köréből időlegesen kivon.”

Ezeket a szövegeket itt lehet beküldeni, maximum ötven mondatonként.

A beküldött szövegeknek 5-10 másodperc alatt felolvashatóknak kell lenniük, ez gyakorlatban 5-10 szavas mondatokat jelent. Lehetőleg minél változatosabb szóhasználattal kell a mondatokat beküldeni. A mondatokban lehetnek tulajdonnevek, keresztnevek is. Ha a mondatokban számok vannak, azok legyenek szavakkal, helyesen leírva.

Lehet még segíteni a már meglévő korpusz magyarra fordításában, de már most is lehet felolvasni angol nyelven.

Felvettem a kapcsolatot könyvtárakkal így a Magyar Elektronikus Könyvtárral, illetve hangoskönyv készítőkkel. Ha te is tudsz ilyen lehetőségekről, összeköttetésekről, akkor azt kérlek vedd fel a hír készítőjével a kapcsolatot. Ti merre keresnétek közkincsnek minősülő könyveket, írásokat?

Hamarosan lehetőség lesz a hang-alapú segítségre is a fenti mondatok felolvasásával. A magyar adatbázis fejlődését itt lehet majd nyomonkövetni.

Az eddig elkészült adatok itt tölthetők le. Ez használható fel a Mozilla DeepSpeech projektjén keresztül szövegfelolvasó alkalmazásokhoz.

Minden segítséget előre is köszöni a Mozilla!