A Mozilla kezdeményezése a szabadon elérhető, helyi beszélő számára számítógépes szövegértést megalkotását tűzte ki célul. A Common Voice egy nyilvánosan elérhető hangadatkészlet, amelyet a világ minden tájáról származó önkéntes közreműködők hangja alkot. Azok, akik hangalapú alkalmazásokat készítenek, az adatkészletet a gépi tanulási modellek betanításához használhatják. Jelenleg a legtöbb hangadatkészlet vállalatok tulajdonában van, ami elfojtja az innovációt. A hangadatkészletek szintén felülreprezentálják a fehér, angolul beszélő férfiakat. Ez azt jelenti, hogy a hangalapú technológia egyáltalán nem működik sok nyelven, és ahol működik, előfordulhat, hogy nem mindenkinél teljesít egyformán jól. Ezen szeretnénk változtatni azáltal, hogy mindenhol mozgósítjuk az embereket, hogy megosszák a hangjukat. Az önkéntesek már most is:
- a megadott szöveget felolvashatják mikrofonba, vagy
- ellenőrizhetik a meglévő felolvasásokat.
A feladatok magyar nyelven is végezhetőek, továbbá a magyar adatbázis fejlődését itt lehet nyomon követni és persze felolvasni és ellenőrizni angol nyelven is lehet.
A Common Voice célja a hang-alapú ember-gép kommunikáció megkönnyítése a helyi nyelvi közösségeknek. A manapság népszerű számítógépes tanulást felhasználva, a Mozilla mérnökei szeretnének olyan könnyen felhasználható mintákat előállítani, amelyeket aztán más projektek beépíthetnek az alkalmazásaikba.
Így az alkalmazásokat fel lehetne ruházni a helyi beszélőt megértő honosított hangfelismeréssel, amely fontos a gépi hang alapú kommunikációhoz. Ez a sok beszélővel rendelkező nyelvek esetén megoldott, de az olyan kevés ember által beszélt nyelvek esetén, mint amilyen a magyar is, csak meglehetősen kezdetleges megoldások állnak rendelkezésre. Ráadásul ezek a megoldások minden nyelv esetén jellemzően zárt, kereskedelmi termékek.
A Mozilla célja a beszélt nyelveken – ahol elegendő hozzájárulás lesz – használható nyelvi hangcsomagok előállítása. Ehhez keresünk most a magyar ajkú önkénteseket is. Most adhatod a hangod, hogy segíts nekünk egy nyílt forrású hang-adatbázist építeni, amit bárki szabadon használhat arra, hogy innovatív alkalmazásokat készítsen eszközökre és a webre.
Olvass fel egy mondatot, vagy írj magyar mondatokat, hogy segítsd a gépeket megtanulni, hogyan beszélnek a magyar emberek. Ellenőrizze mások hozzájárulásait, javítva a minőséget. Ilyen egyszerű!
A Mozilla Voice már elérhető magyarul is, de a munka oroszlánrésze még csak most jön!
Először is szövegeket kell gyűjteni, melyeket az önkéntesek majd felolvashatnak. Nagyon fontos, hogy csak közkincsnek minősülő, azaz CC0 licenc alatt lévő szövegeket és saját szövegeket lehet használni, minden jogvédett tartalmat tiltott, például: kedvenc könyv, egy zeneszám szám, egy szöveg. Csak olyat ami már közkinccsé vált – de nem a torrent oldalakon… :D
Emlékeztetőül a Wikipédiáról, hogy mi is az a közkincs: A közkincs egy szellemi alkotásokra vonatkozó (leggyakrabban szerzői jogi) fogalom, mely olyan művet, alkotást jelent, amelynek felhasználására a szerző nem ír elő korlátozást. „A szellemi tulajdon tárgyai azok a szellemi javak (műszaki szellemi alkotások, árujelzők, művek, szomszédos jogi teljesítmények), amelyeket a jogi szabályozás – speciális oltalmi formák révén, előre megszabott feltételekkel – a közkincs köréből időlegesen kivon.”
A beküldött szövegeknek 5-10 másodperc alatt felolvashatóknak kell lenniük, ez gyakorlatban 5-10 szavas mondatokat jelent. Lehetőleg minél változatosabb szóhasználattal kell a mondatokat beküldeni. A mondatokban lehetnek tulajdonnevek, keresztnevek is. Ha a mondatokban számok vannak, azok legyenek szavakkal, helyesen leírva.
Felvettem a kapcsolatot könyvtárakkal így a Magyar Elektronikus Könyvtárral, illetve hangoskönyv készítőkkel. Ha te is tudsz ilyen lehetőségekről, összeköttetésekről, akkor azt kérlek vedd fel a hír készítőjével a kapcsolatot. Ti merre keresnétek közkincsnek minősülő könyveket, írásokat?
Az eddig elkészült adatok itt tölthetők le.
Minden segítséget előre is köszöni a Mozilla!