A LF AI & Data Foundation bejelentette a DocLang Specifikációs Munkacsoport megalakulását, amely egy nyílt, AI-nak megfelelő dokumentumformátum szabvány kidolgozására irányuló együttműködést indít.
A munkacsoport a Közös Fejlesztési Alapítvány semleges irányítási modellje alatt működik, biztosítva, hogy egyetlen vállalat se irányítsa az ütemtervet.
A megalapító tagok között szerepel az IBM, az NVIDIA, a Red Hat, az ABBYY és a HumanSignal. A specifikációs dokumentáció ugyanakkor a Forgis-t is alapító tagnak nevezi, de a bejelentés nem említette őket.
Egyébként a DocLang nem az egyetlen dolog, ami itt szerepet játszik. Az open source dokumentumfeldolgozó eszközként ismert Docling kombinálásával, amely szintén az LF AI & Data alatt működik, a kezdeményezés célja egy teljes nyílt forráskódú dokumentum AI stack létrehozása egy helyen.
Együtt a kettő lefedi a teljes folyamatot a dokumentumok feldolgozásától és elemzésétől kezdve a szabványosított reprezentáción át a nyelvi modellek és az agentikus AI rendszerek általi felhasználásig.
A specifikáció már a v0.6 verziónál tart, az Apache 2.0 Licenc alatt elérhető, és a dokumentumok struktúráját és szemantikáját, geometriai elrendezését, oldalszámozását, valamint összetett elemeket, mint táblázatok, diagramok, képletek és kódblokkok tartalmazza.
Natív támogatást nyújt audio, kép és videó tartalomhoz, valamint a dokumentumban közvetlenül beágyazott irányítási metaadatokat, mint például adatvédelmi jelzők és modellképzési korlátozások, ahelyett, hogy külön fájlban tárolnák őket.
Kinek szól?
A fő célcsoport a generatív AI-t és agentikus munkafolyamatokat futtató vállalatok, amelyek nagy dokumentumkészletekkel dolgoznak. Az olyan formátumok, mint a PDF, DOCX és JPEG, emberi felhasználásra készültek, nem gépi értelmezésre.
Amikor az ilyen fájlokat AI folyamatokba táplálják, az olvasási sorrend megzavarodik, a táblázatok sima szöveggé alakulnak, és a számok teljesen eltűnnek. Ennek eredményeként a dokumentum minősége válik szűk keresztmetszetté, nem a modell.
A DocLang azt hivatott megoldani, hogy a folyamatok egyetlen, egyértelmű reprezentációt kapjanak, ahol ugyanaz a dokumentum mindig ugyanazt az eredményt adja, függetlenül attól, hogy melyik eszköz dolgozta fel azt.
Fontos mindazok számára, akik LLM-ekkel és látás-nyelvi modellekkel dolgoznak valós tartalommal. A Docling és az ABBYY FineReader Engine már natívan támogatja a DocLang kimenetet, így a meglévő munkafolyamatok a megfelelő eszközök átalakítása nélkül is átvehetik a szabványt.
A DocLang specifikációját a GitHub oldalon találhatja meg.

