Zpracování přirozeného jazyka

Natural Language Processing

Atelier Kamadu vytváří a implementuje unikátní aplikace zaměřené na zpracování přirozeného jazyka (NLP, Natural Language Processing).  V tomto dynamickém oboru se ukrývá například dolování dat z Internetu, pokročilé vyhledávaní, pochopení významu vět, nebo automatické zpracování dokumentů -- od plně strukturovaných (například XML dokumenty), přes polostrukturované (například webové stránky, či tabulky v textových dokumentech) až po nestrukturované dokumenty (například emaily, novinové články, beletrizované životopisy a pod.).

V dalším textu představujeme několik zajímavých NLP aplikací, které jsme v Kamadu vytvořili.

Rozpoznávaní jazyka dokumentu

Představte si společnost, která prodává své výrobky do různých zemí po celém světě. Zákaznícké oddělení zaměstnává několik lidí, kteří mluví různými jazyky. Poštovní server doplněný o aplikaci rozpoznávaní jazyka nejdříve identifikuje jazyk došlé pošty a pak ji přepošle refentovy, který ovládá daný jazyk. Ušetří se tím spousta času a přeposílaní e-mailů mezi referenty.

Aplikace rozpoznávaní jazyka dokáže nejen identifikovat jazyk dokumentu, ale také identifikovat úseky v dokumentech, které jsou napsány určitým jazykem. Aplikace, tak může například zjistit, kolik procent jejích dokumentace je napsáno určitým jazykem.

Aplikace pro rozpoznávání jazyka dokáže rozpoznávat mezi libovolnými jazyky.

big_img_1 img_shadow

Vyhledávání česky

Vyhledávaní pomocí full-textu je dnes standardní metodou, kterou můžete najít téměř na každé webové stránce. Full-text narazí, ale už při jednoduchých dotazech, ve kterých zadáte slovní spojení v prvním pádu (např. fotbalový stadion), ale v textu se vyskytují pouze tvary v jiných pádech (např. fotbalové stadiony). Pro češtinu je full-text nevyhovující, protože ignoruje bohaté možnosti skloňování a časování slov. Ohebností slov, ale problémy nekončí. Představte si, že zákazník Vašeho eshopu hledá model vláčku. Použije vyhledávaní, do kterého zadá slovo vláček. Problém nastává, když ve vašem eshopu nabízíte modely vlaků a ne vláčků, nebo dokonce prodáváte jen modely lokomotiv.

Vyhledávaní od Kamadu řeší popsané a mnohé další úskalí full-textového vyhledávaní. Pomocí nástrojů jazykové analýzy textu indexujeme data tak, aby se klíčová slova vyhledávala bez zřetele na skloňování či časování, nebo s použitím synonymických ontologií a taxonomií. Uživateli se pak kromě modelů vlaků nabídnou také modely lokomotiv a dalších drážních vozidel.