Co všechno skloňování umí?

Proč pouze neskloňuje?

Ačkoliv se může zdát, že skloňování jmen spočívá v pouhém doplnění koncovky, pro získání správného tvaru je potřeba provést řadu dalších operací. Nejdůležitější je správné rozlišení ženského a mužského rodu a určení rolí jednotlivých částí jména – titulů, křestních (rodných) jmen a příjmení.

Většina zpracovávaných dat pochází z internetových formulářů, které každý uživatel vyplňuje trochu jinak. Obsahují velké množství chyb. Nejde pouze o překlepy a absenci diakritiky, ale i psaní jmen v nesprávném pořadí zapsání názvu firmy místo jména osoby nebo vyplnění údaje do nesprávného políčka. Aby byl výstup služby na skloňování příjmení využitelný i mimo laboratorní podmínky, je nutné, aby zvládal takové nesprávné údaje buď odfiltrovat, nebo opravit.

Co systém sklonovani-jmen.cz zvládá

  • Zvládá práci nejen se jmény českého původu, ale také s většinou zahraničních. Nespoléhá na nějakou z principu limitovanou databázi.
  • Rozlišuje ženský a mužský rod. Mnohdy i v případech, že ve jménu chybí diakritika.
  • Stanovuje roli jednotlivých složek jména (určení křestních jmen, příjmení a titulů) bez ohledu na to, v jakém pořadí jsou uvedené. Tituly dokáže identifikovat, i když jsou zapsané bez teček a s chybnou velikostí písma.
  • Odfiltrovává řetězce obsahující názvy firem, poznámky, e-mailové adresy, čísla, adresy apod.
  • Odstraňuje obsah závorek a uvozovek, je-li to vhodné.
  • Ignoruje znaky, které se ve jménech nevyskytují (emotikony, středníky, odrážky), zpracovává oslovení nacházející se ve vstupu, např. „pí Nováková“, „Herr Novak“.
  • Používá správné tituly a hodnosti k oslovení (nalezení titulu odpovídajícímu nejvyšší dosažené úrovni vzdělání či nejvyšší hodnosti)
  • Správně ohýbá jména obsahující předložku a místo původu.
  • Vhodně pracuje s iniciálami zkracujícími křestní či „prostřední“ jména.
  • Citlivě převádí velikost písma tak, aby začínala velkým písmenem následovaným malými znaky s výjimkou těch jmen, která historicky vznikla složením, např. „McDonald“.
  • Odstraňuje duplicitní části jména.
  • Opravuje chyby řetězců vzniklé chybným převodem kódování. Napravuje některé problémy OCR.
  • Dokáže odfiltrovat výstup mnohých spamovacích botů.
  • Odstraňuje duplicitní bílé znaky a zdvojené dlouhé samohlásky.

Příklady výstupu

Tabulka uvádí ukázky rozpoznávání křestních (rodných) jmen a příjmení ze zadaného řetězce pro vytvoření oslovení. Výstup lze podrobně nastavit – viz dokumentace.

Dotaz Výstup
pouzit-prijmeni
Výstup
pouzit-krestni
Poznámka
Tomáš Novák Pane Nováku Pane Tomáši Jméno obsahuje křestní jméno a příjmení, systém vrací požadovanou část.
Novák Tomáš Pane Nováku Pane Tomáši Bylo rozpoznáno, že je jméno pravděpodobně zapsáno obráceně, systém vrací požadovanou část. (Roli jednotlivých položek lze přenastavit.)
Bc. Tomáš Novák, DiS. Pane Nováku Pane Tomáši Ne všechny tituly se používají k oslovení.
Ing. Tomáš Novák, Ph.D Pane doktore Pane doktore K oslovení je použit titul odpovídající nejvyššímu dosaženému vzdělání. (Oslovování titulem lze přenastavit.)
PHd ing Tomáš Novák Pane doktore Pane doktore Dobrý pokus! Jde o totéž jen s chybným zápisem.
Ing.Tomáš Novák Pane inženýre Pane inženýre Na typu oddělovačů složek jména většinou nezáleží. K oddělení titulu stačí tečka.
Jan Tomáš Novák Pane Nováku Pane Jane Tomáši Pokud někdo uvádí více křestních jmen, pravděpodobně chce, aby je ostatní používali. (Lze nastavit, aby systém vracel pouze jednu část.)
Jan T. Novák Pane Nováku Pane Jane Není-li vyžadováno celé jméno, iniciály se k oslovení nepoužívají.
Jana Novák Paní Novák Paní Jano Je-li použito jednoznačně ženské křestní jméno, není nutné, aby bylo příjmení přechýleno. (Je možné si vynutit skloňování podle daného rodu.)
Tomáš Pane Tomáši Pane Tomáši Není-li část jména uvedena, nelze roli ostatních jednoznačně určit.
Milíč z KroměřížePane Milíči z KroměřížePane Milíči z KroměřížePředložky u historických jmen jsou interpretovány.
".Tomáš Novák." Pane Nováku Pane Tomáši Chybně sestavený řetězec nevadí.
Tomáš Novák Novák Pane Nováku Pane Tomáši Duplicitní položky (v tomto případě zopakované příjmení) nevadí.
Tomááš Nováák Pane Nováku Pane Tomáši Znaky s diakritikou se na klávesnici obtížně píší. Opravíme.
Tomáš NovákPane Nováku Pane Tomáši Chyby v kódování opravíme.
• Tomáš❤️ Novák Pane Nováku Pane Tomáši Emoji a mnohé speciální znaky jsou ignorovány.
Tomáš Novák (nejlepší zákazník) Pane Nováku Pane Tomáši Obsah závorek a uvozovek je ignorován …
(Tomáš Novák) Pane Nováku Pane Tomáši … pokud by ovšem po jeho odstranění něco zbylo.
Tomáš Novák ml. Pane Nováku Pane Tomáši Patrně odlišení od otce se stejným jménem. Nevadí!
Slečna Jana Novák Paní Novák Paní Jano Řetězec „slečna“ systém využil k přesnějšímu určení rodu. Do oslovení ho nezačlení.
tomas_novak Pane Novaku Pane Tomasi Na velikosti písma a oddělovači složek jména nezáleží. Diakritiku systém nedomýšlí, protože by tím rozbil jména, která ji obsahovat nemají.
Jana Novotna Paní Novotná Paní Jano U jmen uvedených bez diakritiky systém dopočítává pravděpodobnost, že se jedná o chybu a diakritiku si domýšlí. Ale pouze u koncovky, která by měnila způsob skloňování.
TOMÁŠ mcDonald Pane McDonalde Pane Tomáši Ve výstupu je použito první písmeno velké. Pokud je ve vstupu ve jméně historicky vzniklém spojením s předložkou použito velké písmeno, systém ho zachovává. Je-li předložka uvedena samostatně, není do velikosti písmen zasahováno.
Chyba 5 Chyba 5 Tohle není žádné jméno.
Tomáš 120 Chyba 7 Chyba 7 Vy máte ve jménu číslo?!
Nouz Ovývýchod Pane Ovývýchode Pane Nouzi Jména nejsou validována na základě whitelistu. Vyřazuje pouze řetězce, které jménem s největší pravděpodobností být nemohou.
Aria Stark Paní Stark Paní Ario Systém lze využít i na ohýbání většiny jmen fiktivních a historických postav.
Čedok Vážení Vážení Jde o název firmy. (Oslovení právnických osob lze přenastavit.)
Pekařství Novák Vážení Vážení Asi jiná firma.
Alza Paní Alzo Paní Alzo Španělské ženské křestní jméno. Proto ho systém nevyřazuje jako název firmy.
H2sz4HQ2F Chyba 7 Chyba 7 Spamová hodnota.
HszHQF Chyba 7 Chyba 7 Stále spamová hodnota, jen bez číslic.
tomas@example.com Chyba 7 Chyba 7 Také není jméno.