Co všechno skloňování umí?
Proč pouze neskloňuje?
Ačkoliv se může zdát, že skloňování jmen spočívá v pouhém doplnění koncovky, pro získání správného tvaru je potřeba provést řadu dalších operací. Nejdůležitější je správné rozlišení ženského a mužského rodu a určení rolí jednotlivých částí jména – titulů, křestních (rodných) jmen a příjmení.
Většina zpracovávaných dat pochází z internetových formulářů, které každý uživatel vyplňuje trochu jinak. Obsahují velké množství chyb. Nejde pouze o překlepy a absenci diakritiky, ale i psaní jmen v nesprávném pořadí zapsání názvu firmy místo jména osoby nebo vyplnění údaje do nesprávného políčka. Aby byl výstup služby na skloňování příjmení využitelný i mimo laboratorní podmínky, je nutné, aby zvládal takové nesprávné údaje buď odfiltrovat, nebo opravit.
Co systém sklonovani-jmen.cz zvládá
- Zvládá práci nejen se jmény českého původu, ale také s většinou zahraničních. Nespoléhá na nějakou z principu limitovanou databázi.
- Rozlišuje ženský a mužský rod. Mnohdy i v případech, že ve jménu chybí diakritika.
- Stanovuje roli jednotlivých složek jména (určení křestních jmen, příjmení a titulů) bez ohledu na to, v jakém pořadí jsou uvedené. Tituly dokáže identifikovat, i když jsou zapsané bez teček a s chybnou velikostí písma.
- Odfiltrovává řetězce obsahující názvy firem, poznámky, e-mailové adresy, čísla, adresy apod.
- Odstraňuje obsah závorek a uvozovek, je-li to vhodné.
- Ignoruje znaky, které se ve jménech nevyskytují (emotikony, středníky, odrážky), zpracovává oslovení nacházející se ve vstupu, např. „pí Nováková“, „Herr Novak“.
- Používá správné tituly a hodnosti k oslovení (nalezení titulu odpovídajícímu nejvyšší dosažené úrovni vzdělání či nejvyšší hodnosti)
- Správně ohýbá jména obsahující předložku a místo původu.
- Vhodně pracuje s iniciálami zkracujícími křestní či „prostřední“ jména.
- Citlivě převádí velikost písma tak, aby začínala velkým písmenem následovaným malými znaky s výjimkou těch jmen, která historicky vznikla složením, např. „McDonald“.
- Odstraňuje duplicitní části jména.
- Opravuje chyby řetězců vzniklé chybným převodem kódování. Napravuje některé problémy OCR.
- Dokáže odfiltrovat výstup mnohých spamovacích botů.
- Odstraňuje duplicitní bílé znaky a zdvojené dlouhé samohlásky.
Příklady výstupu
Tabulka uvádí ukázky rozpoznávání křestních (rodných) jmen a příjmení ze zadaného řetězce pro vytvoření oslovení. Výstup lze podrobně nastavit – viz dokumentace.
Dotaz | Výstup pouzit-prijmeni | Výstup pouzit-krestni | Poznámka |
---|---|---|---|
Tomáš Novák | Pane Nováku | Pane Tomáši | Jméno obsahuje křestní jméno a příjmení, systém vrací požadovanou část. |
Novák Tomáš | Pane Nováku | Pane Tomáši | Bylo rozpoznáno, že je jméno pravděpodobně zapsáno obráceně, systém vrací požadovanou část. (Roli jednotlivých položek lze přenastavit.) |
Bc. Tomáš Novák, DiS. | Pane Nováku | Pane Tomáši | Ne všechny tituly se používají k oslovení. |
Ing. Tomáš Novák, Ph.D | Pane doktore | Pane doktore | K oslovení je použit titul odpovídající nejvyššímu dosaženému vzdělání. (Oslovování titulem lze přenastavit.) |
PHd ing Tomáš Novák | Pane doktore | Pane doktore | Dobrý pokus! Jde o totéž jen s chybným zápisem. |
Ing.Tomáš Novák | Pane inženýre | Pane inženýre | Na typu oddělovačů složek jména většinou nezáleží. K oddělení titulu stačí tečka. |
Jan Tomáš Novák | Pane Nováku | Pane Jane Tomáši | Pokud někdo uvádí více křestních jmen, pravděpodobně chce, aby je ostatní používali. (Lze nastavit, aby systém vracel pouze jednu část.) |
Jan T. Novák | Pane Nováku | Pane Jane | Není-li vyžadováno celé jméno, iniciály se k oslovení nepoužívají. |
Jana Novák | Paní Novák | Paní Jano | Je-li použito jednoznačně ženské křestní jméno, není nutné, aby bylo příjmení přechýleno. (Je možné si vynutit skloňování podle daného rodu.) |
Tomáš | Pane Tomáši | Pane Tomáši | Není-li část jména uvedena, nelze roli ostatních jednoznačně určit. |
Milíč z Kroměříže | Pane Milíči z Kroměříže | Pane Milíči z Kroměříže | Předložky u historických jmen jsou interpretovány. |
".Tomáš Novák." | Pane Nováku | Pane Tomáši | Chybně sestavený řetězec nevadí. |
Tomáš Novák Novák | Pane Nováku | Pane Tomáši | Duplicitní položky (v tomto případě zopakované příjmení) nevadí. |
Tomááš Nováák | Pane Nováku | Pane Tomáši | Znaky s diakritikou se na klávesnici obtížně píší. Opravíme. |
Tomáš Novák | Pane Nováku | Pane Tomáši | Chyby v kódování opravíme. |
• Tomáš❤️ Novák | Pane Nováku | Pane Tomáši | Emoji a mnohé speciální znaky jsou ignorovány. |
Tomáš Novák (nejlepší zákazník) | Pane Nováku | Pane Tomáši | Obsah závorek a uvozovek je ignorován … |
(Tomáš Novák) | Pane Nováku | Pane Tomáši | … pokud by ovšem po jeho odstranění něco zbylo. |
Tomáš Novák ml. | Pane Nováku | Pane Tomáši | Patrně odlišení od otce se stejným jménem. Nevadí! |
Slečna Jana Novák | Paní Novák | Paní Jano | Řetězec „slečna“ systém využil k přesnějšímu určení rodu. Do oslovení ho nezačlení. |
tomas_novak | Pane Novaku | Pane Tomasi | Na velikosti písma a oddělovači složek jména nezáleží. Diakritiku systém nedomýšlí, protože by tím rozbil jména, která ji obsahovat nemají. |
Jana Novotna | Paní Novotná | Paní Jano | U jmen uvedených bez diakritiky systém dopočítává pravděpodobnost, že se jedná o chybu a diakritiku si domýšlí. Ale pouze u koncovky, která by měnila způsob skloňování. |
TOMÁŠ mcDonald | Pane McDonalde | Pane Tomáši | Ve výstupu je použito první písmeno velké. Pokud je ve vstupu ve jméně historicky vzniklém spojením s předložkou použito velké písmeno, systém ho zachovává. Je-li předložka uvedena samostatně, není do velikosti písmen zasahováno. |
Chyba 5 | Chyba 5 | Tohle není žádné jméno. | |
Tomáš 120 | Chyba 7 | Chyba 7 | Vy máte ve jménu číslo?! |
Nouz Ovývýchod | Pane Ovývýchode | Pane Nouzi | Jména nejsou validována na základě whitelistu. Vyřazuje pouze řetězce, které jménem s největší pravděpodobností být nemohou. |
Aria Stark | Paní Stark | Paní Ario | Systém lze využít i na ohýbání většiny jmen fiktivních a historických postav. |
Čedok | Vážení | Vážení | Jde o název firmy. (Oslovení právnických osob lze přenastavit.) |
Pekařství Novák | Vážení | Vážení | Asi jiná firma. |
Alza | Paní Alzo | Paní Alzo | Španělské ženské křestní jméno. Proto ho systém nevyřazuje jako název firmy. |
H2sz4HQ2F | Chyba 7 | Chyba 7 | Spamová hodnota. |
HszHQF | Chyba 7 | Chyba 7 | Stále spamová hodnota, jen bez číslic. |
tomas@example.com | Chyba 7 | Chyba 7 | Také není jméno. |