Novinky na sklonovani-jmen.cz

15. 2. 2024

  • Vylepšena práce s jihoslovanskými jmény.
  • Přidáno dalších několik set zpracovaných křestních jmen a příjmení.
  • Aktualizace zabrala 108 hodin práce.

1. 2. 2024

  • Systém zpracovává i jména zapsaná v ukrajinské cyrilici. Transliterace se provádí na základě výslovnosti v původním jazyce. Protože jazyky psané cyrilicí (také ruština, běloruština, srbština, bulharština a další) systém nedokáže spolehlivě rozlišit, chápe jména zapsaná cyrilicí jako ukrajinská. Ta se u nás ohýbají nejvíce.
    V některých případech jsou jména zadaná v cyrilici ohýbaná jinak, než kdyby byla předem převedená do latinky: je-li v češtině možné více variant, je použita ta bližší ukrajinštině.
  • Upraven systém práce se jmény, u nichž došlo k převodu cyrilice do angličtiny nebo francouzštiny. (Což je pro češtinu nevhodné použití.) Například oslovení nositelky jména Mariia je nově paní Marije místo paní Marie. To více odpovídá východoslovanským jménů.
  • Na aktualizaci se pracovalo od podzimu; zabrala přes 280 hodin.

28. 1. 2024

  • Formulář pro zpracování seznamu jmen byl přesunut na úvodní stránku.
  • Došlo k úpravě ceníku. Ceny byly zvýšeny v průměru o 15 %. Tím jsem do něj promítl předchozí půlrok intenzívní práce.

22. 1. 2024

15. 1. 2024

  • Nově systém umí zpracovávat i jména původně psaná cyrilicí a transliterovaná přes angličtinu. (Správným postupem je transliterace přímo do češtiny, protože angličtina je se slovanskými jazyky málo příbuzná, a proto dochází ke značným zkreslením výslovnosti.) Týká se to jmen ukrajinských, ruských, běloruských a srbských. Například Mariia správné oslovení není paní Mariio, ale paní Marie.
  • Vylepšena práce s příjmeními z románských jazyků, především francouzštiny, rumunštiny a portugalštiny.
  • Byl přepracován systém jmen obsahujících pohybné -e-. Výsledky jsou nyní bližší přirozenému jazyku. Například oslovení nositele příjmení Plamen není pane Plamene, nýbrž pane Plameni nebo Anděl > pane Anděli.
  • Upraveno rozhodování, zda jméno končící na „a“ s diakritikou je spíše chyba v českém „á“, nebo do zahraniční varianty patří. Týká se to znaků å, â, ä, à, ă, ã, ą a ā.
  • Aktualizace zabrala 216 hodin práce.

29. 12. 2023

15. 12. 2023

  • Systém nově umí pracovat se širokou škálou zdrobnělin a domáckých variant křestních jmen. Například pozná, že „Honzík Novák“ je Jan Novák nebo že „Janča“ je nejspíše holka (stále ale počítá i s tím, že se toto jméno používá i pro kluky). Při zpracování zdrobnělin a domáckých variant je potřeba pamatovat na to, že většina českých příjmení historicky vznikla právě z těchto tvarů, tudíž že spolehlivějších výsledků dosáhnete se základní variantou jména.

5. 12. 2023

  • Vygeneroval jsem pár desítek stránek se všemi tvary jmen jako ukázku, jak systém dokáže s antroponymy pracovat.

17. 11. 2023

  • Shromáždil jsem literaturu, kterou jsem dosud využil při vývoji tohoto webu.
  • Všechny typy pomlček jsou ve jménech nahrazované spojovníkem.
  • Interpunkční znaménka, se kterými systém dokáže pracovat, (tedy uvozovky, závorky apod.) byly doplněny i o exotické varianty, které občas ve jménech zůstávají po automatické transliteraci.
  • Zlepšena práce se jmény arabského původu.

7. 11. 2023

  • V dokumentu popisujícím práci s osobními údaji bylo explicitně uvedeno, že data (s výjimkou fakturačních údajů) z aplikace se nepředávají žádné třetí osobě.

2. 11. 2023

  • Hodnota parametru osloveni-firmy=ano nově vypíná ověření, že zadané jméno je jménem. To se může hodit při ohýbání historických jmen, která by systém mohl chybně považovat za firemní název.
  • Vylepšeno ponechávání velkého písmene uprostřed jména, které historicky vzniklo z předložky.
  • Zlepšeno detekování akademických titulů, které zněním kolidují s křestními jmény či příjmeními.

29. 10. 2023

  • Opraven bug v logu (historie dotazů), který uváděl nesprávný zdroj dat v případě chyb.
  • Opraven bug v API při získávání informací o předplatném účtu.
  • Platba přes PayPal byla vyčleněna na samostatnou stránku, aby se nestahovaly soubory PayPalu uživatelům, kteří o tento způsob platby zájem nemají.

23. 10. 2023

  • Opraven bug při skloňování jmen Mac a Fitz, kterým systém přidával koncovky psané velkými písmeny.
  • Systém umí další akademické tituly (např. polský „Lic.“ a americký „SM.“); a to i některé překlepové varianty (např. „MgrA“, „P.HD.“); opravena práce s titulem „dr.“
  • Ve jméně jsou nově ignorovány zkratky „mld.“ a „sn.“
  • Pokud je požadováno příjmení a zadané jméno obsahuje pouze křestní jméno a iniciálu, systém vrátí tvar křestního jména. Na dotaz „Josef N“ tak je vráceno „Pane Josefe“ místo „Pane N.“. Je-li požadováno pouze příjmení nebo pouze křestní jméno, je ignorováno druhé jméno psané iniciálou, např. „Tomáš W. Novák“ vrátí „Pane Tomáši“.
  • Zlepšení identifikace, že zadaný řetězec není osobním jménem, nýbrž názvem firmy.

16. 10. 2023

  • Dávkové zpracování umožňuje zpracovat seznam 50 jmen zdarma i bez přihlášení. K dispozici je skloňování, určení mužského či ženského rodu a vytvoření přivlastňovacího tvaru.

11. 10. 2023

  • Upravena práce s řetězci obsahujícími závorky: nově není její obsah ignorován, pokud by v řetězci nezbyl dostatečně dlouhý text. Není-li závorka uzavřená z obou stran, je použita část, která by byla mimo závorku. Nezbývá-li dostatečně dlouhý text, je použita část mimo pomyslnou závorku. Toto nastavení vrací nejlepší výsledky. Týká se všech používaných typů závorek (kulatých (), hranatých [], ostrých <>, složených {}, lomených⟨⟩, dvojitých ⟦⟧, 《》 či 【】 a dalších), dále uvozovek českých „“ i bočních «».
  • Významně vylepšena detekce, že zadaný řetězec obsahuje něco jiného než občanské jméno, tedy poznámku, název firmy, název města či ulice apod.
  • Ve jméně jsou ignorovány některé identifikované certifikáty, např. „DECEIM“, které se k oslovování nepoužívají.

5. 10. 2023

  • Opraven bug při volání API s parametrem format=json vzniklý při předchozí aktualizaci.

4. 10. 2023

  • Zpřesněno vyřazování názvů, které se největší pravděpodobností náleží firmám a ne fyzickým osobám.
  • Výrazně upraven algoritmus určování rodu (pad=0). Celkově bylo cca 12 % jmen přeřazaných z mužských či ženských do obourodých nebo z obourodých do mužských nebo ženských. Byla odstraněna nesystémovost, kdy systém u správně uvedených jmen vracel ženský rod pouze v případě, kdy se jméno vůbec nepoužívá v mužském rodě, ovšem u jmen bez diakritiky několik let vracel pouze hodnoty žena nebo muž. Například na dotaz „Kateřina“ systém vracel hodnotu „fm“, protože se vzácně používá i jako mužské příjmení, zatímco na dotaz „Katerina“ vracel „f“. Nyní v obou případech vrací „f“. Změna ovlivnila především dotazy obsahující pouze jednu položku jména. Původně systém vracel „fm“ v 10 % případů, nyní je to cca 5 %.
  • Zpřesněno určování rodu a rozlišování křestních jmen od příjmení se zaměřením na západoevropské a jihoevropské jazykové skupiny. Například podíl anglických jmen, u kterých systém nedokázal stanovit rod, se snížil o 32 %, u francouzských o 26 % a italských o 18 %.
  • Oprava někdy nesprávného vyřazování rodného jména, které ve jménech figuruje jako mužské rodné (křestní) jméno nebo příjmení.
  • Jsou opravovány zdvojené samohlásky. Například „Nováákováá“ je opravována na „Nováková
  • Systém je opatrnější v nahrazování diakritiky v koncovce jmen uvedených bez čárek, aby tolik nenahrazoval zahraniční -ova českým -ová.
  • Byla zlepšena práce se dvojenými jména. To jsou rodná jména či příjmení obsahující spojovník.
  • Upraven algoritmus určující, zda bude ve jménu zachováno pohybné -e-, a to k větší tendenci jej zachovávat. (Vyskytuje se zejména ve jménech končících na -el a -ec.)
  • Jsou ignorovány duplicitní rodná jména a příjmení. Na dotaz „Josef Josef Novák“ či „Josef Novák Novák“ systém vrátí v pátém pádu „Josefe Nováku“.
  • Výše uvedené úpravy ovlivnily 2,85 % dotazů. Jde o největší aktualizaci za poslední roky.

12. 9. 2023

  • Zpřesněno určování rodu zejména u jmen pocházejících z Balkánského poloostrova. U této skupiny jmen se snížil podíl jmen, která nejde určit, o 17 %.
  • Upraveno určování, zda jméno zapsané bez diakritiky ji obsahovat nemá, nebo je jen nejsprávně zapsané. Změna se dotkla cca 6 % těchto jmen.
  • Opraven bug, ke kterému docházelo při určitých kombinacích nastavení zpracování seznamu jmen.

5. 9. 2023

  • Opraven MIME typ výstupu chyb při použití parametru format=json.

4. 9. 2023

  • Vylepšeno určování vietnamských, tureckých a arabských rodných jmen.
  • Zpřesněno určování rodu u obourodých jmen a jmen zapsaných bez diakritiky. (Změna se průměrně týká 935 jmen z milionu.)
  • Zlepšena práce s litevskými, lotyšskými a estonskými příjmeními.

20. 8. 2023

  • Nově lze přivlastňovací přídavná jména generovat i přes API, a to s využitím parametru privlastnovaci-rod. Jedná se o beta testování s 90% slevou.
  • Parametr pad může nově při využití parametru privlastnovaci-rod nabývat i hodnoty „1“. Při generování podstatného jména tato hodnota (zatím) využitelná není.

18. 8. 2023

  • Jako hodnotu parametrů pouzit-krestni a pouzit-prijmeni je možné použít příslušné položky jména a tím upřesnit určení rodu u obourodých jmen či stanovit roli těch položek, které mohou sloužit jak jako příjmení, tak jako křestní (rodné) jméno. Využití těchto hodnot parametrů je v beta testování.
  • Oprava výchozí hodnoty titulu u požadavků API bez uvedeného (zastaralého) parametru tvar, chyba vznikla při předchozí aktualizaci. Systém místo pouhého titulu vracel titul a příjmení. Opravené tvary chybně zpracovaných požadavků rozešlu klientům e-mailem.
  • Oprava situace, kdy je uvedeno několik titulů a žádné jméno. Systém v tomto případě nově vrací chybu 7: Řetězec zadaný v parametru jmeno s největší pravděpodobností není jménem ani fyzické, ani právnické osoby.

17. 8. 2023

  • API je možné místo původního parametru tvar použít kombinaci parametrů pouzit-krestni, pouzit-osloveni, pouzit-prijmeni a pouzit-titul. Jejich použití je výrazně intuitivnější než původního poněkud obskurního čtyřciferného kódu. Viz dokumentace.
  • Bylo upraveno formátování dokumentace, aby byla přehlednější.

5. 8. 2023

  • U předložek ve jméně nově nezáleží na velikosti počátečního písmene. Například krále „Jiřího z Poděbrad“ systém rozpozná i se zápisem „Jiří Z Poděbrad“. Předložkami se bude podrobně zabývat některá z dalších aktualizací.
  • Opravena chyba, která měnila pořadí akademických titulů u parametru tvar=x4xx. Použití této hodnoty parametru již nebude zkratky titulů opravovat. Zahraniční tituly totiž nemají napříč státy standardizovanou pozici před/za jménem, použití teček a mezer. Hrozí tak, že by tato funkcionalita rozbila správně zapsané jméno.
  • Kromě „pane“, „paní“ a „pí“ systém nově identifikuje i označení muže a ženy v jiných jazycích. A sice „Mrs“, „Frau“, „Mme“, „Señora“, „Sra“, „Sig.ra“, „Signora“, „Pani“ a „Hölgy“ pro ženu a „Mr“, „Herr“, „Hr“, „Señor“, „Sr“, „Sig“, „Signor“ a „Úr“ značící muže.
  • Systém nově vyřazuje obsah i neuzavřené závorky. Na „Josef Novák (Brno“ tak místo chyby vrátí „pane Nováku“.

3. 8. 2023

  • Znaky ¨ a ° jsou nově z řetězce vyřazovány. Dosud vyvolávaly chybu „7: Řetězec zadaný v parametru jmeno s největší pravděpodobností není jménem ani fyzické, ani právnické osoby.
  • Jsou vyřazována jména obsahující příjmení v množném čísle, např. „Novákovi“. Nově pokud jde o 5. pád, systém vrátí osloveni-firmy. (Ve výchozím stavu: „Vážení“.) V ostatních případech vrací chybu „8: Řetězec zadaný v parametru jmeno je jménem právnické osoby.“.
  • Analýzou logů bylo dohledáno dalších 62 zahraničních akademických titulů. Většina odpovídá bakalářskému studiu; nově je systém dokáže rozpoznat a vyřadit je. (Není zvykem s těmito tituly odpovídajícími nižšímu vzdělání pracovat.)

31. 7. 2023

  • Při zpracování seznamu jmen je nově možné vytvořit přivlastňovací přídavná jména. (Např. „Josef Novák“ → „Josefovo hodnocení“; „Lucie Novotná“ → „3 Luciiny příspěvky“; „Fjodor Michajlovič Dostojevskij“ → „Dostojevského romány“).
    A to se 90% slevou.
  • Byl zcela přepracován systém akademických a vědeckých titulů. Dosud jsme si vystačili se 40 tituly, nově jich používáme kolem 300. Tituly jsou identifikovány, i když jsou zapsané bez tečky, se špatnou velikostí písmem nebo v nesprávném pořadí (před či za jménem, dokonce i uprostřed). Dále jsou nově rozpoznávány některé další vědecké, vojenské a policejní hodnosti. Obsahuje-li jméno hodnost, je na oslovení použita ta, případně je zvolen titul odpovídající nejvyšší úrovni vzdělání
  • Bylo změněno oslovení nositelů některých již neudělovaných titulů. Např. „Ing. Josef Novák, CSc.“ je oslovován „pane doktore“ místo dosavadního „pane inženýre“. To je však oslovení odpovídající magisterskému studiu. Pan Novák by dnes místo titulu CSc. obdržel Ph.D.
  • Zlepšil jsem rozpoznávání, zda zadaný řetězec může být občanským jménem. A to podle délky (systém zpracovává pouze texty do 55 znaků, u delších je nepravděpodobné, že by šlo o jméno), opakujících se znaků, speciálních znaků apod. Nově jsou vyloučeny řetězce obsahující pouze kombinace titulů.
  • Nově se dokážeme zotavit z dalších chyb vzniklých nesprávně sestaveným dotazem, převodem kódování či nepovedeným OCR, jsou vyřazovány některé speciální znaky, například „'+Jana;; KonˇaĹ™Ăková ml🫠“ → „Jany Koňaříkové“.

21. 6. 2023

  • Možnost vygenerovat si zálohovou fakturu jako podklad pro účetní oddělení.
  • Na úvodní stránce lze kromě oslovení vyzkoušet i druhý pád (koho, čeho) zadaného jména.

15. 6. 2023

  • Implementovaná možnost platby přes PayPal.

18. 2. 2023

  • „Ruční“ zásahy do systému filtrujícího názvy právnických osob.

6. 7. 2022

  • Manuální korektura 10 000 nahodile zvolených vracených tvarů.

4. 4. 2022

  • Oprava předchozí aktualizace. Chyba způsobila nižší efektivitu, než na kterou byla vyladěná a testovaná. Opravená změna se průměrně dotkla 4,2 jmen z 1000.

1. 4. 2022

  • U ženských příjmení psaných bez diakritiky byla zvýšena pravděpodobnost správného vráceného tvaru u všech pádů. (Viz poslední aktualizace) Například „Jana Podlesna“ vrátí ve druhém pádu tvar „Jany Podlesné“, nikoliv „Jany Podlesny“.

22. 3. 2022

  • U ženských příjmení psaných bez diakritiky byla zvýšena pravděpodobnost správného určení rodu. Změna se aktuálně projeví pouze při určování pohlaví. Například u jména „Borcicka“ systém správně určí, že se jedná o ženské jméno. Přesto není vhodné zadávat jména bez diakritiky, protože takový tvar často koliduje s jinou variantou, která může patřit jinému rodu. (Paní Šťastná vs pan Šťastna, Malá vs Mála, Holá vs Hola, Hejná vs Hejna…)
  • Vícenásobné mezery (přesněji řečeno libovolná kombinace „bílých znaků“) mezi položkami jména jsou ve výstupu nahrazeny jedinou mezerou. Analýzou bylo zjištěno, že například oddělení křestního jména a příjmení tabulátorem je omyl, a proto není žádoucí, aby jej tam systém vracel.
  • Bylo výrazně zrychleno zpracování seznamů jmen formou dávek.

9. 2. 2022

  • Opravena chyba ve tvarech 2. pádu u mužských jmen končících na -c, jemuž předchází tvrdá souhláska.

2. 12. 2021

  • E-mail s upozorněním na blížící se vyčerpání kreditu odchází nově v okamžiku, kdy na účtu zbývá 20 % místo původních 10 % kreditu, aby měl zákazník více času zareagovat.

19. 10. 2021

  • Ruční korektura 10 000 tvarů 2. pádu.

30. 8. 2021

5. 8. 2021

  • Opravena chyba v generování tvaru 7. pádu. Protože ovlivnila 0,5 % generovaných jmen (příliš vysoká chybovost), zaslal jsem uživatelům, jichž se dotkla, opravený export tvarů.

23. 6. 2021

  • Ruční korektura 8 000 jmen.

7. 4. 2021

  • Klientům se vypisují v administraci seznam posledních 1000 dotazů jak zaslaných prostřednictvím API, tak zpracovaných dávkově.

5. 3. 2021

  • Aktualizace dokumentace.

11. 12. 2020

  • Oprava upozorňování na e-mail, že na účtu zbývá méně než 10 % kreditu.

29. 10. 2020

  • Ruční korektura 12 500 jmen.

12. 9. 2020

  • Oprava velikosti znaku následujícího po spojovníku.

21. 8. 2020

  • Ruční korektura 6 500 jmen.

24. 7. 2020

  • Ruční korektura 8 000 jmen.

1. 7. 2020

  • Zjednodušení kreditového systému.

23. 6. 2020

  • Přidána nové varianty parametru tvar. Hodnota 3 na druhém místě způsobí, že u jmen, která obsahují tituly běžně používané při oslovení, se kromě titulu použije i požadovaný zbytek jména. (Tato varianta má využití v ostatních pádech, u oslovování se obvykle nepoužívá.)
    Hodnota 4 na druhém místě upravuje výchozí práci se zkratkami akademických a vědeckých titulů. Zachovají se ve formě zkratky. Navíc je opraven jejich pravopis: velká a malá písmena, tečky, čárky a pozice u jména. Např. „dis. Josef Novák“ je opraveno na „Josef Novák, DiS.“…

20. 6. 2020

  • Oprava: Při chybně zadaném parametru klic systém vrací chybu 1 (špatný klíč), ne 3 (vyčerpaný kredit).
  • Oprava: Sjednocen výpis chyb při použití API s parametrem format.

11. 6. 2020

  • Byla aplikována ruční korektura 60 000 jmen. Šlo především o ladění nepřechýlených ženských příjmení.
  • Do seznamu, podle kterého se vyhodnocuje, zda zadaná hodnota není spíše názvem právnické osoby než občanským jménem, bylo přidáno 2300 dalších výrazů. Několik slov bylo vyřazeno, neboť kolidovaly s osobním jménem, především zahraničního původu.
  • Obsah závorek je nově odstraňován před filtrováním slov, která nejsou jménem. Systém tak umožňuje zpracovat řetězce jako „Josef Novák (bytem Praha)“ či „(asi) Josef Novák“, které dříve odmítal.
  • Výsledek: Při testování se změna projevila u cca 5000 jmen z 1 000 000. Jedná se však především o zotavení se z chybně zadaných výrazů. Rozlišování jmen právnických osob není primární funkcí tohoto systému.
  • Pro radost jsem přidal seznam klientů, kteří o to projevili zájem.

3. 6. 2020

  • Přidána nová varianta parametru tvar. Hodnota 3 na třetím místě způsobí vypuštění úvodního pane / paní, zůstane však u jmen s titulem, který se běžně používá pro oslovení. Nově tak lze získat varianty např. „Honzo“, „Veroniko“, ale „pane doktore“.

30. 5. 2020

  • Pro větší přehlednost byly přihlášeným uživatelům informace o předplatném vyčleněny z nastavení na samostatnou stránku.