Základem celé metodiky je přímé srovnání křivek denních případů jednotlivých zemí den po dni. Na první pohled vypadá vývoj v jednotlivých státech
nesrovnatelně. Pravidla exponenciálního šíření nemoci způsobují, že porovnáme-li přímo křivky denních případů, nelze vidět žádné souvislosti.
Hlavním problémem je, že exponenciální šíření je velmi silně závislé na "startovní pozici", tj. na tom, kolik nakažených bylo v dané zemi na
začátku sledovaného období. Lze prohlásit, že byl-li v jedné zemi jeden nakažený, zatímco ve stejný čas bylo v jiné zemi 30 nakažených,
křivky druhé země bude mít v každém okamžiku 30 krát vyšší hodnotu než křivka první země a to přesto, že by obě země přijaly úplně identická opatření
k šíření nemoci. Chceme-li tedy porovnávat, jak se jednotlivým zemím daří zvládat epidemii, musíme data očistit o efekt, který startovní pozice
způsobuje.
K tomuto účelu jsou použity tyto druhy srovnávání:
- Normalizace denních přírůstků
- Graf rychlosti šíření epidemie
- Denní podílový graf dvou křivek
- Graf součtu denních přírůstků
Normalizace denních přírůstků
Časové řady denních přírůstků jsou přeškálovány tak, aby si v absolutní hodnotě odpovídaly. V tuto chvíli je implementována metoda 95% percentilu, tj. 95% percentily
(tj. hodnota z oblasti 95% všech hodnot grafu setříděných podle velikosti) jednotlivých grafů si odpovídají. Místo 95% percentilu by šlo použít i maximální
hodnotu. To ale dělá neplechu u některých grafů, jako například u Francie, kde zcela zřejmě některé dny započítali ve Francii zpětně mnohem více případů, než byl
maximální denní přírůstek. 95% percentil tyto špičkové hodnoty ignoruje a tak je odolnější vůči chybám v počítání případů. Takové přeškálování může i tak někdy trochu
zlobit ale v praxi vypadá výsledek hodně použitelně a normalizované grafy lze vcelku dobře porovnávat.
Následující graf ukazuje příklad škálovaného srovnání denních přírůstků v České republice a ve Spojeném království:
Graf rychlosti šíření epidemie
Pro účely porovnávání grafů je vhodné si zavést parametr, kterému budeme říkat rychlost šíření epidemie. Definujme jej jako hodnotu:
rychlost = ln(početNakaženýchDnes/početNakaženýchVčera)
Toto číslo je klíčové k tomu, jak se epidemii daří se šířit společností. Poměr nakažených dnes ku poměru nakažených včera vlastně jistým způsobem souvisí s reprodukčním
číslem viru. Poměr vlastně přesně odpovídá reprodukčnímu číslu teoretické infekce, kde nakažený nakazí všechny své kontakty přesně za jeden den. V praxi samozřejmě dochází
k mnoha nákazám o mnoho dní později, díky čemuž se reprodukční číslo a tento poměr rozcházejí, ne ale úplně libovolně. Platí totiž toto: Je-li tento poměr (dlouhodobě)
větší než 1, je i reprodukční číslo větší než 1, je-li tento poměr (dlouhodobě) roven 1, je i reprodukční číslo 1 a je-li tento poměr (dlouhodobě) menší než 1, je i reprodukční
číslo menší než 1. Očekávám (bez matematického důkazu), že alespoň přibližně bude platit, že reprodukční číslo je v zásadě nějakou (zlomkovou) mocninou tohoto poměru, přičemž
hodnota exponentu bude vycházet z vlastností šířené epidemie. Na tomto mocninném vztahu ale úplně netrvám a může se ukázat, že vztah mezi oběma parametry je ještě složitější.
Příslušný poměr sousedních denních přírůstků je potom navíc logaritmován. Logaritmus s poměrem udělá následující:
-
Příslušně hodnoty "linearizuje", tj. přejde se od exponenciálních neintuitivních čísel k číslům, která jsou v grafu mnohem lépe čitelná. Matematicky také dávají smysl
standardní lineární operace, jako například průměrování. Má smysl se bavit o tom, jaký byl průměrný přírůstek za týden a podobně. To by
v nelogaritmované formě smysl nedávalo.
-
Z mezní hodnoty poměru 1 se přechází na mezní hodnotu 0. Tj. je-li rychlost šíření větší než 0, epidemie roste, je-li rychlost šíření přesně 0, epidemie se drží,
je-li rychlost šíření menší než 0, epidemie klesá.
-
Mezi kladnými a zápornými hodnotami panuje symetrie. Jestliže jeden den vyskočí hodnota na nějaké kladné číslo, zatímco druhý den klesne na stejně velké záporné
číslo, znamená to, že se rychlosti přesně vzájemně vykompenzovaly. Součet rychlostí za určité období odpovídá rychlosti šíření za celé dané období.
Protože denní hodnoty mají tendenci k velkým statistickým odchylkám, dává smysl před výpočtem rychlosti šíření hodnoty denních přírůstků vždy zprůměrovat za několik
dní. V grafech se standardně používá třídenní kumulativní klouzavý průměr.
Rychlost šíření epidemie je přitom parametr, který vůbec nezávisí na "startovní pozici". Do rychlosti šíření epidemie se promítají pouze vlivy, které přímo ovlivňují,
jak rychle epidemie prostupuje společností. Přitom platí, že známe-li "startovní pozici", tj. počet nakažených na začátku sledovaného období a známe-li rychlost šíření
v daném období, jsme schopní zrekonstruhovat celý průběh epidemie.
Následující graf ukazuje různé varianty rychlosti šíření epidemie pro Českou republiku. Jednotlivé varianty se liší délkou okna pro kumulativní klouzavý průměr.
V grafu jsou vyneseny tři varianty: neprůměrované hodnoty (modré body), průměr za 3 dny (oranžová čára) a průměr za 10 dní (zelená čára).
Denní podílový graf dvou křivek
Pod pojmem denní podílový graf dvou křivek se rozumí graf, kde ke každému dni vynášíme podíl jedné hodnoty vůči hodnotě druhé. Smyslem takového grafu je sledovat,
zda nedochází k nějaké systematické chybě, v případě, že by rychlosti šíření dvou zemí vypadaly podobně. V tomto grafu je vždy jedna země referenční, která svou křivku
nemá vynesenu a několik sledovaných zemí, které jsou vždy porovnávány se zemí referenční. Obecně lze prohlásit:
-
Jestliže je hodnota grafu v nějakém období konstantní, situace se ve sledované i referenční zemi vyvíjí identicky, epidemie prochází oběma zeměmi stejnou rychlostí.
-
Jestliže křivka stoupá, situace se ve sledované zemi relativně zhoršuje oproti situaci v referenční zemi.
-
Jestliže křivka klesá, situace se ve sledované zemi relativně zlepšuje oproti situaci v referenční zemi.
Relativní zlepšování a zhoršování je ovšem potřeba brát s rezervou. Může totiž být víc důvodů, proč k relativnímu zlepšování a zhoršování dochází. Například může jít jednoduše
o pouhý časový posun vlny epidemie v obou zemích. Nebo může být na vině i metodika sběru dat. Lze tak prohlásit, že vypovídací hodnotu má pouze informace, že křivka je za danou
dobu konstantní, zatímco je-li křivka rostoucí či klesající, je potřeba hlubších analýz, co je příčinou růstu či klesání.
Denní podílový graf lze přirozeně aplikovat na graf denních přírůstků, avšak také na graf všech prokázaných případů k danému dni. Je zajímavé, že pro danou sledovanou zemi
mají tendenci obě křivky vykazovat podobné trendy. Zřejmě to souvisí s exponenciálním charakterem šíření epidemie. Nicméně větší vypovídací hodnotu má asi denní podílový graf
aplikovaný na křivky denních přírůstků.
Protože pak v tomto grafu má vypovídací hodnotu pouze růst křivky, avšak ne její absolutní hodnota není zajímavá, můžeme v tomto grafu celou křivku vynásobit konstantou tak,
aby průměrná hodnota křivky byla 1. Taktéž můžeme aplikovat logaritmus, který odstraní nelinearity z rychlosti růstu či klesání křivky a růst se tak opět stane intuitivnější.
Příklad: Následují podílové grafy denních případů a všech případů pro Českou republiku jako referenční zemi a Německo jako sledovanou zemi. Oba dva grafy jsou normalizované a
logaritmované.
Graf součtu denních přírůstků
Chceme-li zvýraznit nějakou anomálii, která prostupuje vícero zeměmi, k vizualizaci takové anomálie má smysl sečíst všechny případy z daných zemí dohromady. A pracovat tak
s clusterem všech zemí, jakoby byly dohromady jednou velkou zemí. Ze součtu denních přírůstků lze taktéž vypočítat rychlost šíření epidemie pro celý cluster zemí.
Příklad: Efekt pátku třináctého v zemích západní Evropy (zde graf zemí: Belgie, Finsko, Island, Itálie, Německo, Nizozemí, Norsko, Portugalsko, Rakousko, Španělsko,
Švédsko, Švýcarsko):