english česky
Menu

Metodické poznámky

Koronavirus SARS-CoV-2 "Koroňáček"

Základem celé metodiky je přímé srovnání křivek denních případů jednotlivých zemí den po dni. Na první pohled vypadá vývoj v jednotlivých státech nesrovnatelně. Pravidla exponenciálního šíření nemoci způsobují, že porovnáme-li přímo křivky denních případů, nelze vidět žádné souvislosti. Hlavním problémem je, že exponenciální šíření je velmi silně závislé na "startovní pozici", tj. na tom, kolik nakažených bylo v dané zemi na začátku sledovaného období. Lze prohlásit, že byl-li v jedné zemi jeden nakažený, zatímco ve stejný čas bylo v jiné zemi 30 nakažených, křivky druhé země bude mít v každém okamžiku 30 krát vyšší hodnotu než křivka první země a to přesto, že by obě země přijaly úplně identická opatření k šíření nemoci. Chceme-li tedy porovnávat, jak se jednotlivým zemím daří zvládat epidemii, musíme data očistit o efekt, který startovní pozice způsobuje.

K tomuto účelu jsou použity tyto druhy srovnávání:

  1. Normalizace denních přírůstků
  2. Graf rychlosti šíření epidemie
  3. Denní podílový graf dvou křivek
  4. Graf součtu denních přírůstků

Normalizace denních přírůstků

Časové řady denních přírůstků jsou přeškálovány tak, aby si v absolutní hodnotě odpovídaly. V tuto chvíli je implementována metoda 95% percentilu, tj. 95% percentily (tj. hodnota z oblasti 95% všech hodnot grafu setříděných podle velikosti) jednotlivých grafů si odpovídají. Místo 95% percentilu by šlo použít i maximální hodnotu. To ale dělá neplechu u některých grafů, jako například u Francie, kde zcela zřejmě některé dny započítali ve Francii zpětně mnohem více případů, než byl maximální denní přírůstek. 95% percentil tyto špičkové hodnoty ignoruje a tak je odolnější vůči chybám v počítání případů. Takové přeškálování může i tak někdy trochu zlobit ale v praxi vypadá výsledek hodně použitelně a normalizované grafy lze vcelku dobře porovnávat.

Následující graf ukazuje příklad škálovaného srovnání denních přírůstků v České republice a ve Spojeném království:

Graf rychlosti šíření epidemie

Pro účely porovnávání grafů je vhodné si zavést parametr, kterému budeme říkat rychlost šíření epidemie. Definujme jej jako hodnotu:

rychlost = ln(početNakaženýchDnes/početNakaženýchVčera)

Toto číslo je klíčové k tomu, jak se epidemii daří se šířit společností. Poměr nakažených dnes ku poměru nakažených včera vlastně jistým způsobem souvisí s reprodukčním číslem viru. Poměr vlastně přesně odpovídá reprodukčnímu číslu teoretické infekce, kde nakažený nakazí všechny své kontakty přesně za jeden den. V praxi samozřejmě dochází k mnoha nákazám o mnoho dní později, díky čemuž se reprodukční číslo a tento poměr rozcházejí, ne ale úplně libovolně. Platí totiž toto: Je-li tento poměr (dlouhodobě) větší než 1, je i reprodukční číslo větší než 1, je-li tento poměr (dlouhodobě) roven 1, je i reprodukční číslo 1 a je-li tento poměr (dlouhodobě) menší než 1, je i reprodukční číslo menší než 1. Očekávám (bez matematického důkazu), že alespoň přibližně bude platit, že reprodukční číslo je v zásadě nějakou (zlomkovou) mocninou tohoto poměru, přičemž hodnota exponentu bude vycházet z vlastností šířené epidemie. Na tomto mocninném vztahu ale úplně netrvám a může se ukázat, že vztah mezi oběma parametry je ještě složitější.

Příslušný poměr sousedních denních přírůstků je potom navíc logaritmován. Logaritmus s poměrem udělá následující:

Protože denní hodnoty mají tendenci k velkým statistickým odchylkám, dává smysl před výpočtem rychlosti šíření hodnoty denních přírůstků vždy zprůměrovat za několik dní. V grafech se standardně používá třídenní kumulativní klouzavý průměr.

Rychlost šíření epidemie je přitom parametr, který vůbec nezávisí na "startovní pozici". Do rychlosti šíření epidemie se promítají pouze vlivy, které přímo ovlivňují, jak rychle epidemie prostupuje společností. Přitom platí, že známe-li "startovní pozici", tj. počet nakažených na začátku sledovaného období a známe-li rychlost šíření v daném období, jsme schopní zrekonstruhovat celý průběh epidemie.

Následující graf ukazuje různé varianty rychlosti šíření epidemie pro Českou republiku. Jednotlivé varianty se liší délkou okna pro kumulativní klouzavý průměr. V grafu jsou vyneseny tři varianty: neprůměrované hodnoty (modré body), průměr za 3 dny (oranžová čára) a průměr za 10 dní (zelená čára).

Denní podílový graf dvou křivek

Pod pojmem denní podílový graf dvou křivek se rozumí graf, kde ke každému dni vynášíme podíl jedné hodnoty vůči hodnotě druhé. Smyslem takového grafu je sledovat, zda nedochází k nějaké systematické chybě, v případě, že by rychlosti šíření dvou zemí vypadaly podobně. V tomto grafu je vždy jedna země referenční, která svou křivku nemá vynesenu a několik sledovaných zemí, které jsou vždy porovnávány se zemí referenční. Obecně lze prohlásit:

Relativní zlepšování a zhoršování je ovšem potřeba brát s rezervou. Může totiž být víc důvodů, proč k relativnímu zlepšování a zhoršování dochází. Například může jít jednoduše o pouhý časový posun vlny epidemie v obou zemích. Nebo může být na vině i metodika sběru dat. Lze tak prohlásit, že vypovídací hodnotu má pouze informace, že křivka je za danou dobu konstantní, zatímco je-li křivka rostoucí či klesající, je potřeba hlubších analýz, co je příčinou růstu či klesání.

Denní podílový graf lze přirozeně aplikovat na graf denních přírůstků, avšak také na graf všech prokázaných případů k danému dni. Je zajímavé, že pro danou sledovanou zemi mají tendenci obě křivky vykazovat podobné trendy. Zřejmě to souvisí s exponenciálním charakterem šíření epidemie. Nicméně větší vypovídací hodnotu má asi denní podílový graf aplikovaný na křivky denních přírůstků.

Protože pak v tomto grafu má vypovídací hodnotu pouze růst křivky, avšak ne její absolutní hodnota není zajímavá, můžeme v tomto grafu celou křivku vynásobit konstantou tak, aby průměrná hodnota křivky byla 1. Taktéž můžeme aplikovat logaritmus, který odstraní nelinearity z rychlosti růstu či klesání křivky a růst se tak opět stane intuitivnější.

Příklad: Následují podílové grafy denních případů a všech případů pro Českou republiku jako referenční zemi a Německo jako sledovanou zemi. Oba dva grafy jsou normalizované a logaritmované.

Graf součtu denních přírůstků

Chceme-li zvýraznit nějakou anomálii, která prostupuje vícero zeměmi, k vizualizaci takové anomálie má smysl sečíst všechny případy z daných zemí dohromady. A pracovat tak s clusterem všech zemí, jakoby byly dohromady jednou velkou zemí. Ze součtu denních přírůstků lze taktéž vypočítat rychlost šíření epidemie pro celý cluster zemí.

Příklad: Efekt pátku třináctého v zemích západní Evropy (zde graf zemí: Belgie, Finsko, Island, Itálie, Německo, Nizozemí, Norsko, Portugalsko, Rakousko, Španělsko, Švédsko, Švýcarsko):

SARS-CoV-2
Cached sources: Dynamic sources: testing page