Dados
Obtivemos atualizações semanais de casos confirmados de varíola dos macacos diariamente por data de notificação de fontes publicamente disponíveis pelo CDC e pelo repositório GitHub Our World in Data (OWID). [24, 25]. Globalmente e para os países que relataram a grande maioria dos casos, incluindo Brasil, Canadá, Inglaterra, França, Alemanha, Espanha e Estados Unidos, recuperamos séries de casos diários do repositório GitHub Our World in Data (OWID). [8, 25]. Relatamos previsões com base nos dados da equipe do CDC e OWID para os EUA. As fontes de dados do CDC e OWID definem um caso confirmado como uma pessoa com um caso de varíola símia confirmado em laboratório. [26, 27]. Os dados foram baixados todas as quartas-feiras à noite do CDC e todas as sextas-feiras à tarde do repositório GitHub Our World in Data (OWID) da semana de 28 de julho de 2022 até a semana de 13 de outubro de 2022. a semana de 28 de julho de 2022, dados divulgados pela equipe OWID em 9 de agosto de 2022, foram usados para produzir a previsão por serem os primeiros dados disponíveis.
Ele norte– estrutura de modelagem subepidêmica
Na ref. [19]. Nesta estrutura de modelagem subepidêmica n, as trajetórias epidêmicas são modeladas como a agregação de subepidemias assíncronas e sobrepostas. Uma subepidemia segue o modelo de crescimento logístico generalizado de 3 parâmetros (GLM), que tem mostrado desempenho competitivo [28,29,30]. Este modelo é dado pela seguinte equação diferencial:
$$\frac{dC
$$C_{total}
Portanto, esta estrutura de modelagem é adequada para vários padrões epidêmicos, incluindo aqueles caracterizados por picos múltiplos.
Estimativa de parâmetros para o modelo n-sub-epidêmico
A série temporal de novos casos semanais de varíola símia é denotada por:
\({y}_{t_j=}{y}_{t_1,}{y}_{t_2},\pontos, {y}_{t_{n_d}}\)Onde j= 1, 2, …,norted
Aqui,vocêsj são os pontos de tempo para os dados da série temporal, norted é o número de observações. Usando essas séries de casos, estimamos um total de 3norte + 1 parâmetros do modelo, ou seja Θ = (C.thr, r1,p1,que01…, rnorte, pnorte, que0 norte). Deixar F ( vocês, Θ) denotam a curva esperada de novos casos de varíola símia da trajetória epidêmica. Podemos estimar os parâmetros do modelo ajustando a solução do modelo aos dados observados por meio de mínimos quadrados não lineares [31] ou por estimativa de máxima verossimilhança assumindo uma estrutura de erro específica [32]. Para mínimos quadrados não lineares, isso é feito procurando o conjunto de parâmetros \(\hat{\varTheta}\)que minimiza a soma das diferenças quadradas entre os dados observados \({y}_{t_j=}{y}_{t_1,}{y}_{t_2}\pontos .. {y}_{t_{n_d}}\)e a média do modelo F ( vocês,Θ). Quer dizer, Θ= ( C.thr, r1, p1, que01…, rnorte,pnorte, que0 norte) é estimado por \(\hat{\varTheta}=\mathit{\arg}\mathit{\min }\ {\sum}_{j=1}^{n_d}{\left(f\left({t}_j,\ varTheta \right)-{y}_{t_j}\right)}^2\).
Quantificamos a incerteza dos parâmetros usando uma abordagem bootstrap descrita em [33], que permite o cálculo de erros padrão e estatísticas relacionadas na ausência de soluções de forma fechada. Para isso, usamos o modelo de melhor ajuste \(f\left(t,\hat{\varTheta}\right)\) Para gerar B.– vezes o tamanho dos conjuntos de dados simulados replicados nortedonde a observação no tempovocêsjé amostrado de uma distribuição normal com média \(f\left({t}_j,\hat{\varTheta}\right)\) e variância \(\frac{\sum_{j=1}^{n_d}{\left(f\left({t}_j,\hat{\varTheta}\right)-{y}_{t_j}\right)} ^2}{n_d-\esquerda(3n+1\direita)}\). Em seguida, reajustamos o modelo para cada B.conjunto de dados simulados para reestimar cada parâmetro. As novas estimativas de parâmetros para cada realização são indicadas por \({\hat{\varTheta}}_b\)Onde b= 1, 2, …, B.. Usando os conjuntos de parâmetros reestimados \(\left({\hat{\varTheta}}_b\right),\) a distribuição empírica de cada estimativa pode ser caracterizada e a incerteza resultante em torno do ajuste do modelo pode ser obtida de forma semelhante a partir \(f\left(t,{\hat{\varTheta}}_1\right),\)\(f\left(t,{\hat{\varTheta}}_2\right),\dots, f\left(t,{\hat{\varTheta}}_B\right)\). Executamos o modelo calibrado para a frente no tempo para gerar previsões de curto prazo com incerteza quantificada.
Seleção dos melhores modelos subepidêmicos classificados
nós usamos o AICC. valores de conjunto de modelos de melhor ajuste com base em uma e duas subepidemias para selecionar os melhores modelos de subepidemia classificados. Classificamos os modelos do melhor ao pior com base em suasAICC. valores, que é dado por [34, 35]:
$${AIC}_c={n}_d\mathit{\log}(SSE)+2m+\frac{2m\esquerda(m+1\direita)}{n_d-m-1}$$
Onde \(SSE={\sum}_{j=1}^{n_d}{\left(f\left({t}_j,\hat{\varTheta}\right)-{y}_{t_j}\right )}^2\),metrô= 3norte+ 1 é o número de parâmetros do modelo enorted é o número de pontos de dados. Parâmetros da fórmula acima paraAICC. eles são estimados a partir do ajuste de mínimos quadrados não linear, que assume implicitamente uma distribuição normal para o erro.
Construção de modelos de n-sub-epidemias de ensemble
Geramos modelos de conjunto a partir da combinação ponderada dos modelos subepidêmicos de classificação mais alta, conforme considerado pelo \({AIC}_{c_i}\) Para ovocêmodelo classificado onde \({AIC}_{c_1}\le \points \le {AIC}_{c_I}\) Yvocê=1,…,EU.Um conjunto derivado da categoria mais altaEUmodelos é denotado por Ensemble (EU). Portanto, Ensemble (2) refere-se ao modelo de conjunto gerado a partir da combinação ponderada dos 2 modelos subepidêmicos de classificação mais alta. Calculamos o pesoWvocê Para ovocêo modelo,você= 1, … ,EUonde ∑Wvocê = 1 da seguinte forma:
\(w_i=\frac{l_i}{l_1+l_2+\dots+l_I}\;para\;todos\;i=1,2,\pontos,I,\)
OndeEUvocê é a probabilidade relativa do modelovocêque é dado por \({l}_i={e}^{\left(\left({AIC}_{min}-{AIC}_i\right)/2\right)}\) [36]e, por conseguinteWEU≤ … ≤W1 . Intervalos de previsão baseados em modelo de conjunto podem ser obtidos usando uma abordagem de bootstrap semelhante à anterior. Usamos os modelos de primeira e segunda ordem para derivar as previsões do conjunto.AICC. os valores dos melhores modelos para a previsão mais recente podem ser encontrados na figura 1 (arquivo adicional 1) [24, 25].
estratégia de previsão
Usando um período de calibração de 10 semanas para cada modelo, realizamos 324 previsões sequenciais semanais em tempo real de 4 semanas nas áreas e modelos estudados (semana de 28 de julho a semana de 13 de outubro de 2022) até agora. Nos níveis nacional e global, também relatamos métricas de desempenho de previsão para 8 períodos de previsão sequenciais, cobrindo as semanas de 28 de julho de 2022 a 15 de setembro de 2022, para os quais os dados estavam disponíveis para avaliar as previsões de 4 semanas. Também comparamos os casos cumulativos previstos para as previsões de 4 semanas entre modelos para um determinado ambiente. Os casos cumulativos para um determinado modelo foram calculados como a soma do número médio de novos casos previstos durante a previsão de 4 semanas. As previsões foram avaliadas usando dados relatados durante a semana de 13 de outubro de 2022.
métricas de desempenho
Em todas as áreas geográficas, avaliamos a qualidade do ajuste de nosso modelo e o desempenho das previsões de curto prazo para cada modelo usando quatro métricas de desempenho padrão: erro quadrático médio (MSE) [37]o erro médio absoluto (MAE) [38]95% de cobertura do intervalo de previsão (PI) [37]e a pontuação do intervalo ponderado (WIS) [20, 39]. Enquanto o MSE e o MAE avaliam os desvios médios do ajuste médio do modelo aos dados observados, a cobertura do PI de 95% e a pontuação do intervalo ponderado consideram a incerteza das previsões.