大数跨境
0
0

【!重磅!】时间序列数据机器学习及深度学习视频课上线啦!!!

【!重磅!】时间序列数据机器学习及深度学习视频课上线啦!!! 医学统计数据分析
2025-11-03
0
导读:【!重磅!】时间序列数据机器学习及深度学习视频课上线啦!!!时间序列模型在公共卫生领域具有极其重大的意义,它们将历史健康数据转化为对未来风险的洞察



点击上方蓝字,关注我们




时间序列模型在公共卫生领域具有极其重大的意义,它们将历史健康数据转化为对未来风险的洞察,是实现预测性公共卫生的核心工具。

一、疾病监测与预警: 实时监测传染病数据,当实际报告数超过模型预测的置信区间上限时,自动发出预警信号,实现早期探测。

二、疫情预测与资源规划: 准确预测未来几周或数月内的发病人数、住院需求和死亡人数,为政府和管理者提前调配医疗资源(床位、医护人员、疫苗、药品)提供科学依据。

   政策效果评估: 通过比较政策实施前后的时间序列预测误差,可以定量评估非药物干预措施(如封锁、口罩令)的有效性。

三、病因探索: 通过多变量模型(如LSTM、带有外部变量的ARIMAX),可以分析环境因素(温度、湿度、空气质量)、社会因素(人群聚集)与疾病发生之间的关联。

四、慢性病与死亡率分析: 分析慢性病患病率、死亡率的长期趋势,评估公共卫生项目的长期效果,为制定国家健康战略提供数据支持。

时间序列机器学习模型大致可以分为三类:经典统计模型、传统机器学习模型 和 深度学习模型。







 一、 经典统计模型

这类模型基于序列自身的统计特性(如自相关性、趋势性、季节性)进行建模。

1. 自回归模型

   概念: 用时间序列过去值的线性组合来预测未来值。认为当前值只与自身的历史值有关。

   原理: `Y_t = c + φ₁Y_{t-1} + φ₂Y_{t-2} + ... + φₚY_{t-p} + ε_t`,其中 `p` 是滞后阶数,`φ` 是自回归系数,`ε_t` 是白噪声。

   应用: 适用于平稳序列,或经过差分后平稳的序列。常用于金融、经济学。

   可视化方法: 自相关图、序列本身图。

   公共卫生意义: 可用于预测短期内没有外部干预的传染病发病数,例如基于前几周的流感病例数预测下周的病例数。

2. 移动平均模型

   概念: 用过去预测误差的线性组合来预测未来值。认为当前值受历史随机冲击的影响。

   原理: `Y_t = μ + ε_t + θ₁ε_{t-1} + θ₂ε_{t-2} + ... + θ_qε_{t-q}`,其中 `q` 是移动平均阶数,`θ` 是系数,`ε` 是误差项。

   应用: 主要用于对序列的随机波动进行建模。

   可视化方法: 偏自相关图、序列本身图。

   公共卫生意义: 通常与AR模型结合使用(ARMA/ARIMA),单独使用较少。

3. 自回归综合移动平均模型

   概念: 结合了AR和MA模型,并引入了差分 步骤以使非平稳序列变得平稳。

   原理: 模型表示为ARIMA(p, d, q)。`p`是AR阶数,`d`是差分次数,`q`是MA阶数。先对原序列进行d次差分,然后对差分后的平稳序列建立ARMA(p, q)模型。

   应用: 经典且强大的模型,适用于各种非平稳时间序列预测,如股票价格、销售额、能源需求。

   可视化方法: 序列图(观察趋势和季节性)、ACF/PACF图(确定p, q参数)、差分后的序列图(检验平稳性)。

   公共卫生意义: 广泛应用于传染病(如流感、登革热、COVID-19)的发病率和死亡率的短期预测,为医疗资源调配提供依据。

4. 季节性自回归综合移动平均模型

   概念: ARIMA模型的扩展,专门处理具有强季节性 成分的时间序列。

   原理: 模型表示为SARIMA(p, d, q)(P, D, Q, s)。除了常规的ARIMA参数,还引入了季节性的AR(P)、差分(D)、MA(Q)参数,其中`s`是季节周期(如月数据s=12,周数据s=52)。

   应用: 任何具有明显季节规律的数据,如电力消耗(夏冬高峰)、零售销售(节假日高峰)、旅游数据。

   可视化方法: 季节图、子序列图、年度图,可以清晰地展示季节性模式。

   公共卫生意义: 至关重要。用于预测具有明显季节性的疾病,如流感(冬季高发)、手足口病(春夏季高发)、花粉症。可以帮助卫生部门在流行季到来前做好宣传和物资准备。


二、 传统机器学习模型

这类模型将时间序列问题转化为监督学习问题,利用特征工程来捕捉时序模式。

1. 基于特征工程的方法

   概念: 从原始时间序列中提取有意义的特征(如统计特征、频谱特征),然后使用任何机器学习模型(如随机森林、XGBoost、SVM)进行回归或分类。

   原理: 特征可以包括:滞后特征(t-1, t-2时刻的值)、滑动窗口统计量(均值、方差、最大值等)、时间特征(小时、周几、是否节假日)、趋势和季节性特征。

   应用: 适用于需要结合多种外部变量的场景,或作为复杂模型的基线。

   可视化方法: 特征重要性图(来自随机森林或XGBoost)、部分依赖图。

   公共卫生意义: 可以方便地整合多种数据源,例如在预测疾病传播时,除了历史病例数,还可以加入气象数据(温度、湿度)、社交媒体数据、人口流动数据等作为特征,构建更精确的预测模型。

2. 基于距离的方法

   概念: 通过计算时间序列之间的相似性距离来进行分类或聚类。

   原理: 常用距离度量包括:动态时间规整(DTW,可以处理不同长度和相位差的序列)、欧氏距离。结合KNN或K-Means等算法。

   应用: 时间序列分类(如心电图异常检测)、聚类(如客户行为模式分析)。

   可视化方法: 多序列对比图、聚类结果图、DTW对齐路径图。

   公共卫生意义: 可用于对不同地区的疫情发展模式进行聚类,识别出“快速爆发型”、“缓慢持续型”等,从而制定差异化的防控策略;也可用于医疗传感器数据的异常检测。


三、 深度学习模型

这类模型能自动从原始序列数据中学习复杂的时序依赖关系和非线性模式。

1. 循环神经网络 / 长短期记忆网络

   概念: RNN是专为序列数据设计的神经网络,具有“记忆”功能。LSTM是RNN的变体,通过门控机制解决了RNN的长期依赖问题。

   原理: RNN/LSTM单元内部有循环连接,使得信息可以从上一个时间步传递到下一个时间步。LSTM通过输入门、遗忘门、输出门来控制信息的保留和遗忘。

   应用: 自然语言处理、语音识别、多变量时间序列预测。

   可视化方法: 预测值与真实值对比图、注意力权重图(如果是Attention-based LSTM,可以显示在预测时模型更关注历史哪些时刻)。

   公共卫生意义: 非常强大,可以处理复杂的、多变量的公共卫生预测问题。例如,利用LSTM模型,同时输入历史病例数、防控政策强度、人口流动数据、天气数据等,来预测未来疫情风险。

2. 门控循环单元

   概念: LSTM的一种变体,结构更简单,计算效率更高。

   原理: 将LSTM的遗忘门和输入门合并为一个“更新门”,并混合了细胞状态和隐藏状态。

   应用: 与LSTM类似,在参数更少的情况下常能达到与之相当的性能。

   可视化方法: 同LSTM。

   公共卫生意义: 同LSTM,是构建高效、实时预测系统的一个优秀选择。

3. 时序卷积网络

   概念: 将一维卷积神经网络应用于时间序列,使用因果卷积和膨胀卷积来捕获长期依赖。

   原理: 通过多层卷积核在时间维度上进行滑动,从局部到全局逐步提取特征。因果卷积确保预测不会使用未来信息;膨胀卷积通过间隔采样扩大感受野。

   应用: 序列建模、语音合成、时间序列预测。

   可视化方法: 网络结构图(展示膨胀卷积)、特征图可视化、预测对比图。

   公共卫生意义: TCN在训练时常比RNN更快,且能稳定地处理长序列。适用于需要快速响应的公共卫生监测预警系统。

4. Transformer

   概念: 最初为NLP设计,完全基于自注意力机制,能并行计算并捕获序列中任意两个位置间的依赖关系。

   原理: 通过Query, Key, Value计算注意力权重,决定在编码某个位置时应该“注意”序列中其他所有位置的多少信息。

   应用: 目前在许多时间序列基准测试中达到state-of-the-art性能。

   可视化方法: 注意力权重热力图,可以直观地看到在做出某个预测时,模型关注了历史哪些时间点,解释性很强。

   公共卫生意义: 能够发现非常长程且复杂的依赖关系。例如,分析一次疫情爆发可能与数月前的某个超级传播事件有关,这种关联可以被Transformer的注意力机制捕捉到。


时间序列数据的格式、样式与分布:

1. 数据格式

   基本要求: 数据必须包含时间戳 和对应的观测值。

   标准格式:

       长格式: 最常见。两列:一列是时间戳(`datetime`类型),一列是值(`float`/`int`类型)。

       宽格式: 适用于多变量时间序列。每一行是一个时间戳,每一列是一个变量。

2. 数据样式

   趋势: 数据长期表现的上升或下降的方向。

   季节性: 在固定周期内(如一天、一周、一年)出现的重复性、规律性的波动。

   周期性: 非固定频率的波动,通常由经济等因素引起,波动周期不固定(如经济周期)。

   随机噪声: 无法由模型解释的随机波动。

 3. 数据分布与特性

   平稳性: 这是大多数经典模型(如ARIMA)的核心假设。一个平稳序列的均值和方差不随时间变化,协方差只与时间间隔有关,与具体时间点无关。非平稳数据通常需要通过差分、变换等方法使其平稳。

   自相关性: 时间序列与其自身滞后值之间的相关性。ACF图用于检验。

   偏自相关性: 在消除了中间滞后项的影响后,序列与某个滞后项之间的相关性。PACF图用于检验。


时间序列数据的可视化方法:

1.  线图: 最基础、最核心的可视化。横轴为时间,纵轴为观测值。用于直观展示趋势、季节性、异常值。

2.  自相关图和偏自相关图:

       ACF: 展示时间序列与其自身各阶滞后之间的相关性。用于识别MA模型的阶数`q`和序列的周期性。

       PACF: 展示在控制中间滞后项后,序列与某阶滞后项之间的纯粹相关性。用于识别AR模型的阶数`p`。

3.  季节图: 将多年的数据按季节周期(如月、周)叠加在一张图上,用于清晰地观察季节性模式以及模式是否随时间变化。

4.  子序列图: 将时间序列分解为多个子序列(如每年的数据),并绘制在同一张图中,便于比较不同周期的模式。

5.  箱线图: 按时间周期(如月份、星期几)对数据进行分组并绘制箱线图,用于观察数据在不同周期内的分布情况(中位数、四分位数、异常值)。

6.  热力图: 常用于展示一天内不同小时、一周内不同天的模式(如网站流量、电力负荷)。

7.  分解图: 将时间序列分解为趋势、季节性 和残差 三个部分,分别进行可视化,帮助我们理解数据的构成。

8.  预测结果对比图: 将历史数据、真实值和模型的预测值绘制在同一张图上,是评估模型性能最直观的方式。





本次时间序列机器学习及深度学习课程设置




00逐小时及逐日气象及疾病数据生成及初步可视化

01时间序列自回归模型(Autoregressive model,AR模型)拟合及可视化

02时间序列移动平均模型(Moving Average,MA模型)拟合及可视化

03时间序列自回归综合移动平均模型(Autoregressive Moving Average model,ARMA模型)拟合及可视化

04时间序列季节性自回归综合移动平均模型(Seasonal Autoregressive Integrated Moving Average,SARIMA模型)拟合及可视化

05时间序列随机森林模型(RandForest,RF模型)拟合及可视化

06时间序列XGBoost(eXtreme Gradient Boosting)模型拟合及可视化

07时间序列支持向量机(Support Vector Machine, SVM)模型拟合及可视化

08时间序列Holt-Winters模型拟合及可视化

09时间序列(Dynamic Time Warping,DTW)模型拟合及可视化

10时间序列欧氏距离(Euclidean Metric,EM)聚类模型拟合及可视化

11时间序列循环神经网络(Recurrent Neural Network,RNN-LSTM)模型拟合及可视化

12时序卷积网络(Temporal Convolutional Network,TCN)模型拟合及可视化

13时间序列Transformer神经网络模型拟合及可视化

14时间序列分布滞后非线性模型(Distributed Lag NonLinear Model, DLNM)拟合及可视化

分别使用R语言和Python标准化代码实现上述全部过程!!!








课程获取方式:

“医学统计数据分析”视频号-付费课程中选择相应课程兑换,可查看本次课程的全部视频讲解,在“医学统计数据分析”公众号,右下角找到“联系作者”,加微信联系获取所有代码和示例数据库。





医学统计数据分析分享交流SPSS、R语言、Python、ArcGis、Geoda、GraphPad、数据分析图表制作等心得。承接数据分析,论文返修,医学统计,机器学习,生存分析,空间分析,问卷分析业务。若有投稿和数据分析代做需求,可以直接联系我,谢谢!



!!!可加我粉丝群!!!

“医学统计数据分析”公众号右下角;

找到“联系作者”,

可加我微信,邀请入粉丝群!

【医学统计数据分析】工作室“粉丝群”

01

【临床】粉丝群

有临床流行病学数据分析

如(t检验、方差分析、χ2检验、logistic回归)、

(重复测量方差分析与配对T检验、ROC曲线)、

(非参数检验、生存分析、样本含量估计)、

(筛检试验:灵敏度、特异度、约登指数等计算)、

(绘制柱状图、散点图、小提琴图、列线图等)、

机器学习、深度学习、生存分析

等需求的同仁们,加入【临床】粉丝群

02

【公卫】粉丝群

疾控,公卫岗位的同仁,可以加一下【公卫】粉丝群,分享生态学研究、空间分析、时间序列、监测数据分析、时空面板技巧等工作科研自动化内容。

03

【生信】粉丝群

有实验室数据分析需求的同仁们,可以加入【生信】粉丝群,交流NCBI(基因序列)、UniProt(蛋白质)、KEGG(通路)、GEO(公共数据集)等公共数据库、基因组学转录组学蛋白组学代谢组学表型组学等数据分析和可视化内容。



或者可扫码直接加微信进群!!!





精品视频课程-“医学统计数据分析”视频号付费合集

“医学统计数据分析”视频号-付费合集兑换相应课程后,获取课程理论课PPT、代码、基础数据等相关资料,请大家在【医学统计数据分析】公众号右下角,找到“联系作者”,加我微信后打包发送。感谢您的支持!!




【二分类因变量机器学习】图文教程





往期推荐:【监测预警自动化】系列教程





往期推荐:样本含量估计(样本量计算与功效分析)




往期推荐:SPSS、R语言、Python等临床数据分析专题




往期推荐:科研图表绘制专题





往期推荐:重复测量数据分析专题




往期推荐:生信分析、基因测序数据、实验室数据专题




往期推荐:生存分析及机器学习





往期推荐:时间序列分析




往期推荐:地统计分析-GIS、地图、相关、聚类、回归




往期推荐:科研自动化探究




往期推荐:趣味阅读




统计评书系列



医学统计数据分析工作室分享交流SPSS、R语言、Python、ArcGis、Geoda、GraphPad、数据分析图表制作等心得;承接数据分析,论文修回,医学统计,机器学习、深度学习、生存分析、空间分析,问卷分析业务。欢迎有科研需求的广大医务工作者关注“医学统计数据分析”工作室!!!

【声明】内容源于网络
0
0
医学统计数据分析
分享交流SPSS、R语言、Python、ArcGis、Geoda、GraphPad、数据分析图表制作等心得。承接数据分析,论文返修,医学统计,空间分析,机器学习,生存分析,时间序列,时空面板,深度学习,问卷分析等业务。公众号右下角可联系作者
内容 323
粉丝 0
医学统计数据分析 分享交流SPSS、R语言、Python、ArcGis、Geoda、GraphPad、数据分析图表制作等心得。承接数据分析,论文返修,医学统计,空间分析,机器学习,生存分析,时间序列,时空面板,深度学习,问卷分析等业务。公众号右下角可联系作者
总阅读415
粉丝0
内容323