内容选取自彭健教授主编
《种猪生产大数据分析》第五章。
原创内容,欢迎转发,务必注明信息来源。
Logistic回归模型(logistic regression model)是统计学中一种经典的分类算法,可简要概况为一组/多组解释变量预测一个/多个分类结局变量的统计分析方法,它也可以用来评估解释变量对结局变量的预期效果。该模型从19 世纪末期提出以来,在自然科学、医学和统计学等领域的数据处理中发挥着重要的作用,是一种常用的统计方法之一。
Logistic回归模型主要有两种分类标准,一种是按结局变量的类型数量和属性来分,当结局变量为二分类时,如公猪精液是否可用,母猪是否发生淘汰等,此时称之为二元Logistic回归模型;当结局变量为多分类时,此时又要根据结局变量的属性进一步区分,当结局变量具有递进逻辑时,如治疗母猪某种疾病后的效果为无效、有效和治愈,此时称之为有序多分类Logistic回归模型;当结局变量不具有递进逻辑时,如研究公猪淘汰原因的影响因素时,结局变量淘汰原因包括精液品质差、肢蹄病和性欲差三类,它们之间不存在递进逻辑,此时称之为无序多分类Logistic回归模型。
此外,还有一种是按照解释变量的个数来分,当解释变量个数只有一个时,称之为单因素Logistic回归;当解释变量个数大于等于两个时,称之为多因素Logistic回归模型。

由上所述可知,Logistic回归模型根据结局变量的属性分为二分类Logistic回归模型、无序多分类Logistic回归模型和有序多分类Logistic回归模型;根据解释变量的个数可以分为单因素Logistic回归模型和多因素Logistic回归模型。无论哪种分类,Logistic回归模型可以处理分类变量的问题。
在公猪生产数据分析应用中,Logistic回归模型可以用来研究公猪淘汰原因的影响因素、公猪精液弃用的影响因素和公猪肢蹄健康与否的影响因素等问题。
在母猪生产数据分析应用中,Logistic回归模型可以用来研究母猪淘汰原因的影响因素、母猪空怀率、返情率、流产率、分娩率和7d断配率等群体指标的影响因素以及疾病治疗效果(如前文提到的治疗母猪某种疾病后的效果为无效、有效和治愈)的问题。
Logistic回归作为能够准确判断出各影响因素对因变量影响程度和风险阈值的模型,相较于线性回归模型更适用于因变量是分类变量的情况。

