数学建模笔记1
赛题研究的目的
发生了什么?
描述性统计、综合评价、分类与判别为什么要发生?
关联与因果分析、比较分析未来如何发展?
预测与预报现在应如何决策?
优化与控制
综合评价(指标从多维降为一维)
适用不同的问题:属于哪一类?排名是多少?最优方案是什么?
模糊综合评价
评价研究对象属于哪一类(例如优良中差)主成分综合评价、因子分析、投影寻踪综合评价
研究排名。其中主成分有争议,推荐因子分析。投影寻踪常用于水质评价层次分析法(AHP)、熵值法、秩和比综合评价、优劣解、距离法(TOPSIS法)
更多用于选择最优方案,也可排序- 层次分析法和熵值法都是定权重
- 层次分析法容易受评委讨厌(被滥用)。且使用前必须说明两点
- 说清比较矩阵的由来(要有客观依据,比如如何调研)
- 要通过一致性检验,不能只求特征向量
灰色关联分析、数据包络(DEA)分析
用于比较排名
分类与判别
正态分布
需要符合中心极限定理
模糊聚类*
指标里有人为经验因素系统聚类*
研究连续性数据、数据量大、基于距离(比如欧氏距离)层次聚类
密度聚类
数据集比较稠密且形状非凸其他聚类
贝叶斯判别
每一类都要服从正态分布费舍尔判别
模糊识别
数据量要求小神经网络
支持向量机
国内后两者谨慎使用,因为没有模型。神经网络适合模型检验,注意用于预测时过拟合
关联、因果与比较
Person相关(数据服从正态分布)、Sperman等级相关系数或kendall秩相关系数(没要求正态分布)、Copula相关系数(比较高端)
一对一变量分析标准化回归、路径分析
多个变量对一个变量的关联分析典型相关系数、偏最小二乘回归
多对多变量分析主成分分析、因子分析、对应分析、岭回归、主成分回归等
没有因变量或多个变量高度相关- 主成分能解决三个问题:多个变量里求最核心的
- 因子分析:多个变量里隐藏了哪个变量(公因子)
- 对应分析:两个不同属性变量的对应关系(例如很多指标与地区,问哪个指标在哪个地区表现得好),是主成分和因子分析的融合
- 岭回归:筛选变量(一个因变量若干自变量,去掉多余自变量)、通过统计学检验和残差检验但是没有过专业检验,比如模型得出不可思议结论(消费者收入增加,坐飞机人数减少),可用岭回归对其改造
- 主成分回归:预测、影响因素大小关系
格兰杰因果检验、协整检验
因果分析(适用国赛C题经济管理)方差分析、协方差分析等
分类变量对连续性变量影响(例如施肥ABC水平对产量影响),要求正态分布
后者是其他种类的变量也会对连续性变量产生影响,但是需要消除其他种类的变量,专门研究分类变量对连续性变量的影响正交设计、均匀设计
国赛中暂未出现过混合线性模型
类似协方差分析独立性检验
两个分类变量的关联非参数的符号检验、秩和检验
不要求正态分布非参数中的M检验法和H检验法
不要求正态分布结构方程模型
一组变量和一组变量的关联
预测与预报
单序列预测:
灰色预测模型(被滥用)
- 数据量不大
- 不知道数据分布
- 具备指数趋势
时间序列预测(ARIMA\ARCH\X11\GARCH)
- 数据量大、波动性强
小波分析预测、神经网络预测(RBF\GRNN)
- 数据量大
混沌序列预测、相空间重构理论
马尔科夫预测
- 数据随机波动
回归分析预测:
- 线性回归、逐步回归、非线性回归
- 因变量服从正态
- logistic回归(使用趋势上升)、Probit回归
- 因变量服从 01 分布
- 虚拟变量回归
- 因变量服从正态,自变量为分类
- 响应面回归、正交二次回归等
- 因变量服从正态
- 动力方程、微分方程预测(可优化可预测)
- 生存分析、泊松回归、分位数回归
- 泊松回归:因变量服从泊松分布
- 向量自回归、偏最小二乘回归
- 多个变量间相互影响,要建立多方程
- 线性回归、逐步回归、非线性回归
优化与控制
难度在于写出数学模型,而不是只用算法,否则没奖
- 线性规划、整数规划、0-1规划
- 非线性规划与智能优化算法
- 多目标规划和目标规划
- 网络优化
- 动态规划(和上一项有重复)
- 排队论与计算机仿真
- 模糊规划
- 随机优化(统计)
2012 A 葡萄酒评价问题
问题分析
- 有无显著性差异->比较问题
正态分布:方差分析、T检验(概率统计 假设检验)
不一定正态分布:非参数的符号检验、秩和检验、H、M检验
可信:如果打分集中(多个人评价观点趋向一致),方差小
同一个人给不同酒评分应该有区分 - 分级:可综合评价可分类
- 多个指标对多个指标——关联分析
- 可以是预测问题(评价值可连续可离散分类logistic回归),关联分析。综合评价不合适(质量本来就有一个指标)。可分类判别
抓住出题人想法
最后一问是核心。酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
控制生产原材料质量
减少品酒评价成本
数据的预处理:
缺失值与异常值的处理
第一组红葡萄酒样20,评酒员4号中缺色调数据,6;
第一组白葡萄酒样3,7号评酒员的持久性超上限,77–7;
第一组白葡萄酒样8,9号评酒员的持久性超上限,16–6 ;
酿酒白葡萄的百粒质量第三组数据太大,2226.1–226.1。
这些缺失值都应该补上,或者在分析时删除
异常值:
- 聚类适合多维多序列
- 统计密度函数适合单序列
缺失值:(matlab表示为NAN)
- 插值法(线性、移动平均)
- 删除法
- 高频替代法
- 均值法
- 回归法
- 聚类法
查资料,确定思路:
“七分原料、三分酿造”,葡萄酒的质量主要决定于品种原料的质量,其次才是工艺和设备。
水和糖是葡萄的最主要成分,是葡萄能在酵母作用下发酵成葡萄酒的物质基础。糖、酸、单宁、色素和芳香物质是构成酿酒葡萄品质优劣的要素。葡萄的品种、生长环境、成熟度等都影响葡萄酒的质量。
优质葡萄酒是酸度、香气、风味等相互平衡的葡萄酒,而葡萄果实中糖、酸决定的是葡萄酒的酒度、味感。丹宁、总酚、芳香物质、花色。
素苷等决定葡萄酒的结构、香气、外观等质量特征
猜评阅标准
第1问
问题:分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
定义评价指标
好的品评结果应该是对同一酒样评价时这些评酒员之间的差距小、且这些酒样之间的区分度明确。
参考:红酒中样品23是好酒,样品12是较差的酒。
参考结论:两组评价结果有显著性差异;红酒第一组评价结果好,白酒第二组评价结果好。
第一问:方差分析,t检验,F检验,秩和检验,Wilcoxon符号秩检验,构造一些统计量,计算它们的值,是否通过检验,给出结果。
第二问:比较方差大小,Cronbach可信度系数,比较酒样F值和评酒员F值的相对大小,Spearman秩相关系数,肯德尔和谐系数法。
应该注意方差分析的条件是否满足,需要了解适用范围,对所得到的结果应该给出一些分析和说明。