数学建模笔记1

赛题研究的目的

发生了什么?
描述性统计、综合评价、分类与判别
为什么要发生?
关联与因果分析、比较分析
未来如何发展?
预测与预报
现在应如何决策?
优化与控制

综合评价（指标从多维降为一维）

适用不同的问题：属于哪一类?排名是多少?最优方案是什么?

模糊综合评价
评价研究对象属于哪一类（例如优良中差）
主成分综合评价、因子分析、投影寻踪综合评价
研究排名。其中主成分有争议，推荐因子分析。投影寻踪常用于水质评价
层次分析法（AHP）、熵值法、秩和比综合评价、优劣解、距离法(TOPSIS法)
更多用于选择最优方案，也可排序
- 层次分析法和熵值法都是定权重
- 层次分析法容易受评委讨厌（被滥用）。且使用前必须说明两点
  1. 说清比较矩阵的由来（要有客观依据，比如如何调研）
  2. 要通过一致性检验，不能只求特征向量
灰色关联分析、数据包络（DEA）分析
用于比较排名

分类与判别

正态分布
需要符合中心极限定理

模糊聚类*
指标里有人为经验因素
系统聚类*
研究连续性数据、数据量大、基于距离（比如欧氏距离）
层次聚类
密度聚类
数据集比较稠密且形状非凸
其他聚类
贝叶斯判别
每一类都要服从正态分布
费舍尔判别
模糊识别
数据量要求小
神经网络
支持向量机
国内后两者谨慎使用，因为没有模型。神经网络适合模型检验，注意用于预测时过拟合

关联、因果与比较

Person相关（数据服从正态分布）、Sperman等级相关系数或kendall秩相关系数（没要求正态分布）、Copula相关系数（比较高端）
一对一变量分析
标准化回归、路径分析
多个变量对一个变量的关联分析
典型相关系数、偏最小二乘回归
多对多变量分析
主成分分析、因子分析、对应分析、岭回归、主成分回归等
没有因变量或多个变量高度相关
- 主成分能解决三个问题：多个变量里求最核心的
- 因子分析：多个变量里隐藏了哪个变量（公因子）
- 对应分析：两个不同属性变量的对应关系（例如很多指标与地区，问哪个指标在哪个地区表现得好），是主成分和因子分析的融合
- 岭回归：筛选变量（一个因变量若干自变量，去掉多余自变量）、通过统计学检验和残差检验但是没有过专业检验，比如模型得出不可思议结论（消费者收入增加，坐飞机人数减少），可用岭回归对其改造
- 主成分回归：预测、影响因素大小关系
格兰杰因果检验、协整检验
因果分析（适用国赛C题经济管理）
方差分析、协方差分析等
分类变量对连续性变量影响（例如施肥ABC水平对产量影响），要求正态分布
后者是其他种类的变量也会对连续性变量产生影响，但是需要消除其他种类的变量，专门研究分类变量对连续性变量的影响
正交设计、均匀设计
国赛中暂未出现过
混合线性模型
类似协方差分析
独立性检验
两个分类变量的关联
非参数的符号检验、秩和检验
不要求正态分布
非参数中的M检验法和H检验法
不要求正态分布
结构方程模型
一组变量和一组变量的关联

预测与预报

单序列预测:
1. 灰色预测模型（被滥用）
  - 数据量不大
  - 不知道数据分布
  - 具备指数趋势
2. 时间序列预测（ARIMA\ARCH\X11\GARCH)
  - 数据量大、波动性强
3. 小波分析预测、神经网络预测（RBF\GRNN）
  - 数据量大
4. 混沌序列预测、相空间重构理论
5. 马尔科夫预测
  - 数据随机波动
回归分析预测:
1. 线性回归、逐步回归、非线性回归
  - 因变量服从正态
2. logistic回归（使用趋势上升）、Probit回归
  - 因变量服从 01 分布
3. 虚拟变量回归
  - 因变量服从正态，自变量为分类
4. 响应面回归、正交二次回归等
  - 因变量服从正态
5. 动力方程、微分方程预测（可优化可预测）
6. 生存分析、泊松回归、分位数回归
  - 泊松回归：因变量服从泊松分布
7. 向量自回归、偏最小二乘回归
  - 多个变量间相互影响，要建立多方程

优化与控制

难度在于写出数学模型，而不是只用算法，否则没奖

线性规划、整数规划、0-1规划
非线性规划与智能优化算法
多目标规划和目标规划
网络优化
动态规划（和上一项有重复）
排队论与计算机仿真
模糊规划
随机优化（统计）

2012 A 葡萄酒评价问题

问题分析

有无显著性差异->比较问题
正态分布：方差分析、T检验（概率统计假设检验）
不一定正态分布：非参数的符号检验、秩和检验、H、M检验
可信：如果打分集中（多个人评价观点趋向一致），方差小
同一个人给不同酒评分应该有区分
分级：可综合评价可分类
多个指标对多个指标——关联分析
可以是预测问题（评价值可连续可离散分类logistic回归），关联分析。综合评价不合适（质量本来就有一个指标）。可分类判别

抓住出题人想法

最后一问是核心。酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
控制生产原材料质量
减少品酒评价成本

数据的预处理:

缺失值与异常值的处理
第一组红葡萄酒样20，评酒员4号中缺色调数据，6;
第一组白葡萄酒样3,7号评酒员的持久性超上限，77–7;
第一组白葡萄酒样8,9号评酒员的持久性超上限，16–6 ;
酿酒白葡萄的百粒质量第三组数据太大，2226.1–226.1。
这些缺失值都应该补上，或者在分析时删除

异常值：

聚类适合多维多序列
统计密度函数适合单序列

缺失值：（matlab表示为NAN)

插值法（线性、移动平均）
删除法
高频替代法
均值法
回归法
聚类法

查资料，确定思路:

“七分原料、三分酿造”，葡萄酒的质量主要决定于品种原料的质量，其次才是工艺和设备。
水和糖是葡萄的最主要成分，是葡萄能在酵母作用下发酵成葡萄酒的物质基础。糖、酸、单宁、色素和芳香物质是构成酿酒葡萄品质优劣的要素。葡萄的品种、生长环境、成熟度等都影响葡萄酒的质量。
优质葡萄酒是酸度、香气、风味等相互平衡的葡萄酒，而葡萄果实中糖、酸决定的是葡萄酒的酒度、味感。丹宁、总酚、芳香物质、花色。
素苷等决定葡萄酒的结构、香气、外观等质量特征

猜评阅标准

第1问
问题:分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信?
定义评价指标
好的品评结果应该是对同一酒样评价时这些评酒员之间的差距小、且这些酒样之间的区分度明确。
参考:红酒中样品23是好酒，样品12是较差的酒。
参考结论:两组评价结果有显著性差异;红酒第一组评价结果好，白酒第二组评价结果好。

第一问:方差分析，t检验，F检验，秩和检验，Wilcoxon符号秩检验，构造一些统计量，计算它们的值，是否通过检验，给出结果。

第二问:比较方差大小，Cronbach可信度系数，比较酒样F值和评酒员F值的相对大小，Spearman秩相关系数，肯德尔和谐系数法。

应该注意方差分析的条件是否满足，需要了解适用范围，对所得到的结果应该给出一些分析和说明。

wey的blog

数学建模竞赛笔记1