0%

数学建模竞赛笔记1

数学建模笔记1

赛题研究的目的

  1. 发生了什么?
    描述性统计、综合评价、分类与判别

  2. 为什么要发生?
    关联与因果分析、比较分析

  3. 未来如何发展?
    预测与预报

  4. 现在应如何决策?
    优化与控制

综合评价(指标从多维降为一维)

适用不同的问题:属于哪一类?排名是多少?最优方案是什么?

  1. 模糊综合评价
    评价研究对象属于哪一类(例如优良中差)

  2. 主成分综合评价、因子分析、投影寻踪综合评价
    研究排名。其中主成分有争议,推荐因子分析。投影寻踪常用于水质评价

  3. 层次分析法(AHP)、熵值法、秩和比综合评价、优劣解、距离法(TOPSIS法)
    更多用于选择最优方案,也可排序

    • 层次分析法和熵值法都是定权重
    • 层次分析法容易受评委讨厌(被滥用)。且使用前必须说明两点
      1. 说清比较矩阵的由来(要有客观依据,比如如何调研)
      2. 要通过一致性检验,不能只求特征向量
  4. 灰色关联分析、数据包络(DEA)分析
    用于比较排名

分类与判别

正态分布
需要符合中心极限定理

  1. 模糊聚类*
    指标里有人为经验因素

  2. 系统聚类*
    研究连续性数据、数据量大、基于距离(比如欧氏距离)

  3. 层次聚类

  4. 密度聚类
    数据集比较稠密且形状非凸

  5. 其他聚类

  6. 贝叶斯判别
    每一类都要服从正态分布

  7. 费舍尔判别

  8. 模糊识别
    数据量要求小

  9. 神经网络

  10. 支持向量机
    国内后两者谨慎使用,因为没有模型。神经网络适合模型检验,注意用于预测时过拟合

关联、因果与比较

  1. Person相关(数据服从正态分布)、Sperman等级相关系数或kendall秩相关系数(没要求正态分布)、Copula相关系数(比较高端)
    一对一变量分析

  2. 标准化回归、路径分析
    多个变量对一个变量的关联分析

  3. 典型相关系数、偏最小二乘回归
    多对多变量分析

  4. 主成分分析、因子分析、对应分析、岭回归、主成分回归等
    没有因变量或多个变量高度相关

    • 主成分能解决三个问题:多个变量里求最核心的
    • 因子分析:多个变量里隐藏了哪个变量(公因子)
    • 对应分析:两个不同属性变量的对应关系(例如很多指标与地区,问哪个指标在哪个地区表现得好),是主成分和因子分析的融合
    • 岭回归:筛选变量(一个因变量若干自变量,去掉多余自变量)、通过统计学检验和残差检验但是没有过专业检验,比如模型得出不可思议结论(消费者收入增加,坐飞机人数减少),可用岭回归对其改造
    • 主成分回归:预测、影响因素大小关系
  5. 格兰杰因果检验、协整检验
    因果分析(适用国赛C题经济管理)

  6. 方差分析、协方差分析等
    分类变量对连续性变量影响(例如施肥ABC水平对产量影响),要求正态分布
    后者是其他种类的变量也会对连续性变量产生影响,但是需要消除其他种类的变量,专门研究分类变量对连续性变量的影响

  7. 正交设计、均匀设计
    国赛中暂未出现过

  8. 混合线性模型
    类似协方差分析

  9. 独立性检验
    两个分类变量的关联

  10. 非参数的符号检验、秩和检验
    不要求正态分布

  11. 非参数中的M检验法和H检验法
    不要求正态分布

  12. 结构方程模型
    一组变量和一组变量的关联

预测与预报

  1. 单序列预测:

    1. 灰色预测模型(被滥用)

      • 数据量不大
      • 不知道数据分布
      • 具备指数趋势
    2. 时间序列预测(ARIMA\ARCH\X11\GARCH)

      • 数据量大、波动性强
    3. 小波分析预测、神经网络预测(RBF\GRNN)

      • 数据量大
    4. 混沌序列预测、相空间重构理论

    5. 马尔科夫预测

      • 数据随机波动
  2. 回归分析预测:

    1. 线性回归、逐步回归、非线性回归
      • 因变量服从正态
    2. logistic回归(使用趋势上升)、Probit回归
      • 因变量服从 01 分布
    3. 虚拟变量回归
      • 因变量服从正态,自变量为分类
    4. 响应面回归、正交二次回归等
      • 因变量服从正态
    5. 动力方程、微分方程预测(可优化可预测)
    6. 生存分析、泊松回归、分位数回归
      • 泊松回归:因变量服从泊松分布
    7. 向量自回归、偏最小二乘回归
      • 多个变量间相互影响,要建立多方程

优化与控制

难度在于写出数学模型,而不是只用算法,否则没奖

  1. 线性规划、整数规划、0-1规划
  2. 非线性规划与智能优化算法
  3. 多目标规划和目标规划
  4. 网络优化
  5. 动态规划(和上一项有重复)
  6. 排队论与计算机仿真
  7. 模糊规划
  8. 随机优化(统计)

2012 A 葡萄酒评价问题

问题分析

  1. 有无显著性差异->比较问题
    正态分布:方差分析、T检验(概率统计 假设检验)
    不一定正态分布:非参数的符号检验、秩和检验、H、M检验
    可信:如果打分集中(多个人评价观点趋向一致),方差小
    同一个人给不同酒评分应该有区分
  2. 分级:可综合评价可分类
  3. 多个指标对多个指标——关联分析
  4. 可以是预测问题(评价值可连续可离散分类logistic回归),关联分析。综合评价不合适(质量本来就有一个指标)。可分类判别

抓住出题人想法

最后一问是核心。酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
控制生产原材料质量
减少品酒评价成本

数据的预处理:

缺失值与异常值的处理
第一组红葡萄酒样20,评酒员4号中缺色调数据,6;
第一组白葡萄酒样3,7号评酒员的持久性超上限,77–7;
第一组白葡萄酒样8,9号评酒员的持久性超上限,16–6 ;
酿酒白葡萄的百粒质量第三组数据太大,2226.1–226.1。
这些缺失值都应该补上,或者在分析时删除

异常值:

  • 聚类适合多维多序列
  • 统计密度函数适合单序列

缺失值:(matlab表示为NAN)

  • 插值法(线性、移动平均)
  • 删除法
  • 高频替代法
  • 均值法
  • 回归法
  • 聚类法

查资料,确定思路:

“七分原料、三分酿造”,葡萄酒的质量主要决定于品种原料的质量,其次才是工艺和设备。
水和糖是葡萄的最主要成分,是葡萄能在酵母作用下发酵成葡萄酒的物质基础。糖、酸、单宁、色素和芳香物质是构成酿酒葡萄品质优劣的要素。葡萄的品种、生长环境、成熟度等都影响葡萄酒的质量。
优质葡萄酒是酸度、香气、风味等相互平衡的葡萄酒,而葡萄果实中糖、酸决定的是葡萄酒的酒度、味感。丹宁、总酚、芳香物质、花色。
素苷等决定葡萄酒的结构、香气、外观等质量特征

猜评阅标准

第1问
问题:分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
定义评价指标
好的品评结果应该是对同一酒样评价时这些评酒员之间的差距小、且这些酒样之间的区分度明确。
参考:红酒中样品23是好酒,样品12是较差的酒。
参考结论:两组评价结果有显著性差异;红酒第一组评价结果好,白酒第二组评价结果好。

第一问:方差分析,t检验,F检验,秩和检验,Wilcoxon符号秩检验,构造一些统计量,计算它们的值,是否通过检验,给出结果。

第二问:比较方差大小,Cronbach可信度系数,比较酒样F值和评酒员F值的相对大小,Spearman秩相关系数,肯德尔和谐系数法。

应该注意方差分析的条件是否满足,需要了解适用范围,对所得到的结果应该给出一些分析和说明。