本站所有资源均为高质量资源,各种姿势下载。
以下是关于Matlab代码及数据集的说明:
1. 数据集为文本数据。因此,每个类别的名称分别按照表格中自上而下的顺序用数字1、2、3…15代替。例如,最上面的类别diaporthe-stem-canker用数字1代替。属性名称则用对应的次序从0开始代替。例如,当data=april时,数据表格中对应的data取值为0。
2. 实验程序完全按照朴素贝叶斯原理编写。这是一种基于概率论的分类方法,它假设属性之间相互独立。在这个实验中,我们运用了朴素贝叶斯原理来对数据进行分类。
3. 样本总数为290个,共分为15类。其中,每类样本大约有75%作为训练样本,剩余的25%作为测试样本。这样,训练样本共218个,测试样本共72个。
4. 实验中根据朴素贝叶斯原理计算的相关概率均来自训练样本中对应的频率。例如:
a) 每类中各属性的不同取值的概率为(以diaporthe-stem-canker标签类中data=4的概率为例):
p(data=4|diaporthe-stem-canker)=( diaporthe-stem-canker中data=4的频次)/(diaporthe-stem-canker包含的样本数);
b) 每个标签类的概率(以diaporthe-stem-canker类为例):
p(diaporthe-stem-canker)=( diaporthe-stem-canker包含的样本数)/(训练样本总数);
我们将利用训练样本得到的相关概率用于对测试样本分类,最终发现分类的正确率为77.7778%。
需要注意的是,本实验中所采用的朴素贝叶斯原理来源于网上博客。