神经网络流程图
㈠ 数据挖掘的基本流程是什么
数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘。本节主要讲解数据挖掘的基本规范流程。CRISP-DM和SEMMA是两种常用的数据挖掘流程。
从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。
步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。不是每件数据挖掘的工作都需要这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤(2)便可以省略。
步骤(3)数据规约、步骤(4)数据清理、步骤(5)数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而其中至少60%以上的精力和时间花在了数据预处理过程中。
㈡ 数学建模里人工神经网络到底是什么流程,数据预处理,隐层数,权值,传输函数是什么关系。这个模型的作用
关系实际上就是关系模式在某一时刻的状态或内容。也就是说,关系模式是版型,关系是它的值。关系权模式是静态的、稳定的,而关系是动态的、随时间不断变化的,因为关系操作在不断地更新着数据库中的数据。
但在实际当中,常常把关系模式和关系统称为关系,读者可以从上下文中加以区别。
㈢ 数据挖掘的方法及实施
数据挖掘的方法及实施
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型:
传统统计方法:①抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。②多元统计分析:因子分析,聚类分析等。③统计预测方法,如回归分析,时间序列分析等。
可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。
决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。
神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。
遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。
关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…An→B1∧B2∧…Bn”。一般分为两个步骤:①求出大数据项集。②用大数据项集产生关联规则。
除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords,最邻近算法(k-nearest neighbors method(KNN))等。
数据挖掘的实施流程
前面我们讨论了数据挖掘的定义,功能和方法,现在关键的问题是如何实施,其一般的数据挖掘流程如下:
问题理解和提出→数据准备→数据整理→建立模型→评价和解释
问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。
数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。
数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数掘结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。
建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型。
评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。
以上的流程不是一次完成的,可能其中某些步骤或者全部要反复进行。
㈣ 基于BP神经网络识别火灾的模型的研究 用LABVIEW建模进行仿真,谁能告诉我大概是个什么流程,论文写到硬件
挽尊萨达是倒萨倒萨
㈤ 有没有专业神经网络图可视化的软件
Edraw max可以用来制作网络图,操作简单,内置的模板,也可以绘制流程图,思维导图。
㈥ 训练好的BP网络 想用在simulink中做成一个模块 连接到系统控制框图中 用来根据输入预估输出 应该怎么办
我写一个简单的你看看吧
%S-function for continuous state equation
function [sys,x0,str,ts]=qq(t,x,u,flag)
switch flag,
%Initialization
case 0,
[sys,x0,str,ts]=mdlInitializeSizes;%初始化
%Outputs
case 3,
sys=mdlOutputs(t,x,u);%求系统的输出信号
%Unhandled flags%未定义的flag
case {2, 4, 9 }
sys = [];
%Unexpected flags%错误处理
otherwise
error(['Unhandled flag = ',num2str(flag)]);
end
%mdlInitializeSizes
function [sys,x0,str,ts]=mdlInitializeSizes
sizes = simsizes;%读入系统变量默认值
sizes.NumContStates = 0;%连续状态
sizes.NumDiscStates = 0;%离散状态
sizes.NumOutputs = 1;%输出
sizes.NumInputs = 2;%输入
sizes.DirFeedthrough = 1;
sizes.NumSampleTimes = 0;%采样周期的个数
sys=simsizes(sizes);
x0=[];
str=[];
ts=[];
function sys=mdlOutputs(t,x,u)
中间的写自己想要的程序
sys(1)=u1;
sys(2)=u2
找一本simulink书看看吧
s函数目前支持flag={1,2,3,4,9}。在实际仿真过程中,会自动先flag赋值为0,进行初始化,在flag=3,计算输出;一个仿真周期后会赋flag=1和2,更新系统的连续和离散状态,再付flag=3计算输出。周而复始的循环直至仿真结束flag=9,终止仿真。
希望对你有帮助
㈦ 如何使用visio画神经网络
用普通流程图就可以~~
你在线上标不就成么 那也有没箭头的连线
㈧ 面向对象程序设计的三大特点是什么各自的特点又是什么呢谢谢!
面向对象程序设计
作者:佚名 文章来源:不详 点击数:11677 更新时间:2005-10-14
作者:Ramchandra Garge
软件危机(Software Crisis)
软件技术总是处于不断发展变化中,新工具、新技术相继产生。这就要求软件产业和软件工程师们不停的寻求软件设计和开发的新途径。由于日益增长的软件系统的复杂性和软件产业内部愈演愈烈的竞争,这种要求变得更加紧迫。为了克服这种要求带来的软件危机,必须解决以下问题:
1、在系统设计中,如何表现问题的真实实体?
2、如何以开放的界面(interface)设计系统?
3、如何保证模块(mole)的可重用性(reusability)和可扩展性(extensibility)?
4、如何开发能够容忍(tolerant)未来可能的变化模块?
5、如何提高软件的生产力和减少软件开销?
6、如何管理进度表?
7、如何提高软件质量?
8、如何将软件开发过程工业化?
当软件产品在未完成时、未被使用时或者带着各种各样的错误发布时,问题就会出现。另外,用户需求的改变已经成为一个重要问题。多份关于软件实现的报告显示,在软件产品发布和使用之前,需要仔细进行质量评估。通常状态评估中应该考虑的质量因素包括:
1、正确性(Correctness)
2、可维护性(Maintainability)
3、可重用性(Reusability)
4、开放性(Openness)和可解释性(Interpretability)
5、可移植性(Portability)
6、安全性(Security)
7、完整性(Integrity)
8、用户友好性(User friendliness)
软件演化(Software Evolution)
Ernest Tello——人工智能领域的著名作家——将软件技术的演化比喻为树的生长。和树一样,软件的演化具有明显的阶段性,这些阶段称为层(layer)。过去四十年中,这些层逐步被建立起来,每一个层都由前一个层发展而成。图1显示了这个过程。但是关于树的比喻在遇到层的生命期的问题时失败了。在软件系统中,每个层都在持续的发挥作用,而在树中,只有最上层的层才有用。
面向对象程序设计(OOP)是完成程序设计工作的新方法。自从计算机发明以来,为了适应程序复杂性的不断增长,程序设计的方法有了戏剧性的变化。汇编语言被发明出来以后,程序员们总算可以用符号表示那些机器指令,从而可以编写更长、更复杂的程序。当程序规模继续不停增长的时候,高级语言被引入,为程序员们提供了更多工具对付日益增加的复杂性。第一个被普遍使用的语言是FORTRAN。不过虽然FORTRAN迈出了重大的第一步,但用它写出的代码很难说是清晰的和容易理解的。
1960年结构化程序设计思想诞生。C和Pascal等语言都大力提倡这种程序设计的方法。结构化程序设计语言使得编写较复杂的程序变得容易。但是,一旦某个项目达到一定规模,即使使用结构化程序设计的方法,局势仍将变得不可控制。
在程序设计方法发展过程中,每一次重大突破都使得程序员可以应对更大的复杂性。在这条道路上迈出的每一步中,新的方法都运用和发展了以前的方法中最好的理念。今天,许多项目的规模又进一步发展。为了解决这个问题,面向对象程序设计方法应运而生。
在详细介绍面向对象程序设计之前,让我们简单了解一下面向过程程序设计的方法。在面向过程的程序设计方法中,问题被看作一系列将被完成的任务,如读、计算和打印。许多函数用于完成这些任务。问题的焦点集中于函数。图2显示了一个典型的面向过程的程序结构。分层分解的技术被用来确定一系列需要被完成的任务,以解决特定的问题。
面向过程程序设计的基本任务是编写计算机执行的指令序列,并把这些指令以函数的方式组织起来。通常我们使用流程图组织这些行为(action),并描述从一个行为到另一个行为的控制流。
当我们集中精力开发函数的时候,很少会去注意那些被多个函数使用的数据(data)。在这些数据身上发生了什么事情?那些使用这些数据的函数又对它们产生了什么影响?
在多函数(multi-function)程序中,许多重要的数据被放置在全局数据区,这样它们可以被所有的函数访问。每个函数都可以具有它们自己的局部数据。图3显示了一个面向过程程序中函数和数据的关系。
面向对象程序设计模式
发明面向对象程序设计方法的主要出发点是弥补面向过程程序设计方法中的一些缺点。OOP把数据看作程序开发中的基本元素,并且不允许它们在系统中自由流动。它将数据和操作这些数据的函数紧密的连结在一起,并保护数据不会被外界的函数意外的改变。OOP允许我们将问题分解为一系列实体——这些实体被称为对象(object),然后围绕这些实体建立数据和函数。面向对象程序设计中的数据和函数的组织结构如图4所示。
一个对象的数据不能访问其它对象的函数,而一个对象的函数可以访问其它对象的函数。
面向对象程序设计的一些显著的特性包括:
·程序设计的重点在于数据而不是过程;
·程序被划分为所谓的对象;
·数据结构为表现对象的特性而设计;
·函数作为对某个对象数据的操作,与数据结构紧密的结合在一起;
·数据被隐藏起来,不能为外部函数访问;
·对象之间可以通过函数沟通;
·新的数据和函数可以在需要的时候轻而易举的添加进来;
·在程序设计过程中遵循由下至上(bottom-up)的设计方法。
面向对象程序设计在程序设计模式中是一个新的概念,对于不同的人可能意味着不同的内容。因此在我们继续下面的内容之前,最好给面向对象程序设计下一个定义。我们对面向对象程序设计的定义是“面向对象程序设计是一种方法,这种方法为数据和函数提供共同的独立内存空间,这些数据和函数可以作为模板以便在需要时创建类似模块的拷贝。这样的程序设计方法称为面向对象程序设计。”
从以上定义可以看到,一个对象被认为是计算机内存中的一个独立区间,在这个区间中保存着数据和能够访问数据的一组操作。因为内存区间是相互独立的,所以对象可以不经修改就应用于多个不同的程序中。
什么是面向对象程序设计?
面向对象程序设计(OOP)技术汲取了结构化程序设计中好的思想,并将这些思想与一些新的、强大的理念相结合,从而给你的程序设计工作提供了一种全新的方法。通常,在面向对象的程序设计风格中,你会将一个问题分解为一些相互关联的子集,每个子集内部都包含了相关的数据和函数。同时,你会以某种方式将这些子集分为不同等级,而一个对象就是已定义的某个类型的变量。当你定义了一个对象,你就隐含的创建了一个新的数据类型。
面向对象程序设计中的基本概念
“面向对象”作为一个术语,在不同的人群中有着不同的解释。因此,了解一些在面向对象程序设计中广泛应用的概念是必须的。本节我们讨论以下这些内容:
1、对象(Object)
2、类(Class)
3、数据抽象(Data abstraction)
4、继承(Inheritance)
5、动态绑定(Dynamic binding)
6、数据封装(Data encapsulation)
7、多态性(Polymorphism)
8、消息传递(Message passing)
对象
在一个面向对象的系统中,对象是运行期的基本实体。它可以用来表示一个人或者说一个银行帐户,一张数据表格,或者其它什么需要被程序处理的东西。它也可以用来表示用户定义的数据,例如一个向量,时间或者列表。在面向对象程序设计中,问题的分析一般以对象及对象间的自然联系为依据。如前所述,对象在内存中占有一定空间,并且具有一个与之关联的地址,就像Pascal中的record和C中的结构一样。
当一个程序运行时,对象之间通过互发消息来相互作用。例如,程序中包含一个“customer”对象和一个“account”对象,而customer对象可能会向account对象发送一个消息,查询其银行帐目。每个对象都包含数据以及操作这些数据的代码。即使不了解彼此的数据和代码的细节,对象之间依然可以相互作用,所要了解的只是对象能够接受的消息的类型,以及对象返回的响应的类型,虽然不同的人会以不同的方法实现它们。
类
我们刚才提到,对象包含数据以及操作这些数据的代码。一个对象所包含的所有数据和代码可以通过类来构成一个用户定义的数据类型。事实上,对象就是类类型(class type)的变量。一旦定义了一个类,我们就可以创建这个类的多个对象,每个对象与一组数据相关,而这组数据的类型在类中定义。因此,一个类就是具有相同类型的对象的抽象。例如,芒果、苹果和桔子都是fruit类的对象。类是用户定义的数据类型,但在一个程序设计语言中,它和内建的数据类型行为相同。比如创建一个类对象的语法和创建一个整数对象的语法一模一样。如果fruit被定义为一个类,那么语句
fruit mango;
就创建了一个fruit类的对象mango。
数据抽象和封装
把数据和函数包装在一个单独的单元(称为类)的行为称为封装。数据封装是类的最典型特点。数据不能被外界访问,只能被封装在同一个类中的函数访问。这些函数提供了对象数据和程序之间的接口。避免数据被程序直接访问的概念被称为“数据隐藏”。
抽象指仅表现核心的特性而不描述背景细节的行为。类使用了抽象的概念,并且被定义为一系列抽象的属性如尺寸、重量和价格,以及操作这些属性的函数。类封装了将要被创建的对象的所有核心属性。因为类使用了数据抽象的概念,所以它们被称为抽象数据类型(ADT)。
封装
封装机制将数据和代码捆绑到一起,避免了外界的干扰和不确定性。它同样允许创建对象。简单的说,一个对象就是一个封装了数据和操作这些数据的代码的逻辑实体。
在一个对象内部,某些代码和(或)某些数据可以是私有的,不能被外界访问。通过这种方式,对象对内部数据提供了不同级别的保护,以防止程序中无关的部分意外的改变或错误的使用了对象的私有部分。
继承
继承是可以让某个类型的对象获得另一个类型的对象的属性的方法。它支持按级分类的概念。例如,知更鸟属于飞鸟类,也属于鸟类。就像图5中描绘的那样,这种分类的原则是,每一个子类都具有父类的公共特性。
在OOP中,继承的概念很好的支持了代码的重用性(reusability),也就是说,我们可以向一个已经存在的类中添加新的特性,而不必改变这个类。这可以通过从这个已存在的类派生一个新类来实现。这个新的类将具有原来那个类的特性,以及新的特性。而继承机制的魅力和强大就在于它允许程序员利用已经存在的类(接近需要,而不是完全符合需要的类),并且可以以某种方式修改这个类,而不会影响其它的东西。
注意,每个子类只定义那些这个类所特有的特性。而如果没有按级分类,每类都必须显式的定义它所有的特性。
多态
多态是OOP的另一个重要概念。多态的意思是事物具有不同形式的能力。举个例子,对于不同的实例,某个操作可能会有不同的行为。这个行为依赖于所要操作数据的类型。比如说加法操作,如果操作的数据是数,它对两个数求和。如果操作的数据是字符串,则它将连接两个字符串。
图6演示了一个函数处理不同数量、不同类型的参数。就像某个单词在不同的上下文中具有不同的含义。
多态机制使具有不同内部结构的对象可以共享相同的外部接口。这意味着,虽然针对不同对象的具体操作不同,但通过一个公共的类,它们(那些操作)可以通过相同的方式予以调用。多态在实现继承的过程中被广泛应用。
面向对象程序设计语言支持多态,术语称之为“one interface multiple method(一个接口,多个实现)”。简单来说,多态机制允许通过相同的接口引发一组相关但不相同的动作,通过这种方式,可以减少代码的复杂度。在某个特定的情况下应该作出怎样的动作,这由编译器决定,而不需要程序员手工干预。
在多函数程序中,许多重要的数据被声明为全局变量,这样它们才可以被所有的函数访问。每个函数又可以具有它自己的局部变量。全局变量很容易被某个函数不经意之间改变。而在一个大程序中,很难分辨每个函数都使用了哪些变量。如果我们需要修改某个外部数据的结构,我们就要修改所有访问这个数据的函数。这很容易导致bug的产生。
在结构化程序设计中,另一个严重的缺陷是不能很好的模拟真实世界的问题。这是因为函数都是面向过程的,而不是真正的对应于问题中的各个元素。
面向过程的程序设计的一些特点如下:
·强调做(算法);
·大程序被分隔为许多小程序,这些小程序称为函数;
·大多数函数共享全局数据;
·数据开放的由一个函数流向另一个函数。函数把数据从一种形式转换为另一种形式。
采用由上至下的程序设计方法。
动态绑定
绑定指的是将一个过程调用与相应代码链接起来的行为。动态绑定的意思是,与给定的过程调用相关联的代码只有在运行期才可知。它与多态和继承的联系极为紧密。一个多态引用的函数调用决定于这个引用的动态类型。
考虑图6中的“draw”方法。通过继承,每个对象都具备了这个过程。但是,对于不同的对象它的算法是不同的,因此,draw过程必须在每一个类中重新定义。在运行期,当前引用对象所对应的代码将被调用。
消息传递
一个面向对象的程序由许多对象组成,这些对象之间需要相互沟通。因此,在面向对象程序设计语言中,程序设计的主要步骤如下:
1、创建类,这些类定义了对象及其行为;
2、由类定义创建对象;
3、建立对象之间的通讯。
对象之间通过收发信息相互沟通,这一点类似于人与人之间的信息传递。信息传递的概念使得真实世界的直接模拟更易于和建立系统交流。
对于某个特定对象来说,消息就是请求执行某个过程,因此,消息的接收对象会调用一个函数(过程),以产生预期的结果。传递的消息的内容包括接收消息的对象的名字,需要调用的函数的名字,以及必要的信息。
对象就有一个生命周期。它们可以被创建和销毁。只要对象正处于其生存期,就可以与其进行通讯。
OOP的优点
OOP具有许多优点,无论是对于程序设计者或者用户来说都是如此。面向对象为软件产品扩展和质量保证中的许多问题提供了解决办法。这项技术能够大大提高程序员的生产力,并可提高软件的质量以及降低其维护费用。其主要的优点陈列于下:
1、通过继承,我们可以大幅减少多余的代码,并扩展现有代码的用途;
2、我们可以在标准的模块上(这里所谓的“标准”指程序员之间彼此达成的协议)构建我们的程序,而不必一切从头开始。这可以减少软件开发时间并提高生产效率;
3、数据隐藏的概念帮助程序员们保护程序免受外部代码的侵袭;
4、允许一个对象的多个实例同时存在,而且彼此之间不会相互干扰;
5、允许将问题空间中的对象直接映射到程序中;
6、基于对象的工程可以很容易的分割为独立的部分;
7、以数据为中心的设计方法允许我们抓住可实现模型的更多细节;
8、面向对象的系统很容易从小到大逐步升级;
9、对象间通讯所使用的消息传递技术与外部系统接口部分的描述更简单;
10、更便于控制软件复杂度。
当需要将以上所说的所有特性有机的结合于一个面向对象系统中,它们之间的相对重要性就取决于工程的类型和程序员的喜好。为了获得上述的某些优势,必须考虑很多事情。例如,对象库必须可以被重用。技术还在不停的发展,现有的产品也会很快的更新换代。如果重用没有能够实现,那么就需要进行严格的控制和管理。
易于使用的开发软件往往难以编写。面向对象程序设计工具有望解决这个问题。
面向对象程序设计语言
面向对象技术并不是某个特定语言的特权。如同结构化程序设计一样,OOP概念可以在很多语言比如C和Pascal中实现。但是,当程序越来越大时,程序设计工作会变得拙劣而混乱。而一个支持OOP概念的程序设计语言则可以让一切变得简单。
一个语言必须支持几个主要的OOP概念才能称其是面向对象的。根据所支持的OOP特性,语言可以分为以下两类:
1、基于对象的程序设计语言;
2、面向对象的程序设计语言。
基于对象的程序设计语言仅支持封装和对象辨识。
一个面向对象的程序设计语言所要支持的重要特性如下:
·数据封装
·数据隐藏和访问机制
·对象的自动初始化和清除
·操作符重载
支持对象风格程序设计的语言称为基于对象的程序设计语言。它们不支持继承和动态绑定。
Ada就是一个典型的基于对象的程序设计语言。
面向对象的程序设计不仅仅包含基于对象程序设计的特性,还支持继承和动态绑定。
OOP的应用
OOP最有前途的应用领域如下:
1、实时系统;
2、仿真和建模;
3、面相对象数据库;
4、超文本、超媒体和扩展文本;
5、AI和专家系统;
6、神经网络和并行程序设计;
7、决策支持和办公自动化系统;
8、CIM/CAM/CAD系统。
㈨ 文本分类系统的流程及步骤
文本分类系统的总体功能模块为:
1、预处理:将原始语料格式化为同一格式,便于后续的统一处理。
2、索引:将文档分解为基本处理单元,同时降低后续处理的开销。
3、统计:词频统计,项(单词、概念)与分类的相关概率。
4、特征抽取:从文档中抽取出反映文档主题的特征。
5、分类器:分类器的训练。
6、评价:分类器的测试结果分析。
(9)神经网络流程图扩展阅读
文本分类已广泛应用于网络信息过滤、信息检索和信息推荐等多个方面。数据驱动分类器学习一直是近年来的热点,方法很多,比如神经网络、决策树、支持向量机、朴素贝叶斯等。相对于其他精心设计的更复杂的分类算法,朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。
直观的文本分类算法,也是最简单的贝叶斯分类器,具有很好的可解释性,朴素贝叶斯算法特点是假设所有特征的出现相互独立互不影响,每一特征同等重要。
但事实上这个假设在现实世界中并不成立:首先,相邻的两个词之间的必然联系,不能独立;其次,对一篇文章来说,其中的某一些代表词就确定它的主题,不需要通读整篇文章、查看所有词。所以需要采用合适的方法进行特征选择,这样朴素贝叶斯分类器才能达到更高的分类效率。
㈩ 伤寒、副伤寒流行预测模型(BP神经网络)的建立
由于目前研究的各种数学模型或多或少存在使用条件的局限性,或使用方法的复杂性等问题,预测效果均不十分理想,距离实际应用仍有较大差距。NNT是Matlab 中较为重要的一个工具箱,在实际应用中,BP 网络用的最广泛。神经网络具有综合能力强,对数据的要求不高,适时学习等突出优点,其操作简便,节省时间,网络初学者即使不了解其算法的本质,也可以直接应用功能丰富的函数来实现自己的目的。因此,易于被基层单位预防工作者掌握和应用。以下几个问题是建立理想的因素与疾病之间的神经网络模型的关键:
(1)资料选取
应尽可能地选取所研究地区系统连续的因素与疾病资料,最好包括有疾病高发年和疾病低发年的数据。在收集影响因素时,要抓住主要影响伤寒、副伤寒的发病因素。
(2)疾病发病率分级
神经网络预测法是按发病率高低来进行预测,在定义发病率等级时,要结合专业知识及当地情况而定,并根据网络学习训练效果而适时调整,以使网络学习训练达到最佳效果。
(3)资料处理问题
在实践中发现,资料的特征往往很大程度地影响网络学习和训练的稳定性,因此,数据的应用、纳入、排出问题有待于进一步研究。
6.3.1 人工神经网络的基本原理
人工神经网络(ANN)是近年来发展起来的十分热门的交叉学科,它涉及生物、电子、计算机、数学和物理等学科,有着广泛的应用领域。人工神经网络是一种自适应的高度非线性动力系统,在网络计算的基础上,经过多次重复组合,能够完成多维空间的映射任务。神经网络通过内部连接的自组织结构,具有对数据的高度自适应能力,由计算机直接从实例中学习获取知识,探求解决问题的方法,自动建立起复杂系统的控制规律及其认知模型。
人工神经网络就其结构而言,一般包括输入层、隐含层和输出层,不同的神经网络可以有不同的隐含层数,但他们都只有一层输入和一层输出。神经网络的各层又由不同数目的神经元组成,各层神经元数目随解决问题的不同而有不同的神经元个数。
6.3.2 BP神经网络模型
BP网络是在1985年由PDP小组提出的反向传播算法的基础上发展起来的,是一种多层次反馈型网络(图6.17),它在输入和输出之间采用多层映射方式,网络按层排列,只有相邻层的节点直接相互连接,传递之间信息。在正向传播中,输入信息从输入层经隐含层逐层处理,并传向输出层,每层神经元的状态只影响下一层神经元的状态。如果输出层不能得到期望的输出结果,则转入反向传播,将误差信号沿原来的连同通路返回,通过修改各层神经元的权值,使误差信号最小。
BP网络的学习算法步骤如下(图6.18):
图6.17 BP神经网络示意图
图6.18 BP算法流程图
第一步:设置初始参数ω和θ,(ω为初始权重,θ为临界值,均随机设为较小的数)。
第二步:将已知的样本加到网络上,利用下式可算出他们的输出值yi,其值为
岩溶地区地下水与环境的特殊性研究
式中:xi为该节点的输入;ωij为从I到j的联接权;θj为临界值;yj为实际算出的输出数据。
第三步:将已知输出数据与上面算出的输出数据之差(dj-yj)调整权系数ω,调整量为
ΔWij=ηδjxj
式中:η为比例系数;xj为在隐节点为网络输入,在输出点则为下层(隐)节点的输出(j=1,2…,n);dj为已知的输出数据(学习样本训练数据);δj为一个与输出偏差相关的值,对于输出节点来说有
δj=ηj(1-yj)(dj-yj)
对于隐节点来说,由于它的输出无法进行比较,所以经过反向逐层计算有
岩溶地区地下水与环境的特殊性研究
其中k指要把上层(输出层)节点取遍。误差δj是从输出层反向逐层计算的。各神经元的权值调整后为
ωij(t)=ωij(t-1)+Vωij
式中:t为学习次数。
这个算法是一个迭代过程,每一轮将各W值调整一遍,这样一直迭代下去,知道输出误差小于某一允许值为止,这样一个好的网络就训练成功了,BP算法从本质上讲是把一组样本的输入输出问题变为一个非线性优化问题,它使用了优化技术中最普遍的一种梯度下降算法,用迭代运算求解权值相当于学习记忆问题。
6.3.3 BP 神经网络模型在伤寒、副伤寒流行与传播预测中的应用
伤寒、副伤寒的传播与流行同环境之间有着一定的联系。根据桂林市1990年以来乡镇为单位的伤寒、副伤寒疫情资料,伤寒、副伤寒疫源地资料,结合现有资源与环境背景资料(桂林市行政区划、土壤、气候等)和社会经济资料(经济、人口、生活习惯等统计资料)建立人工神经网络数学模型,来逼近这种规律。
6.3.3.1 模型建立
(1)神经网络的BP算法
BP网络是一种前馈型网络,由1个输入层、若干隐含层和1个输出层构成。如果输入层、隐含层和输出层的单元个数分别为n,q1,q2,m,则该三层网络网络可表示为BP(n,q1,q2,m),利用该网络可实现n维输入向量Xn=(X1,X2,…,Xn)T到m维输出向量Ym=(Y1,Y2,…,Ym)T的非线性映射。输入层和输出层的单元数n,m根据具体问题确定。
(2)样本的选取
将模型的输入变量设计为平均温度、平均降雨量、岩石性质、岩溶发育、地下水类型、饮用水类型、正规自来水供应比例、集中供水比例8个输入因子(表6.29),输出单元为伤寒副伤寒的发病率等级,共一个输出单元。其中q1,q2的值根据训练结果进行选择。
表6.29 桂林市伤寒副伤寒影响因素量化表
通过分析,选取在伤寒副伤寒有代表性的县镇在1994~2001年的环境参评因子作为样本进行训练。利用聚类分析法对疫情进行聚类分级(Ⅰ、Ⅱ、Ⅲ、Ⅳ),伤寒副伤寒发病最高级为Ⅳ(BP网络中输出定为4),次之的为Ⅲ(BP网络中输出定为3),以此类推,最低为Ⅰ(BP网络中输出定为1)
(3)数据的归一化处理
为使网络在训练过程中易于收敛,我们对输入数据进行了归一化处理,并将输入的原始数据都化为0~1之间的数。如将平均降雨量的数据乘以0.0001;将平均气温的数据乘以0.01;其他输入数据也按类似的方法进行归一化处理。
(4)模型的算法过程
假设共有P个训练样本,输入的第p个(p=1,2,…,P)训练样本信息首先向前传播到隐含单元上。
经过激活函数f(u)的作用得到隐含层1的输出信息:
岩溶地区地下水与环境的特殊性研究
经过激活函数f(u)的作用得到隐含层2的输出信息:
岩溶地区地下水与环境的特殊性研究
激活函数f(u)我们这里采用Sigmoid型,即
f(u)=1/[1+exp(-u)](6.5)
隐含层的输出信息传到输出层,可得到最终输出结果为
岩溶地区地下水与环境的特殊性研究
以上过程为网络学习的信息正向传播过程。
另一个过程为误差反向传播过程。如果网络输出与期望输出间存在误差,则将误差反向传播,利用下式来调节网络权重和阈值:
岩溶地区地下水与环境的特殊性研究
式中:Δω(t)为t次训练时权重和阈值的修正;η称为学习速率,0<η<1;E为误差平方和。
岩溶地区地下水与环境的特殊性研究
反复运用以上两个过程,直至网络输出与期望输出间的误差满足一定的要求。
该模型算法的缺点:
1)需要较长的训练时间。由于一些复杂的问题,BP算法可能要进行几小时甚至更长的时间的训练,这主要是由于学习速率太小造成的,可采用变化的学习速率或自适应的学习速率加以改进。
2)完全不能训练。主要表现在网络出现的麻痹现象上,在网络的训练过程中,当其权值调的过大,可能使得所有的或大部分神经元的加权总和n偏大,这使得激活函数的输入工作在S型转移函数的饱和区,从而导致其导数f′(n)非常小,从而使得对网络权值的调节过程几乎停顿下来。
3)局部极小值。BP算法可以使网络权值收敛到一个解,但它并不能保证所求为误差超平面的全局最小解,很可能是一个局部极小解。这是因为BP算法采用的是梯度下降法,训练从某一起点沿误差函数的斜面逐渐达到误差的最小值。
考虑到以上算法的缺点,对模型进行了两方面的改进:
(1)附加动量法
为了避免陷入局部极小值,对模型进行了改进,应用了附加动量法。附加动量法在使网络修正及其权值时,不仅考虑误差在梯度上的作用,而且考虑在误差曲面上变化趋势的影响,其作用如同一个低通滤波器,它允许网络忽略网络上的微小变化特性。在没有附加动量的作用下,网络可能陷入浅的局部极小值,利用附加动量的作用则有可能滑过这些极小值。
该方法是在反向传播法的基础上在每一个权值的变化上加上一项正比于前次权值变化量的值,并根据反向传播法来产生心的权值变化。促使权值的调节向着误差曲面底部的平均方向变化,从而防止了如Δω(t)=0的出现,有助于使网络从误差曲面的局部极小值中跳出。
这种方法主要是把式(6.7)改进为
岩溶地区地下水与环境的特殊性研究
式中:A为训练次数;a为动量因子,一般取0.95左右。
训练中对采用动量法的判断条件为
岩溶地区地下水与环境的特殊性研究
(2)自适应学习速率
对于一个特定的问题,要选择适当的学习速率不是一件容易的事情。通常是凭经验或实验获取,但即使这样,对训练开始初期功效较好的学习速率,不见得对后来的训练合适。所以,为了尽量缩短网络所需的训练时间,采用了学习速率随着训练变化的方法来找到相对于每一时刻来说较差的学习速率。
下式给出了一种自适应学习速率的调整公式:
岩溶地区地下水与环境的特殊性研究
通过以上两个方面的改进,训练了一个比较理想的网络,将动量法和自适应学习速率结合起来,效果要比单独使用要好得多。
6.3.3.2 模型的求解与预测
采用包含了2个隐含层的神经网络BP(4,q1,q2,1),隐含层单元数q1,q2与所研究的具体问题有关,目前尚无统一的确定方法,通常根据网络训练情况采用试错法确定。在满足一定的精度要求下一般认小的数值,以改善网络的概括推论能力。在训练中网络的收敛采用输出值Ykp与实测值tp的误差平方和进行控制:
岩溶地区地下水与环境的特殊性研究
1)将附加动量法和自适应学习速率结合应用,分析桂林市36个乡镇地质条件各因素对伤寒副伤寒发病等级的影响。因此训练样本为36个,第一个隐含层有19个神经元,第二个隐含层有11个神经元,学习速率为0.001。
A.程序(略)。
B.网络训练。在命令窗口执行运行命令,网络开始学习和训练,其学习和训练过程如下(图6.19)。
图6.19 神经网络训练过程图
C.模型预测。
a.输入未参与训练的乡镇(洞井乡、两水乡、延东乡、四塘乡、严关镇、灵田乡)地质条件数据。
b.预测。程序运行后网络输出预测值a3,与已知的实际值进行比较,其预测结果整理后见(表6.30)。经计算,对6个乡镇伤寒副伤寒发病等级的预测符合率为83.3%。
表6.30 神经网络模型预测结果与实际结果比较
c.地质条件改进方案。在影响疾病发生的地质条件中,大部分地质条件是不会变化的,而改变发病地区的饮用水类型是可以人为地通过改良措施加以实施的一个因素。因此,以灵田乡为例对发病率较高的乡镇进行分析,改变其饮用水类型,来看发病等级的变化情况。
表6.31显示,在其他地质条件因素不变的情况下,改变当地的地下水类型(从原来的岩溶水类型改变成基岩裂隙水)则将发病等级从原来的最高级4级,下降为较低的2级,效果是十分明显的。因此,今后在进行伤寒副伤寒疾病防治的时候,可以通过改变高发区饮用水类型来客观上减少疫情的发生。
表6.31 灵田乡改变饮用水类型前后的预测结果
2)选取桂林地区1994~2000年月平均降雨量、月平均温度作为输入数据矩阵,进行样本训练,设定不同的隐含层单元数,对各月份的数据进行BP网络训练。在隐含层单元数q1=13,q2=9,经过46383次数的训练,误差达到精度要求,学习速率0.02。
A.附加动量法程序(略)。
B.网络训练。在命令窗口执行运行命令,网络开始学习和训练,其学习和训练过程如下(图6.20)。
C.模型预测。
a.输入桂林市2001年1~12月桂林市各月份的平均气温和平均降雨量。预测程度(略)。
b.预测。程序运行后网络输出预测值a2,与已知的实际值进行比较,其预测结果整理后见(表6.32)。经计算,对2001年1~12月伤寒副伤寒发病等级进行预测,12个预测结果中,有9个符合,符合率为75%。
图6.20 神经网络训练过程图
表6.32 神经网络模型预测结果与实际值比较
6.3.3.3 模型的评价
本研究采用BP神经网络对伤寒、副伤寒发病率等级进行定量预测,一方面引用数量化理论对不确定因素进行量化处理;另一方面利用神经网络优点,充分考虑各影响因素与发病率之间的非线性映射。
实际应用表明,神经网络定量预测伤寒、副伤寒发病率是理想的。
其主要优点有:
1)避免了模糊或不确定因素的分析工作和具体数学模型的建立工作。
2)完成了输入和输出之间复杂的非线性映射关系。
3)采用自适应的信息处理方式,有效减少人为的主观臆断性。
虽然如此,但仍存在以下缺点:
1)学习算法的收敛速度慢,通常需要上千次或更多,训练时间长。
2)从数学上看,BP算法有可能存在局部极小问题。
本模型具有广泛的应用范围,可以应用在很多领域。从上面的结果可以看出,实际和网络学习数据总体较为接近,演化趋势也基本一致。说明选定的气象因子、地质条件因素为神经单元获得的伤寒、副伤寒发病等级与实际等级比较接近,从而证明伤寒、副伤寒流行与地理因素的确存在较密切的相关性。