1、自适应基因表达式程序设计在远程教育招生数据分析中的应用研究【摘 要】 随着互联网技术的发展,远程教育在现代教育中起到越来越重要的作用。本文以远程教育招生数据为研究对象,提出一种自适应基因表达式程序设计算法。该算法能自适应调整算法的杂交和变异概率,从而有效避免人为设置初始参数的敏感性。算法在分析现有招生数据的基础上,预测未来几年的招生规模,有利于招生单位做出有针对性的调整,并针对我校近几年的招生数据,有效地对以往数据进行建模,预测未来的招生规模。 【关键词】 远程教育;招生;基因表达式程序设计;建模;预测 【中图分类号】 G40-057 【文献标识码】 A 【文章编号】 1009458x(201
2、5)02006706 一、引言 随着互联网技术的快速发展,远程教育也得到了快速发展,在现代教育中的作用也越来越重要1。作为远程教育第一个环节的招生工作,具有十分重要的作用,但竞争日趋激烈2。因此,对已有招生数据进行挖掘分析,建立有效的模型,可以对未来的招生形势进行预测,以提供有效的决策分析手段。 远程教育招生人数与国家政策、教育资源、高校排名等有很大关系。招生数据是典型的时间序列数据,具有高度的非线性、不规则性和季节性等特点。针对招生数据建立有效的分析和预测模型,对未来招生形势的分析具有十分重要的作用。有鉴于此,本文以我校远程与继续教育学院近 5 年春秋两季的招生数据为对象,提出一种自适应基因
3、表达式程序设计(Gene Expression Programming, GEP)算法,对已有数据进行建模,并根据所建模型预测未来的招生人数。为了避免人为设置参数对所求解问题敏感性的不足,采用自适应参数控制技术实现杂交概率和变异概率自适应控制。结果表明,该算法能建立较准确的模型,实现对未来招生形势的良好预测。 二、相关工作 1. 基因表达式程序设计 葡萄牙科学家 C. Ferreira 于 2001 年提出了基因表达式程序设计算法。该算法是一种新的非线性程序设计技术,是演化算法的一种3。通过实验分析,C. Ferreira 讨论了GEP 在问题求解、时间序列预测、函数发现、分类规则、符号回归等
4、问题中的应用。与遗传规划算法不同,在基因表达式程序设计中,个体采用具有固定长度的线性串(基因组或染色体)进行编码,并被表示成具有不同大小和形状的非线性实体(表达式树) 。该算法已在多个领域取得了成功的应 用456。 Zhou 等研究表明, GEP 能够挖掘出更精简、更有效的分类规则7;Lopes 和 Weinert 研究了 GEP 在符号回归问题中的应用,并提出了一种新的分析符号回归问题的系统:EGIPSYS8;Zuo 等利用 GEP 进行时间序列预测,提出了GEP-SWPM(即 GEP 滑动窗口法)和 GEP-DEPM(即 GEP常微分方程组法)两种预测方法9,实验结果表明,两种方法在太阳黑
5、子的预测上均取得很好的效果;黄晓冬等提出了一种基于 GEP 的函数关系发现方法MEM 方法,即分域表达式挖掘。该方法能处理具有一致表达式的关系和具有不同分域表达式的复杂函数关系,并论证了它具有对数数量级的复杂度10;汪锐等利用 GEP 实现了多项式函数分解,提出了 GPF 方法。该方法能把任意多项式函数关系,按指定精度分解若干低次多项式函数的乘积11;元昌安等在把 GEP 用于函数挖掘时分析了算法的收敛性,根据收敛性定理提出了残差制导进化算法 RGEA,并通过对GP、GEP、RGEA 算法进行比较实验,表明 RGEA 比前两种方法具有更好的性能12;Cai 等在预测瓦斯涌出量时,把 GEP 与
6、模拟退火算法和 MPI 并行机制相结合,以模拟退火算法来增强算法的搜索能力,以多群体并行策略来优化算法的性能,形成了混合并行 GEP 算法 HPGEPSA。结果表明,与传统的 GP 和基本 GEP 相比,HPGEPSA 具有更好的适应性、可扩张性和更高的预测精度13。此外,GEP 还运用到神经网络的设计14、仿真15和文本挖掘16 中,都取得了较好的效果。 2. 基于数据挖掘的远程教育分析 数据挖掘(Data Mining)一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程17。把数据挖掘技术应用于远程教育中已受到广泛的重视18。王菁菁把 STING聚类技术应用于远程教育系统学生分类中,取
7、得了较好的效果19;陶灵奴等介绍了数据挖掘技术在远程教育学生考试成绩分析上的应用和用 ID3 算法构造决策树的方法,分析了远程教育中成功应用数据挖掘的思路和模式20;肖勇等使用 C4.5 数据挖掘算法分析过程考核中采集的数据,研究过程考核实施中存在的问题和过程考核指标的改进方向21;程华等提出基于 K-means 聚类方法的多项考核指标分析技术,并研究了考核指标与学习者的终结性评价之间的关系;针对目前远程教育中个性化教学水平较低的问题,温泉等提出了一种基于粗糙集的 Web 学习者聚类算法,提高了远程教学网站的个性化教学水平2223;王新颖等把基于关联规则的聚类技术应用到远程教育的 Web 网页
8、和用户数据分析中24;孙莹等采用数据挖掘方法分析了自主学习行为特征等现状,从而有利于教师及教学管理人员有目的地引导学生的学习25;郑春香和韩承双研究了关联规则分类算法,应用关联规则 Apriori 算法,对远程教育考试系统数据样本进行数据分析,从分析的结果中发现有价值的数据模式,寻找其中存在的关系和规则,可以为教学和考试环节发挥调节、控制、指导作用,为远程教育管理提供合理、科学的决策支持26;以自贡电大 2009 级近百名本科学员基本资料及学习记录为采样数据,毛布等利用动态聚类的方法进行了有效的学员细分及数据分析,并在此基础上提出了相应的建立适合远程教育的资源库的策略27;朱祖林等运用 t 检
9、验、方差分析、灰关联分析等统计分析技术,通过典型抽样和便利抽样等方法对远程教育数据进行挖掘分析28;侯月姣等使用 K-means 算法对学生的属性数据和相应课程的成绩进行了聚类数据挖掘,发现学习者群体的特点,结合聚类结果的特性和差异,为课程资源建设及教学过程的改进提供帮助29;张晓芳把网格聚类思想应用于远程教育系统中,具有良好的聚类性能以及运算速度30;白若微等以 CNKI 数据库为样本来源,借助 Citespace II 信息可视化分析软件,对我国远程教育领域中应用数据挖掘技术的相关研究进行基于科学知识图谱的可视化分析,以期为数据挖掘有效促进远程教育的研究提供参考31;周圆等以西南交通大学网
10、络教育学院 2008-2012 年所有学生的学籍数据为研究对象,采用关联、求和、百分比、标准差等多种统计方法,系统分析了该学院五年间学生辍学的整体情况和变化趋势,并比较挖掘了多视角下辍学率变化的情况差异和发生规律,揭示了影响远程教育辍学率的多重因素32;周剑云以 Moodle 网络课程管理系统为研究基础,分析并提出有针对性的数据挖掘方法构架,以对课程建设情况和学生学习情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持及方法借鉴33。 三、自适应基因表达式程序设计 基本的 GEP 算法对于杂交概率(包括单点杂交概率和两点杂交概率)和变异概率都是人为根据经验设置固定的值。然而根据
11、不同问题设置最优的杂交概率和变异概率是很困难的。此外,由于演化算法本身的动态特性,设定固定不变的参数值也是不合理的。为了避免人为选择最优参数困难和参数敏感性的不足,本文采用自适应参数设置技术动态控制 GEP 算法的杂交概率和变异概率,提出了改进算法Adaptive Gene Expression Programming,简称AGEP,具体设计如下: 1. 个体的编码及表示 4. 算法流程 AGEP 的算法流程和 GEP 相似,具体如下: (1)随机产生初始群体,群体中的个体是一些具有固定长度的线性串,串中的符号是由表示问题的函数和终结点随机组合而成的; (2)用表达式树表示个体,执行每个程序,
12、并评价它们的适应度值; (3)根据公式(4)和公式(5)计算每个个体的变异和杂交概率; (4)判断程序是否达到终止条件(终止条件可以是最大演化代数或问题求解精度) ,如果达到终止条件则程序终止;否则,执行后面的步骤; (5)保存当前群体中最好的个体; (6)执行遗传操作,包括选择、变异、变换、重组等,形成新的群体; (7)返回步骤(2) 。 四、实验结果与分析 基于上述改进,本文把所提出的 AGEP 算法应用于我校远程与继续教育学院近 5 年春秋两季的招生数据建模与预测中,以验证所改进算法的有效性,并且为远程教育中其他数据分析提供有效的工具。 1. 参数设置 2. 数据描述 采用我校远程与继续
13、教育学院 2010 年到 2014 年春秋两季招生录取人数作为实验数据(共 9 个) ,具体如表 2 所示。 3. 实验结果 4. 实验数据分析 AGEP 算法根据表 2 的实验数据建立模型得到最优适应值 981.42,与理论最优值 1000 相当接近。此外,所得到的R=0.99999999965 表明,建模数据与实际招生数据十分接近。从表 4 的 AGEP 模型预测数据与实际数据对比可知,预测数据对 2012 年秋季到 2014 年春季的预测数据与实际招生数据的预测误差均为 0,表明改进的 AGEP 算法能较准确地利用原有招生数据建立模型,有效预测下一季度的招生数据。 表 4 中 AGEP
14、算法对 2014 年秋季的预测招生人数为7764 人,表明在这一季度的招生人数有可能下降较快,这对招生单位起到一定的警示作用,需要通过一定的政策调整来刺激招生,避免该趋势的出现。需要指出的是,如果通过相应的政策调整和招生宣传,2014 年秋季的招生人数期望得到提升,在下次使用 AGEP 算法建立模型的时,只需要重新运行算法,得出相应的预测模型即可。 五、结论 本文以我校远程与继续教育学院近年来招生录取人数为研究对象,提出了改进的自适应 GEP 算法,采用自适应参数控制技术不仅可以避免人数设置参数的敏感性,而且增强了有效性。实验表明,AGEP 算法能够准确建立预测模型,所得模型预测数据与实际招生
15、录取人数的预测误差为0。通过本文提出的 AGEP 算法建立的模型可以为招生单位下一季度的招生提供有效参考,并据此进行相应的政策调整和招生宣传,起到良好的参考作用。 虽然 AGEP 较好地克服了基本 GEP 手动设置杂交概率和变异概率的不足,但是,与 GEP 一样,AGEP 也存在固有的不足:如何较好地设置模型的常数,如何确定基因头部的长度等。把 AGEP 应用于其他领域的数据预测也是将来的一个研究热点。 参考文献 119 王菁菁. 远程教育系统学生分类的数据挖掘研究D. 辽宁工程科技大学硕士学位论文,2010. 2肖贻裕. 对新形势下远程教育招生工作的思考J. 科技资讯, 2012, ( 22
16、):209-210. 3 C. Ferreira. Gene expression programming: A new adaptive algorithm for solving problemsJ. Complex Systems, 2001, 13(2): 87-129. 4 李曲,蔡之华,朱莉等. 基因表达式程序设计方法在采煤工作面瓦斯涌出量预测中的应用J. 应用基础与工程科学学报,2004,12(1): 49-54. 5 郑皎凌,唐常杰,徐开阔,杨宁,段磊,李红军. 用态势模型预测基因表达式编程的进化难度J. 软件学报,2011,22(5):899-913. 6 周倩,王红,姚震.
17、 基于基因表达式编程的规则分类J. 计算机工程与设计,2013,34(10):3492-3496. 7 C. Zhou, W. Xiao, T. M. Tirpak, et al. Evolving Accurate and Compact Classification Rules With Gene Expression Programming J. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 519-531. 8 H. S. Lopes, W. R. Weinert. EGIPSYS: An Enhanced Gen
18、e Expression Programming Approach for Symbolic Regression Problems J. Int. J. Appl. Math. Comput. Sci. 2004, 14(3): 375-384. 9 J. Zuo, C. Tang, C. Li, et at. Time Series Prediction based on Gene Expression Programming C. International Conference for Web Information Age, 2004. 10 黄晓冬,唐常杰,李智等. 基于基因表达式编程挖掘函数关系J. 软件学报,2004, 15(增刊):97-106. 11 汪锐,唐常杰, 段磊等. 基于 GEP 的多项式函数关系分解J. 计算机研究与发展,2004,41(增刊):442-448. 12 元昌安,唐常杰, 左? 碌?. 基于基因表达式编程的函数挖掘收敛性分析与残差制导进化算法J. 四川大学学报(工程科学版) , 2004, 36(6).