1、本 科 毕 业 设 计 ( 论 文 )题 目:基于网络爬虫的股票信息预警系统的设计与实现 学 号: 20141234567 姓 名: 王一 班 级: 14 软工 A1 专 业: 软件工程 学部(院): 工学部 入学时间: 2014 级 指导教师: 李红 日 期: 2018 年 5 月 12日A4 纸页面设置上:2.54 cm下:2.54 cm左:3.17cm右:3.17 cm页眉:1.5cm页脚:1.75cm居中、黑体、小初、加粗左缩进:5 字符右缩进:5 字符两端对齐段前:0 行段后:0 行行距:单倍行距字体:宋体二号加粗工学部文理学部经济与管理学院应用艺术设计学院专业规范名称,勿缩写不填写
2、专业方向基于网络爬虫的股票信息预警系统的设计与实现2毕业设计(论文)独创性声明本人所呈交的毕业论文是在指导教师指导下进行的工作及取得的成果。除文中已经注明的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示谢意。作者签名:日 期:基于网络爬虫的股票信息预警系统的设计与实现摘要本文结合网络爬虫技术实现对于股票交易信息、股票公告信息、股票财务信息的采集、解析、格式化、挖掘、维护与展示。再通过用户预设的条件对抓取的信息进行推送、预警。本文通过需求分析确定了系统应具有的基本功能包括股票数据获取、页面解析、解析内容格式化、数据整理、
3、信息维护、信息浏览、设置预警、发送预警。采用面向对象的方法进行了总体设计、详细设计并最终实现了股票信息预警系统的主要功能。本文设计的股票信息预警系统共分为股票信息网页采集模块、网页解析模块、数据整理模块、数据浏览模块、预警模块共五个模块。股票信息采集模块采用爬虫技术实现,主要解决了如何准确快速获取增量的股票数据的问题。网页解析模块通过使用原生的 XPATH 模块进行,获取需要的信息。数据处理模块采用 Newtonsoft.Json 库对 Json 字符串对象化并存入关系型数据库。数据浏览模块是对数据库中数据的可视化展示。预警模块实现用户自我定制需要的信息条件,通过短信及邮件的方式进行推送。目前
4、,系统处于运营维护阶段,可以稳定、高效的进行股票数据及相关信息的采集、解析、预警。关键词:网络爬虫;股票预警;WEB 挖掘毕业设计(论文)题目,黑体、小五。毕业设计(论文)中英文摘要1.5 倍行距。三号、黑体、居中。论文题目:小二、黑体、居中。上空一行。摘要正文:小四、宋体、首行缩进两字符,字数 300500字。小四、黑体、顶格。 小四、宋体、分号间隔,最后一个关键词后面无标点符号。基于网络爬虫的股票信息预警系统的设计与实现4DESIGN AND IMPLEMENTATION OF STOCK INFORMATION EARLY WARNING SYSTEM BASED ON WEB CRAW
5、LERABSTRACTThis paper combines the web crawler technology of realizing the acquisition, analysis, formatting, excavation, maintenance and display of stock transaction information, stock announcement information and stock financial information. And then push and early warning the information crawled
6、through the users default conditions. This paper analyzes the basic functions that the system should have the demand analysis has defined, including stock data acquisition, page analysis, parsing content formatting, data collation, information maintenance, information browsing, setting early warning
7、 and sending early warning. The object-oriented method used to design the whole design, and the main function of the stock information early warning system finally designed and realized. The stock information early warning system designed in this paper is divided into five modules: stock information
8、 webpage acquisition module, web page analysis module, data collation module, data browsing module and early warning module. The stock information acquisition module is implemented by reptile technology, which solves the problem of how to get the incremental stock data accurately and quickly. The we
9、b analytics module makes use of the native XPATH module to get the information you need. The data processing module uses the Newtonsoft.Json library to object to the Json string and store it in a relational database. The data browsing module is a visual display of the data in the database. Early war
10、ning module achieves the user needs to customize the information conditions, and pushes it through the SMS and e-mail.At present, the system is in the stage of operation and maintenance, and stock data and related information can be collected, analyzed and warned stably and efficiently.Key words: we
11、b crawler;stock early;warning ;Web mining小四、Times New Roman、首行缩进、1.5倍行距。三号、Times New Roman、居中加粗小二、Times New Roman、居中、加粗,一律用大写字母,上空一行。小四、Times New Roman、加粗、居左顶格、key words 之间有一空格。小四、Times New Roman、各关键词之间分号间隔,最后一个关键词后面无标点符号。目录1 绪论 .11.1 研究的背景 .11.2 研究现状 .11.3 研究的意义 .11.4 研究的目标与内容 .11.5 论文的组织安排 .12 股票信
12、息预警系统的相关理论与技术概述 .22.1 信息采集系统概述 .22.2 网络爬虫概述 .22.2.1 网络爬虫的工作流程 .23 结论 .5致谢 .6参考文献 .7附录 .8空一行小二、黑体、居中1.5 倍行距一级标题:四号、宋体、顶格二级标题:小四、宋体、左缩进 2 字符三级标题:小四、楷体、左缩进 4 字符11 绪论1.1 研究的背景随着我国改革开放的脚步,股票日益成为人们生活中不可或缺的投资理财工具之一。股票作为重要经济活动之一,对于国内市场经济的繁荣与国民经济的发展都起到了至关重要的作用。1.2 研究现状网络爬虫亦称信息采集系统是将网页中的非结构化信息进行抓取、清洗最终存入到关系型数
13、据库中的软件。针对股票数据具有实时更新的特点,本文采用的网络爬虫为增量采集系统。其大致的工作原理如下:(1)对所有目标网页进行抓取(2)在之后的数据抓取过程中比较原网页与新抓取网页,对于没有更新的网页不进行采集。1.3 研究的意义1.4 研究的目标与内容1.5 论文的组织安排绪论通常为第一章,三号黑体居中,上下各空一行。二级标题:序数居左顶格,空一格写标题,黑体四号,1.5 倍行距。正文首行缩进 2 字符、1.5 倍行距中文:小四、宋体英文、数字:小四、Times New Roman页脚为页码,小五、黑体、居中。对总项包括的分项采用(1) 、(2) 、(3)的序号。基于网络爬虫的股票信息预警系
14、统的设计与实现22 股票信息预警系统的相关理论与技术概述2.1 信息采集系统概述信息采集系统指从非结构化的信息、或者有大量冗余、噪声的文件中将所需的信息抽取出来保存至关系型数据库中的软件系统。对于数据源为网页的采集系统往往采用网络爬虫技术2.2 网络爬虫概述网络爬虫(Web Crawler)是指按照一定的规则,自动地抓取互联网信息的程序或者脚本。常见网络爬虫根据实现技术分类有通用(General Purpose)、增量(Incremental)、聚焦(Focused) 、深层(Deep) 等。在实际应用中往往需要将几类技术相互结合。2.2.1 网络爬虫的工作流程对于本程序由于股票的页面相对固定
15、,因此可以采取将股票代码作为一个线性表,对每个股票代码进行遍历获取网页。另外还要对获取的信息与数据库中保存的信息进行比较,避免重复。开 始获 取 集 合 中 的 URL已 遍 历 所 有 URL根 据 URL获 取 网 页处 理 、 存 入 数 据 库否结 束是图 2-1 网络爬虫工作流程正文内容正文一级标题三号、黑体、居中、上下各空一行。二级标题序数居左顶格、空一格写标题、黑体、四号、1.5 倍行距。第三级、第四级标题均空两格书写序数、再空一格写标题、小四、黑体。正文首行缩进 2 字符、1.5 倍行距中文:小四、宋体英文、数字:小四、Times New Roman每幅插图应有图序和图题,插图
16、可以统一编序,也可以逐章单独编序,图序必须连续,不得重复或跳缺。图序和图题标于图的下方居中,图序和图题中间空一格,五号、黑体。图内:中文用五号宋体,英文用五号 Times New Roman。3正文内容通过上文的 CDM 与 PDM 模型构建数据库结构创建如下表:表 2-1 ANNOUNCEMENT 表结构名称 说明 数据类型 长度 主键 外来键CODE 股票代码 VARCHAR2(20) 20 TRUE TRUEURL 公告 URL VARCHAR2(500) 500 TRUE FALSETITLE 标题 NVARCHAR2(200) 200 FALSE FALSEDAYS 日期 DATE
17、FALSE FALSEALARMED 是否已预警 VARCHAR2(20) 20 FALSE FALSE表题应写在表格上方正中,表序写在表题左方不加标点,空一格写表题,表题末尾不加标点,全文的表格统一编序,也可以逐章编序,表序必须连续每张表格应有表序、表题,表格可以统一编序,也可以逐章单独编序,图序必须连续,不得重复或跳缺。表序和表题标于表格的上方居中,表序和表题中间空一格、五号、黑体。表格内:中文用五号宋体,英文用五号 Times New Roman。基于网络爬虫的股票信息预警系统的设计与实现4续表 2-1名称 说明 数据类型 长度 主键 外来键正文内容(2-1)(2-2)Kfyxn fyxfyxx )0,(!12 )0,(!10,2 表格跨页表题省略,表头应重复写,并在右上方写“续表 xx”。较长的公式,如必须转行时,最好在等号处转行,如做不到这一点,要在+ ,-,等数学符号处转行。数学符号应写在转行处的行首。上下式尽可能在等号“ ”处对齐。公式应另起一行,正文中的公式、算式或方程式等应编排序号,公式的编号用圆括号括起,序号标注于该式所在行(当有续行时,应标注于最后一行)的行末。公式可按章节顺序编号或按全文统一编号。公式序号必须连续,不得重复或跳缺。重复引用的公式不得另编新序号。公式和编号之间不加虚线。
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。