1、法学大数据分析平台北京大学实证法务研究所北京法意科技有限公司目录一、研发背景 .3二、产品介绍 .4(一)产品定义 .4(二)平台特点 .4(三)平台价值 .5(四)模块介绍 .5三、服务流程 .14四、应用价值 .15(一)面向院校:提供新颖的科研建设支持 .15(二)面向科研者:提供全面的科研方法论与工具支持 .16(三)面向教师:提供新型的科研教学支持 .16五、服务介绍 .17六、联系我们 .17一、研发背景大数据的浪潮正席卷全球。何为大数据?最普遍的定义是“一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理”。大数据时代,法律信息
2、呈现数量大、速率快、多样化、不稳定等特点,大数据正在挑战传统科研方式,向法学领域渗透,这意味着一场新的机遇和挑战。从统计学角度而言,大数据分析思路源于实证研究,两者均需要收集选取一定的研究样本进行分析,但相对于实证研究中的抽样样本方式,大数据更强调“大样本”甚至“全样本”,从而尽可能减少抽样误差,提高分析结果的精确度。但目前法学大数据分析研究实操过程中存在如下障碍:(1)大数据分析方法的推进是较缓慢的过程,尤其在理解和应用上均需以统计学知识做基础,对文科领域来说有点令人望而生畏,虽然目前大数据分析概念得到越来越多的认同,但人们仍存在不少误解,在适合进行大数据分析的法学领域中,分析方法的选用也很
3、不充分。(2)大数据分析的对象通常是散落于各处的文本信息,而基于文本的量化分析,一直以来都是横亘于社会科学和统计学之间的一个难题。法学研究者在数据收集方面面临着同样的问题:单凭个人力量收集研究样本比较困难,耗时耗力。主要有以下原因:已有的研究数据积累非常少;即使有官方数据的存在,也非常分散,不易收集。以研究者个人身份,导致数据的获取途径受限等等。(3)研究者在数据处理方面任务非常艰巨,包括数据采集、筛选过滤、各个变量的提取和量化、变量的重新定义和编码转换等等工作,面对海量数据,单个研究者很难独立完成一项研究。比如一项 1000 个样本、10 个变量的数据整理,需要进行数据处理工作 10000
4、次。如此一来,投入数据整理的时间过多,学术课题的研究周期相应拖长。 (4)大数据分析需要掌握变量设计的技术和一定的分析方法。分析框架设计和统计方法是一种思维方法和工具,作为大数据分析的基础工具,它能够在大量经验数据中发现事物的结构和规律,而中国法学界对这种技术和工具的掌握并不理想。为了解决这些障碍,北大法意结合多年法律数据库研发和信息技术应用经验,协同北京大学实证法务研究所,推出法律大数据分析平台,旨在为研究者提供主题构建、变量设计、数据收集、统计分析的一体化法学实证分析支持服务,使大数据分析理念得到更好的传播和更广泛的应用,将研究人员从大量的资料整理和统计工作中解放出来,加快科研进度,提升研
5、究成果价值含量。北大法意秉承着“实践法的精神” ,愿与各大法律院校、科研机构、政法行业共同在大数据时代中开辟法学研究新领域尽绵薄之力。北京大学实证法务研究所北京法意科技有限公司二、产品介绍(一)产品定义“法学大数据分析平台”是北京大学实证法务研究所和北大法意专门面向法学院校或相关科研机构、政法行业开发的,集课题资源收集、数据统计分析、科研成果共享等于一体的科研服务平台。平台根据法律院系及专业科研机构的实证分析需求,为研究者提供主题构建、变量设计、数据收集、统计分析的一体化法学实证分析支持服务,并为研究者全面掌握实证研究方法、解决研究组织管理和数据分析等难题,针对性提供实证研究的培训材料、精彩范
6、例、文献成果、课题数据和分析工具。 (二)平台特点1灵活定制、便利高效平台提供主题分析定制服务及解决方案,根据研究者课题研究方向和主要内容,构建分析框架、进行变量设计、收集分析样本,并根据变量设置情况,选择合适的分析方法进行统计分析、提供分析结果、推断研究结论,有效解决研究者实证分析难题。2数据权威、收录全面围绕研究者主题分析需求,收集主题下全样本,涵盖各级人民法院审理、发布的判决文书,包括刑事、民事、行政、海事海商、知识产权等各种案件类型,为大数据分析提供最权威、最全面的数据样本,研究者不必再为收集数据投入过多的人力和财力。3精准专业、行业独创平台将实证分析方法与法律大数据有机结合,以裁判文
7、书为视角,用图表形式呈现数据的集中趋势、离散程度、概率大小,以及变量之间的相关强度、决定系数等等,透射立法精神、把握案件特征及审判规律,从而为司法裁判、行为预测、法学研究提供依据。4. 功能强大,简单实用平台内嵌独创的法律数据挖掘组件,利用信息技术手段对文本信息项进行拆解、提取、转化和整合等处理,同时将常用数据分析方法内嵌于平台,直接选择变量和统计分析方法,即可一键式生成多维度分析报告。5精彩成果、多维展示根据主题特性,通过饼状图、条形图、柱状图、折线图等多样式图表集中展示不同主题下宏观、中观或微观层面的分析成果,并对每一分析成果的样本来源、分析字段和目的进行说明,便于用户浏览与引用。(三)平
8、台价值1、利用强大、先进的信息采集技术,提供裁判文书、法律法规、统计数据等多种法律数据资源,解决课题数据收集问题;2、提供主题构建、数据收集、变量设计、统计分析的一站式法学实证分析支持服务,解决科研过程中研究框架设计及分析方法选择的难题,加快了科研进度,提升了研究成果价值含量;3、利用智能文书分析引擎技术,对文本信息进行拆解、提取、转化和整合等处理,解决研究者人工整理、分析数据耗时难题,将研究人员从大量的资料整理和统计工作中解放出来,能够有更多的时间进行思考。(四)模块介绍法学大数据分析平台由五个模块组成:成果展示、主题分析、统计数据、文献成果、研究方法。其中,成果展示和主题分析是平台两大核心
9、模块。成果展示集中呈现不同主题下多维度分析成果,包括法意精彩范例和用户定制主题的分析成果展示。主题分析与成果展示中用户定制主题相对应,根据用户需求提供符合主题要求的样本数据、待分析变量、分析方法和工具,用户可在数据资源基础上进行二次研究和自助分析,得出分析结果。研究方法、统计数据、文献成果从实证分析方法和大数据分析成果应用角度为研究者提供方法论支持及研究思路和方向。法学大数据分析平台成果展示 主题分析 统计数据 文献成果 研究方法法意范例公开主题我的主题主题资源课题资源统计分析分析报告1、成果展示成果展示包括法意范例、公开主题、我的主题三个子模块。法意范例来源于历年实证分析服务成果,从宏观、中
10、观、微观等分析角度,以饼状图、条形图、柱状图、折线图等多样式图表展示不同主题研究的分析成果,并对每一分析成果的样本来源、分析字段和目的进行说明,帮助用户寻找、借鉴分析角度,从而拓展研究思路。公开主题为促进不同院校的研究者之间科研成果交流与共享而设置,通过公开主题的查看,可以了解其他研究者的科研动态及研究内容,进行信息交换与成果共享。我的主题以用户所属机构为单位对本机构定制主题的分析成果进行集中查询与管理,与主题分析中各定制主题相对应,对分析成果可查看、下载及公开。2、主题分析 主题分析分为统计分析模拟和定制主题分析两个板块。统计分析模拟提供基础数据、常用变量、统计分析方法和实操平台,便于用户对
11、当年数据样本的常用变量进行多维度统计分析实验。定制主题分析则以用户所属机构为单位,为本机构定制主题提供主题样本数据、分析变量、统计分析方法和实操平台,其主题与成果展示中我的主题相对应,一方面用户通过主题分析可对成果展示中的分析结果进行验证,另一方面用户可利用所提供的主题数据、变量进行二次研究,自行开展其他分析工作。统计分析模拟和定制主题分析均由通用资源(主题资源) 、课题资源、统计分析、分析报告四部分组成,提供课题新建、编辑、删除、检索、查看,课题数据筛选、删除、清空,实证分析,分析报告保存、下载、打印等功能。主要业务逻辑是在当前主题下建立我的课题,从主题资源中筛选待分析数据到课题资源,选择不
12、同的研究变量,根据变量的特性选择相应的实证分析方法对课题数据进行统计分析,对于分析结果可进行保存、下载和打印,并可进行数据回溯。在数据筛选阶段,系统提供高级检索和自定义检索两种检索方式,在统计分析阶段,系统提供的统计分析方法有:单变量频次分析、描述分析、自定义报表和统计图工具等。其中,主题资源提供的裁判文书,来源于全国各级人民法院审理、发布的判决文书,包括刑事、民事、行政、海事海商、知识产权等多方面的内容。用户提出意向研究的主题数据获取需求,由我们专业服务团队对需求进行分析和处理,利用先进的信息采集、处理技术,提取最符合需求且最全面的法律数据样本,保证用户真正实现法学大数据分析目标。课题资源库
13、的数据来源于主题资源,用户可以根据研究需要,将一个主题分解为多个子课题的研究,从主题资源中选入数据到课题资源库。同时可对课题数据进行检索和剔除,进一步筛选数据样本,还可以对课题数据进行清空。主题资源和课题资源两个标签页的检索区均分为高级检索和自定义检索,这两种不同的检索方法可以方便用户快速查找案例数据。同时可以将课题数据查询策略保存为检索模板,方便查看和下次检索时直接应用。同时,课题资源功能区设置的“统计分析”功能,可对当前列表的数据样本进行统计分析。点击后,进入实证分析页,在下拉选项中逐层点击分析项引导树,选择待分析变量,即研究对象,再根据待选变量的特性,选择适当的统计分析方法,即可对课题资源当前列表中的数据样本的变量情况进行统计分析。分析方法有以下 4 种:单变量频次分析:是对单个变量按照变量取值类型来统计每个取值类型出现的次数。