电子资源建设研究-电动数控滚圆机缩管机张家港电动液压缩管机全
作者:lujianjun | 来源:欧科机械 | 发布时间:2019-06-16 13:31 | 浏览次数:

随着数据库的种类不断攀升,国内高校图书馆使用电子资源的数量也在逐年增加。本文提出了一种基于文本相似度的数据分析方法,通过对国内30所高校使用数据库情况进行数据搜集、标准化以及数据分析,得出高校图书馆电子资源数据库的使用现状,并对未来大数据环境下图书馆资源建设进行了展望文数据库统一使用英文拼写和简写方法命名,去除中文词汇命名。2.2数据分析程序对于搜集得到的6796条数据库信息,分析可知其中的很多信息记录表征的都是同一数据库,譬如很多学校都使用中国知网CNKI数据库,复旦大学图书馆数据库列表中对该数据库命名为“中国知网”,而吉林大学图书馆数据库列表中命名为“中国知网CNKI”,电子资源建设研究-电动数控滚圆机缩管机张家港电动液压缩管机全自动缩管机为此就需要一种有效的数据分析方法进行文字的相似度比较。本文即使用VBA语言实现了一种文本相似度比较的程序,实现数据的统计与分析。基础研究数据源如图1所示。其中,Sheet1名字为数据源,Sheet2名字为相似度,用来保存比较结果[7]。图1数据源信息表=文本比较相似度程序的关键功能可表述如下:(1)自动获取数据总行数。(2)设置比较行,不包含表头,设置 

本文由张家港缩管机弯管机网站采集
转载中国知网整理!
!
www.suoguanjixie.name从某几行到某几行进行比较。(3)根据相似度阈值的设置,筛选符合相似度阈值的数据会被复制到图1相似度的表中。(4)设置复制行数是指保存相似度结果时,需要复制的源数据的行数。(5)连续比较,程序每次运行不清空上次比较结果并设定数据追加,否则每次运行前将清空相似度表。2.3算法原理本文给出的文本相似度分析算法的研究原理是:从2个字符串的左边开始比较,计算并记录已经比较过的子串的距离,然后进一步得到下一个字符位置时的距离,距离就是用来计算从源串s转换到目标串t所需要的最少的插入、删除和替换的数目,算法流程设计如图2所示[8]。计算相似度的数学表达式为:Q=(rep/Longer)^2*L(L=1)(1)其中,Q为相似度百分比,取值范围为0~100;电子资源建设研究-电动数控滚圆机缩管机张家港电动液压缩管机全自动缩管机rep为重叠率为1的情况下,计算不同字符的个数,即为需要替换的字符个数;Longer为需比较的2个字符串较长字符?电子资源建设研究-电动数控滚圆机缩管机张家港电动液压缩管机全自动缩管机 
本文由张家港缩管机弯管机网站采集
转载中国知网整理!
!
www.suoguanjixie.name