首页 自动获取国家统计局网站行政区划代码的方法

自动获取国家统计局网站行政区划代码的方法

举报
开通vip

自动获取国家统计局网站行政区划代码的方法自动获取国家统计局网站行政区划代码的方法 何纯芳 (甘肃省地图院, 兰州 730000) 摘 要: 在地理国情普查、基础测绘生产中往往需要详细的行政区划代码作为某种要素的属性项。国家统计局网站 发布的行政区划代码涵盖全国,详细至行政村级,现势性强而且权威,在实际生产中,具有较大用途。但是国家统 计局网站发布的行政区划代码是级联网页的形式,使用起来不方便,特别是不利于查询。介绍了基于 Excel 宏命令, 自动获取行政区划代码,并整理成本地 Excel 文件,提高使用便捷性。 关键词: 行政区划代码; ...

自动获取国家统计局网站行政区划代码的方法
自动获取国家统计局网站行政区划代码的方法 何纯芳 (甘肃省地图院, 兰州 730000) 摘 要: 在地理国情普查、基础测绘生产中往往需要详细的行政区划代码作为某种要素的属性项。国家统计局网站 发布的行政区划代码涵盖全国,详细至行政村级,现势性强而且权威,在实际生产中,具有较大用途。但是国家统 计局网站发布的行政区划代码是级联网页的形式,使用起来不方便,特别是不利于查询。介绍了基于 Excel 宏命令, 自动获取行政区划代码,并整理成本地 Excel 文件,提高使用便捷性。 关键词: 行政区划代码; 国家统计局; 自动获取; 宏命令 Method of Obtain Administrative Division Code Automatically from the Website of National Bureau of Statistics HE Chun-fang (Mapping Institute of Gansu Province , Lanzhou 730000 , China) Abstract: It requires detailed administrative divisi on code as the property items of some elements in Census of National Geography and the production of basic surveying. The administrative division code released by National Bureau of Statistics covers the whole country with detailed, potential strong and authoritative characteristics. In the practical production, it can be used widely. However, administrative division code released by the website of National Bureau of Statistics is in the form of administrative divisions cascade pages and inconvenient to use, especially not conducive to the query. This paper describes a method to obtain administrative division automatically into excel files based on excel macros to improve ease of use. Key words:Administrative area code ; National Bureau of Statistics ; Obtain automatically ; Macro command 式 网 页 结 构 , 级联方式为分年度—分 省—分 市 州—分 区 县— 1 引言 乡 镇—各 个 行 政 村 。 数据结构为网页中的 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 格 , 字 段 分 为 随 着 Internet 的 飞 速 发 展 , 网 络 已经发展成为一个全球性 分[1-2]。 的巨大的信息空间, 其 所 包含的大量信息是一个巨大的资 代码和名称两列 [3]源 宝 库。 信息抽取技术是 从这一资源宝库中获取所需要的数 2.2 数据存储 分析后台数据存储方式主要是为了将数据下载到本地后, 在 据与信息的一种技术 , 其核心是能够从 Web 网页所包含的无 。 通过 URL 地址, 分析出数据 结构或半结构的信息中识别用户 感 兴 趣 的 数 据 , 并 将 其 转 化 自动获取时分析处理数据嵌套关系[4-8]、 语义更为清晰的格式。 , 具体到某个省, 具体组织方式是以省级区划代码为名 为更为结构化在存储时 , 该文件夹下存储一个 html 页面和若干子文件 在地理国情普查 、 基础测绘生产中往往需要详细的行政区 称建立省级文件夹 , html 页面具体内容为该省分市州代码和名称表, 子文件夹为 。 国家统计局网站发布的 夹划代码用来做境界等数据层的元数据 , 详 细 至 行 政 村 级 , 现势性强而且权 。 市州和区县文件夹和省级文件夹存储方式类同。 3行政区划代码涵盖全国分市州文件夹 威, 在实际生产中 , 具有较大用途。 但是国家统计局网站发布 自动获取方法 , 使用起来不方便, 主要体 的行政区划代码是级联网页的形式自动获取方法分为两个 步 骤 : 第一步将数据下载到本地 , 。 如果采用人工的方法将 现在需要在线使用和不利于进行查询第二步自动将数据整理成本地 Excel 文件。 , 则耗时费力而且 行政区划代码一条一条复制粘贴成本地文件3.1 数据下载 。 编写程序, 自动从国家统计局网站获取行政区 容易出现错误为了防止在使用程序自 动获取行政区划代码数据时 , 出 、 准确的解决办法。 , 需要先将网站中的统计用 划代码并整理成本地文件是一个快速现网络中断等情况致使获取失败 区划代码和城乡划分代码子网站下载 到 本 地 。 具 体 方 法 为 使 2 网站与数据组织结构 为了自动、 快速获取国家统计局网站行政区划代码 , 首先 wget 将 整 个 统 计用区划代码和城乡划分代码 用网络下载工具 、 数据组织和数据后台存储方法 。 行政区划 子网站下载到本地 , 并且自动保留数据的存储结构 。 需要分析网站结构 , 代码数据在国家统计局网站的统计数据子页面的统计 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 栏目 在该栏目的下方有分年度 “统计用区划代码和城乡划分代码”。 作者简介: 何 纯 芳 :1981- : , 女 , 工 程 师 , 学 士 , 研 究 方 2.1 数据组织结构 : 测绘地理信息产品生产和开发 。 向统计用区划代码和城 乡划分代码数据的组织方式为级联 收稿日期:2014-05-07 2014.16 73 电脑编程技巧与维护 3.2 自动整理 If fm<>" ." Andfm<>" . ." Then If (GetAttr (fp&fm) And vbDirectory) = vbDirectory Then 自 动 整理主要技术方法是在 Excel 表中使用宏命令实现 , i1 = i1 + 1 关键步骤有两个 , 第 一 是 将 外 部 的 html 页面中的数据表格ReDim Preserve arr1 (1 To i1) 入到 Excel 表格 中 ; 第二是通过循环和判断语句 , 实 现 多 导arr1 (i1) = fp&fm 级 级 联子文件夹下的所有 html 页 面 批 量 导 入 Excel 表 中 , End If 生成分 市州行政区划代码数据文件。If Right (fm, 5) = fkey Then ' 往表格里继续添加子文件夹中的 html 的内容 With ActiveSheet.QueryTables.Add ( _ Connection:=" URL:" &fp&fm&"" , _ Destination:=Range (" A65000") .End (xlUP) . Offset (1, 0)) .FieldNames = False .RowNumbers = False End With ' 结束 End If 图 2 下载后的数据存储示例 End If Fm = Dir (1) 外部 html 页面导入 Excel 关键代码 Loop ' 取得第一个 html 文件名称 For i2 = 1 To i1 f = Dir (ThisWorbook. Path &" \*.html") Call searfile (arr1 (i2) , " .html") ' 取得这个 html 文件的完整地址 Next F1 = ThisWorbook. Path &" \" & f End Sub ' 开始读取这个 html 文件的内容到表格制定内容 3.3 成果形式 With ActiveSheet. QueryTables. Add (_ 为了便于使用,最终整理的行政区划代码数据是分市Connection:=URL:" & f1 &"" , _ Destination:=Range (" A65000") .End (xlUP) . Offset (1,0)) Excel 的,每个市州为一个表文件。每个市州以县区、州.FieldNames = False 乡 镇 为 群组进行组织。 .RowNumbers = False .FillAdjacentFormulas = False .PreserveFormatting = True .RefreshOnFileOpen = False .BackgroundQuery = True .RefreshStyle = xlInsertDeleteCells .SavePassword = False .SaveData = True .AdjustColumnWidth = True 图 3 成果数据示例 .RefreshPeriod = 0 3.4 效率对比 .WebSelectionType = xlSpecifiedTables 国家统计局网站上的甘肃省行政区划代码数据有 1000 多个页 .WebFormatting = xlWebFormattingNone .WebTables = " 5" 上万条 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 。 采用人工方式, 大约需要一个人投入 7 个面,.WebPreFormattdTextToColumns = True 准确率无法保证百分之百; 采用自动整理方式, 下工作 日,.WebConsecutiveDelimitersAsOne = True 自动整理每市州需要不到一分钟, 准确载数据需 要一个小时,.WebSingleBlockTextImport = False 3.5 数据更新 率为百分百。.WebDisableDateRecognition = False 关注国家统计局网站中 发布的统计用区划代码和城乡划 .WebDisableRedirections = False 分 代 码 , 若发布最新数据 , 则采用上述方法重 新 自 动 整 .Refresh BackgroundQurey:= False End With 理 , 实现数据更新。 (2) 所有 html 页面批量导入 Excel 表 4 结语 Sub searfile (fp As String, fkey As String) 采用该方法自动整理行 政区划代码数据 , 大 幅 缩 短 了 Dim arr1 () As String, i1 As Integer, i2 As Integer 处 理 时 间 , 并且确保了数据整理的准确 性 。 该方法的关If Right (fp, 1) <>" \" Then fp = fp&" \" 现了将结构化的网络页面数据整理成本地 Excel 文 件 , 键是实If Len (fkey) < 1 Then fkey = " *.html" ' 文件类型省略则仅 方 便 阅 读 和 查 询 , 适用于结构化或半结构化的网站信 息 自 搜索.html 文件 动 提 取 , 具有较强推广和实用意义 。 fm = Dir (fp, vbDirectory) (下转第 107 页) Do Whilefm<>"" 2014. 16 74 人工智能及识别技术ARTIFICIAL INTELLIGENCE AND IDENTIFICATION TECHNIQUES ' 将英文转换成大写 Sex = " 男" End Function YourID = UCase (Trim (YourID)) ' 身份证号左 17 位,不是数字就退出 4 Excel 环境下自定义函数应用 If Not IsNumeric (Left (YourID, 17)) Then Exit Function 4.1 输入并使用自定义函数 ' 身份证号 18 位字符,不是 0-9X 就退出 在 Excel2007 窗 口 中 , 按 Alt+F11 组 合 键 进 入 VBA 窗 口 , If Not YourID Like " * [0-9X]" Then Exit Function 右 击 Microsoft Excel 对 象 , 通 过 “插 入 ” 命 令 插 入 “模 块 ” 身份证号出生日期,不是年月日格式就退出 ' Datestr = Mid (YourID, 7, 8) 1 VBA 对 象,选定“模块”,把上面的自定义函数代码 If Datestr <> Format (DateSerial (Left (Datestr, 4) , Mid (Datestr, (其 中 包 括 3 个 自 定 义 函 数 ) 粘 贴 到 模 块 1 窗 口 中 。 返 5, 2) , Right (Datestr, 2)) , " yyyymmdd") Then Exit Function 回 到 Excel 窗 口 , 在 单 元 格 A2 中输入一个身份证号码 For i = 1 To 17 (文 本 型 ), 然 后 在 单元 初级会计实务单元训练题天津单元检测卷六年级下册数学单元教学设计框架单元教学设计的基本步骤主题单元教学设计 格 B2、 C2、 D2 中分别输入公式 S = CInt (Mid (YourID, i, 1)) * a (i) + S =ToCheck (A2)、 =ToDate (A2)、 =ToSex (A2) , 就 会 得 到 Next ' 身份证号末位校验码,不是数字 10X98765432 就非法 身 份证的校验结果 (TRUE 表 示正确或 FALSE 表示有错 If Right ( YourID, 1) = Mid ( " 10X98765432" , ( S Mod 出生日期及性别 数 据 了 。 它 的 使用方法同内置函数误)、11) + 1, 1) Then ToCheck = True else ToCheck = False 。 如图 1 所示。 完全一样End Function ' 获取出生日期自定义函数 Function ToDate (ByVal YourID As String) As String Dim strTemp$ ' 将英文转换成大写 YourID = UCase (Trim (YourID)) ' 前 17 位,不是数字就退出 If Not IsNumeric (Left (YourID, 17)) Then Exit Function ' 身份证号 18 位字符,不是 0-9X 就退出 图 1 If Not YourID Like " * [0-9X]" Then Exit Function strTemp = Mid (YourID, 7, 8) 4.2 在其他工作簿中使用这些自定义函数 If strTemp = Format ( DateSerial ( Left ( strTemp, 4) , Mid 在当前工作簿中输入的 自定义函数通常不能直接在其他 (strTemp, 5, 2) , Right (strTemp, 2)) , " yyyymmdd") Then 工 作 簿 中 使 用 。 如果要在其他工作簿 中 使 用 , 即 应 先 将 自 ToDate = Left ( strTemp, 4) & " - " & Mid ( strTemp, 5, 定 义函数另存为 Excel 加 载 宏 文 件 , 然后通过工具菜单中 2) & " -" & Right (strTemp, 2) “加 载 宏 ” 命 令 , 将 Excel 加 载 宏 加 载 到 Excel 中 , 然 后 打 Else 开 工 作 簿 文件, 即可同内置函数一样使用这些自定义函数了 。 Exit Function End If 注 意 : 要 使 用 “ 加 载 宏 ” , 需 要 将 Excel 的 宏 安 全 性 End Function 级 别 设 置 为 较 低 。 Excel 默认的宏安全性级别为高 , 即 禁 ' 获取性别自定义函数 止 加 载 宏 。 Function ToSex (ByVal YourID As String) As String Dim strTemp$ 5 结语 YourID = UCase (Trim (YourID)) (1) 使用 Excel 的自定义函数解决了用内置函数几乎无' 前 17 位,不是数字就退出 实现的复杂校验身份证的算法 。 法If Not IsNumeric (Left (YourID, 17)) Then Exit Function (2) 使用 Excel 的自定义函数大大简化了冗长公式的重' 身份证号 18 位字符,不是 0-9X 就退出 编写, 使得从身份证中获取数据变得非常简捷 。 复If Not YourID Like " * [0-9X]" Then Exit Function (3) 应 用 文 中 自 定义函数模块对本校新生学籍表中的strTemp = Mid (YourID, 17, 1) If Val (strTemp) Mod 2 = 0 Then ToSex = " 女" Else To, 份证号进行校验及出生日期等数 据 自 动 输 入 , 结 果 完 全 正 身 确 , 证明本方法快捷高效 。 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! (上接第 74 页) 件, 2003, (11) . 参考文献 [5] 李 宏 伟 , 史 培 中 , 张 素 智. 一 种 可 行 的 Web 数 据 抽 取 包 装器的设计方法 [J] . 计算机应用与软件 , 2009, (03). [1] 欧 建 雄 , 张 礼 平. HTML 数据内容的抽取与集成 [J] . [6] 张 成 洪 , 古 晓 洪 , 白 延 红 . Web 数 据 抽 取 技 术 研 究 进 华 东理工大学学报, 2003, (06). 展 [2] 李 青 山 , 陈 平. 一 种 基 于 内 容 的 HTML 到 XML 转 换 策 略 [J] . 计算机科学, 2004, (02). [J] . 计算机工程与应用 , 2001, (09). [7] 张志远, 徐涛, 冯霞. 航班信息抽取规则的自动生成技 术[3] 王 庆 一 , 王 继 成 , 周 源 远 , 袁 春 风. 多 信 息 块 Web [J] . 计算机工程. 2011, (06) . 页 面 的信息抽取 [J] . 计算机应用研究, 2002, (10). [8] 侯 锟 , 罗 海 龙. Web 页面表格信息的自主抽取 [J] . 科 [4] 孟 小 峰 . Web 信息集成技术研究 [J] . 计算机应用与软 技 广场, 2006, (04) . 2014.16 107
本文档为【自动获取国家统计局网站行政区划代码的方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_353097
暂无简介~
格式:doc
大小:58KB
软件:Word
页数:10
分类:生活休闲
上传时间:2017-09-01
浏览量:465