西安市人民政府办公厅关于转发国务院办公厅秘书局政府网站内容格式规范的通知

状态:有效发布日期:2005-12-06 生效日期: 2005-12-06

发布部门: 西安市人民政府办公厅
发布文号: 市政办发[2005]246号
　　中央人民政府门户网站简称"中国政府网"已于今年10月1日正式开通，网址www.gov.cn。中国政府网是国家以及各地方政府在国际互联网上发布政务信息和提供在线服务的综合平台。
　　"中国·西安"门户网站是我市链接在中央政府门户网站上，通过国际互联网发布政务信息和提供在线服务的综合平台。市门户网站的内容主要来源于市委、人大、政府、政协办公厅和各区县网站、市级各部门网站，采取网上抓取、信息报送、网站链接、栏目共建等方式给予保障。
　　网站的生命力在于信息的准确、权威和及时，网站的内容与各部门和地方网站密切相关，需要各部门和地方网站的密切配合。为了实现信息快速传递，便于上级网站对网上信息的抓取和分析，现将国办秘书局《政府网站内容格式规范》印发给你们，请依照执行。
　　已建门户网站单位于2006年1月底前完成：规范条款No1、No3、No5。
　　未建门户网站单位，应该严格依照网站内容格式规范进行建设，减少重复开发，便于抓取，方便群众。
　　在规范实施过程中，请注意总结经验，及时将出现的新问题、新情况函告市信息化办公室（联系人：席涛，联系电话：87283590，传真：87295107，邮件地址：eric@xa.gov.cn）。

二○○五年十二月六日

《政府网站内容格式规范》CNGOV/ST2005-001版本V1.0

　　1制定背景
　　中央政府门户网站内容主要来源于国务院办公厅和地方政府网站、部门两站。中央政府门户网站获取各级政府及部门网站内容的形式主要有网上抓取、信息报送、网站链接和栏目共建等方式。其中网上抓取是中央政府门户网站从各级政府及部门网站获取信息的主要方式之一。
　　网上抓取所面临的问题是，各级政府及部门网站缺乏统一的内容格式规范，不利于采集工具自动抓取和分析信息，部分属性不易准确提取。为了更准确地采集和分析各级政府及部门网站信息，需要规范网站的页面内容格式。各级政府及部门网站按照统一要求经过规范化修改后，中央政府门户网站可以通过采集工具
　　实现准确的网上信息自动抓取。
　　同时，为了构建政府网站服务体系，实现政府网站群的联合检索功能，需要制定各级政府及部门网站检索系统的接口规范。
　　2名词解释
　　服务系统：指各级政府及部门网站上提供的网上办事服务系统、网上申报服务系统、网上数据查询系统等网上应用服务系统。网上采集工具的目标不是把其中的数据内容进行采集，而是从网站群上自动发现这些服务系统，获取入口URL和相关描述信息，从而提供链接服务。
　　联合检索：在中央政府门户网站提供的联合检索功能指，系统能够将检索请求分发给各级政府及部门网站的站内检索系统,并将各网站站内检索系统的结果统一合并处理后返回给查询用户。这样，用户得到的检索结果是各级政府及部门网站检索结果的合集。
　　3制定目标
　　为了实现各级政府及部门网站的网上信息抓取，制定政府网站的建设规范是关键环节。本规范围绕信息采集和网页分析功能，在保持现有网站建设模式、不增加信息通道的前提下，使符合规范的网站可被中央政府门户网站采集工具程序自动识别，实现网站和网页属性自动标引，最大限度减少人工介入。
　　本规范配合中央政府门户网站采集工具的功能，实现以下目标:
　　（1）收集并验证网站信息；
　　（2）准确收集各级政府及部门网站的政务信息；
　　（3）自动发现并登记网上服务系统；
　　（4）实现政府网站群联合检索；
　　（5）准确分析网页属性信息。
　　为实现上述目标，本规范制定了五方面条款，具体含义和作用说明如下:
　　1．网站信息：用于标注网站和栏目的信息，比如名称、行业、地区、栏目名称、分类等。通过对网站信息的标注，不但可以使采集程序获得网站的基本信息，更重要的是，可以把这些信息作为政府网站的检验标志之一，实现政府网站验证校对。
　　2．政务信息：指各级政府及部门网站发布的与政府业务相关的信息，包括但不限于机构信息、法律法规、规范性文件、办事指南等。政务信息是政府网站所发布的主要信息，在中央政府门户网站建设中，需要将各级政府及部门网站所发布的政务信息进行汇总、分类，提供导航、检索等服务。
　　3．服务系统：在中央政府门户网站建设中，需要提供网上服务系统的准确定位地址信息，方便公众通过中央政府门户网站查询并快速到达该服务系统的入口网页。
　　4．检索系统接口：许多政府网站提供站内内容检索服务。但是网站所采用的检索入口以及结果展示页面各不相同，需要统一检索系统接口，实现政府网站群的联合检索功能。
　　5．网页内容：网页中包含标题、正文、作者、发表日期、正文、来源等信息，但是如果没有格式规范，网页分析程序难以准确提取这些信息。通过制定统一的网页内容格式规范，可以实现网页内容的准确分析和提取。
　　实现规范的基本方法是，在网页HTML中，嵌入特定意义的标识信息，用于标注各项有意义的内容，这些嵌入的标识信息采用HTML的meta置标，在实现属性标注功能的同时，不影响网页的显示效果。
　　4适用对象和范围
　　本规范适用于各级政府及部门网站的建设，包括国务院各部门网站，副省级以上地方政府网站。中央政府门户网站采集工具将全面支持本规范，实现对符合规范的政府网站的准确数据采集。
　　5制定原理和原则
　　5.1制定原理
　　构成网页的HTML文件逻辑上可以分为内容（Content）和页面展示（Style）两部分，内容部分包括网页的标题、日期、正文、作者等数据元素，它决定了网页所包含的信息；页面展示部分包括每个元素的位置、字体、大小、颜色等，它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。
　　本规范的制定主要从网页内容标注入手，从内容层面对网页进行标注，而忽略页面展示层面。具体方法是，利用HTML文件的特性，在不影响网页展示效果的前提下，加入各类属性置标,规定网站发布内容必须包含的信息。例如，在网页中标注网站信息、栏目信息、标题、日期、作者、来源、服务系统等元数据内容，从根本上保证其它应用对该网页属性的准确识别和提取。
　　5.2规范制定原则
　　各级政府及部门网站已经经历了多年的建设，花费了设计和管理维护人员的大量心血。为了尽量减少网站的改动，规范制定过程中充分考虑了各级政府及部门网站的实际特点和改造难度，提供可行的操作规范。
　　5.2.1可操作性
　　规范条款简单明了，贴近实际应用，提供明确的操作步骤，方便维护人员实施。
　　5.2.2划分等级
　　为了使本规范具有更好的可行性，避免一刀切所带来的网站改造压力，采用了划分等级的方法，方便分阶段、分步骤实现对规范的支持。具体等级划分和含义如下:
　　1级：重要程度高，实现紧急度高。
　　2级：重要程度中，实现紧急度高。
　　3级：重要程度高，实现紧急度低。
　　5.3条款描述方法
　　每项规范条款从以下方面给出描述:
　　编号：规范条款编号。
　　用途：给出规范条款的用途。
　　等级：给出规范条款的等级。
　　范围：给出规范条款的影响范围，范围的描述方法包括:
　　主页：指各级政府及部门网站的主页。
　　栏目：指各级政府及部门网站上的栏目页面。
　　内容页：指非主页、非栏目，包含政务信息等实际内容的网页。
　　各级网页：泛指各级政府及部门网站上的网页。
　　网页索引文件：为向网站外部提供站内网页信息而专门设置的XML索引文件，它包含网站所发布网页的索引信息。
　　服务系统主页：特指各个服务系统的入口网页。
　　系统接口：指系统可以提供某种形式的调用接口，实现请求的接收和执行结果的返回。
　　内容：给出具体的规范内容及标注方法。
　　5.4其它说明
　　规范条款描述中使用"*"号来区分必标注项和可选标注项，带有"*"号的meta置标为必须标注项，不带"*"号的属性为可选项。
　　条款中涉及"地区"属性，应按照中国行政区划中的规范地名名称进行标注。省和市之间用半角"/"符号分隔，比如"山东省青岛市"应标注为"山东省/青岛市"。
　　条款中涉及"行业"、"分类"等属性，目前各单位可以自行填写（或者暂时省略不填），在中央政府门户网站制定统一的相关规范之后，再按统一规范执行。分类标注可以支持多级，类和类之间采用半角"/"分隔。
　　条款中有关"地区"、"分类"、"作者"等属性，均可以填写多值，多值之间采用半角分号"；"分隔。
　　当有多项条款需要作用在一个网页上时，把各项条款需要在网页上所作的标注内容进行简单累加即可。
　　为了满足政府网站将来发展的需要，本规范中网页置标的格式遵循XHTML规范，网页标签的元素和内容全部采用英文小写，并且网页标签闭合。
　　6规范条款
　　6.1网站信息规范
　　6.1.1主页标注
　　编号：No.1
　　说明：在各级政府及部门网站的主页上给出网站名称、主页URL、行业、地域、分类等属性。
　　用途：该属性是网站的一项重要属性，用于标注网站的名称和属性。
　　等级：1。
　　范围：主页。
　　内容：在主页（一般为index.html/index.htm/index.asp/index.jsp等）HTML文件中，在区域内用meta置标的方式给出网站名称、主页URL、行业、地区、分类。格式描述：
　　*
　　*
　　
　　*
　　
　　其中，"网站名称"是指网站的正式名称。例如：
　　
　　
　　
　　
　　
　　6.1.2栏目标注
　　编号：No.2
　　说明：在各级政府及部门网站的栏目页面上标注栏目属性。
　　用途：利用该标注可以获得网页所属的栏目信息。
　　等级：3。
　　范围：栏目。
　　内容：在栏目HTML文件中，在区域内用meta置标的方式标注栏目名称。
　　格式描述:
　　*
　　*
　　例如:
　　
　　
　　6.2政务信息规范
　　6.2.1政务信息标注（1）
　　编号：No.3
　　说明：在各级政府及部门网站的主页上标注政务信息。
　　用途：对网站的政务信息进行标注。
　　等级：l。
　　范围：主页。
　　内容：在主页HTML文件中，用meta置标的方式，将包含政务信息的栏目列出，如果多个栏目中包含政务信息，则可以为每个栏目填写一个meta置标。格式描述:
　　*
　　其中,"分类"是指政务信息的分类属性，可以是法律法规、政策解释、办事指南等；"地区"是指政务信息的地域属性；属性之间用半角逗号","分隔。
　　例如：
　　
　　6.2.2政务信息标注（2）
　　编号：No.4
　　说明：在网页中标注本网页为一条政务信息。
　　用途：用于对网站中政务信息网页进行标注。
　　等级：3。
　　范围：内容页。
　　内容：在内容页的HTML文件中，在区域内用meta置标的方式标注政务信息。格式描述：
　　*
　　其中，"分类"是指政务信息的分类属性,可以是法律法规、政策解释、办事指南等；"地区"是指政务信息的地域属性；属性之间用半角逗号","分隔。
　　例如:
　　
　　6.3服务系统规范
　　6.3.1服务系统标注
　　编号：No.5
　　说明：在各级政府及部门网站的主页上给出所包含的服务系统信息。
　　用途：对于包含应用系统（比如"机动车违章查询系统"，"在线招投标系统"等）的网站，通过在主页上对这些服务系统的基本信息进行标注，即可实现这些服务系统被自动收集和整合的目的。
　　等级：1。
　　范围：主页。
　　内容：在主页的HTML文件中，在区域内用meta置标的方式给出本网站服务系统的基本信息。如果一个网站有多个服务系统，则可以为每个应用填写一个meta置标。格式描述:
　　*
　　属性之间用半角逗号","分隔。例如:
　　
　　6.4检索系统规范
　　6.4.1检索系统接口
　　编号：No.6
　　说明：对各级政府及部门网站的站内检索服务提出规范化要求。
　　用途：用于实现政府网站群联合检索。
　　等级：2。
　　范围：系统接口。
　　内容：为了实现政府网站群的联合检索，对各级政府及部门网站目前的站内检索系统提出规范化要求。基本思想是，各网站实现一套统一的检索接口，包括能够接受统一格式要求的HTTP检索请求，并返回统一格式要求的检索结果页面。
　　（1）接收统一的HTTP检索请求:
　　站点检索系统能够接收以下格式提交的检索请求：
　　//[hostname]/[程序名]?query=[检索条件]&page=[页码]&
　　count=[每页数目]&export=xml
　　其中，"程序名"、"检索条件"、"页码"、"每页数目"是可变参数，可由联合检索程序设置，分别表示调用的检索程序名、检索条件、取结果的页码编号、每页包含的网页数。
　　"检索条件"是gb18030（兼容gb2312和gbk）或utf-8两种编码之一；检索的词间关系支持"and"运算，使用半角空格分隔（比如"北京美国"表示检索"中国"和"美国"同时出现的文章）。页码取值范围l-l0；每页数目取值范围10-20，一般取10或20，对于超出上述取值范围的请求，检索系统可以不支持。
　　联合检索应用程序会将经过URL编码的请求发送给站点检索系统。例如，检索词为"北京"的检索请求可能为：
　　//www.xinhuanet.com/search?query=%B1%B1%BE%A9&page=l&count=20&export=xml
　　为了实现站点检索系统的安全调用，除了上述基本检索方式之外，系统还提供一种安全检索方式，对于对安全性有较高要求的网站，通过实现安全访问接口，达到安全访问的目的。
　　安全调用的基本思路是，中央政府门户网站的联合检索应用程序对检索请求进行加密处理，各级政府及部门网站的站内检索系统对检索请求进行解密，只有经过正确解密的请求才被认为是合法的检索请求，其它检索请求不被响应。这样可以屏蔽非法的检索请求，减轻系统的运行压力。
　　具体做法是，利用RSA加密算法生成一对钥匙--公钥和私钥，公钥由中央政府门户网站公开给各级政府及部门网站的站内检索系统使用，私钥在中央政府门户网站联合检索应用中使用。联合检索应用程序首先利用私钥对正常检索请求的URL串进行加密，形成一个加密的URL串，表现为:
　　//[hostname]/[程序名]?search=[加密字符串]
　　其中，"加密字符串"为原表达式"query=[检索条件]&page
　　=[页码]&count=[每页数目]&export=xml"经过私钥加密后的字符串。
　　联合检索应用程序对上述加密URL进行URL编码后发送给各级政府及部门网站的站内检索系统。
　　站内检索系统接收到加密URL的检索请求后，首先进行URL解码，获得加密的URL串，然后进行认证--使用公钥对URL串进行解密，如果能够正确还原出"query=[检索条件]&page=[页码]&count=[每页数目]&export=xml"这样格式的字符串，则执行检索并返回检索结果，否则，认证失败，站内检索系统不执行检索操作。
　　（2）返回统一的检索结果:
　　站内检索系统返回满足规定格式要求的XML数据流。联合检索程序可以对结果内容进行分析处理，实现政府网站群的联合检索功能。站内检索的返回结果符合以下XML文件格式要求:
　　
　　
　　[站内检索名称]
　　[站内检索URL入口]
　　[站内检索描述信息]
　　
　　[检索到的网页数]
　　[页码]
　　[每页记录数]
　　
　　
　　
　　[网页URL]
　　[网页发表日期]
　　[内容摘要]
　　
　　
　　
　　[网页URL]
　　[网页发表日期]
　　[内容摘要]
　　
　　……
　　
　　其中，编码（encoding值）是gb18030（兼容gbk和gb2312编码）或utf-8两者之一，并且内容的实际编码需要与该编码相吻合；字符串信息需要使用XML的CDATA类型表示；如果没有检索到网页，则将record-info域中的count置为0并忽略item域。
　　例如，有检索结果时返回的XML文件内容:
　　
　　
　　
　　
　　
　　
　　
　　1200
　　l
　　20
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　……
　　
　　没有检索结果时返回的XML文件内容示例:
　　
　　
　　
　　
　　　　
　　0
　　l
　　20
　　
　　
　　6.5网页内容规范
　　6.5.1网页内容标注
　　编号：No.7
　　说明：各网站的内容页中，需要标注标题、日期、作者、正文、来源、所属网站、所属栏目、图片等信息。
　　用途：对内容页标注属性信息，以便网页分析程序准确获得网页的标注信息。
　　等级：3。
　　范围：内容页。
　　内容：
　　（1）标题标注：直接使用HTML的
　　例如:
　　
　　（2）用meta置标的方式标注所属网站、所属栏目信息、分类、作者、日期、来源、语种、地区、图片信息，顺序无关。格式描述:
　　
　　
　　
　　
　　*
　　
　　
　　
　　
　　其中，"日期"的格式是"年（四位YYYY）-月（两位MM）-日（两位DD）时（两位hh）:分（两位mm）:秒（两位ss）"，即"YYYY-MM-DDhh:mm:ss"，如果没有时、分、秒则可以省略；"语种"按照网页的语种名称，比如中文、英文等；"图片文件URL地址"填写图片的URL地址，可以是相对URL地址，也可以是绝对URL地址，有多幅图片时重复多个image元素。例如:
　　
　　
　　
　　
　　
　　
　　
　　
　　（3）用meta置标的方式标注正文信息。方法是:
　　在文章正文起始处加标注：*
　　在文章正文结束处加标注：*
　　例如:
　　……
　　
　　日前，商务部部长薄熙来在辽宁、吉林调研时表示，商务部将认真贯彻《国务院办公厅关于促进东北老工业基地进一步扩大对外开放的实施意见》，为东北老工业基地扩大开放，搞活流通，加快振兴提供更好的服务。
　　……
　　薄熙来表示，要支持东北老工业基地发展商业，搞活流通，拉动消费。商业等第三产业投资较少，但能在较短的时间内创造较多就业岗位，要充分发挥这一优势，更多地吸纳劳动力。要实施"万村千乡"市场工程，加快农产品流通体系建设，帮助农民增收。他表示，要按照《国务院关于促进流通业发展的若干意见》，支持流通企业深化改革，努力创造公平竞争的环境，帮助流通企业降低成本。
　　商务部副部长魏建国参加了调研活动。
　　
　　……
　　6.5.2网页索引
　　编号：No.8
　　说明：将网站发布网页的相关信息写入到XML格式的索引文件中，方便网页采集程序及时、快捷、准确地获取网页信息。此条款属选择性条款，不对各级政府和部门网站作统一要求，可根据实际情况组织实施。
　　用途：实现高效、准确的网页采集。
　　等级：3。
　　范围：网页索引文件。
　　内容：
　　（1）索引文件的格式定义如下：
　　
　　
　　
　　[网站地址]
　　[网站版权]
　　[网站所在部委或委办局名称]
　　[地区]
　　
　　
　　[网页URL地址]
　　[发布日期]
　　[网页状态]
　　
　　
　　
　　[网页URL地址]
　　[发布日期]
　　[网页状态]
　　
　　
　　其中，编码（encoding值）是gb18030（兼容gbk和gb2312编码）或utf-8两者之一，并且内容的编码需要与该编码相吻合;"网页状态"取值0表示网页已被删除，1表示正常网页；字符串信息需要使用XML的CDATA类型表示。
　　例如:
　　
　　
　　
　　![CDATA[www.mofcom.gov.cn]]
　　
　　
　　
　　
　　
　　
　　1
　　
　　
　　
　　
　　
　　1
　　
　　……
　　
　　（2）各级政府及部门网站按天生成XML格式的网页索引文件，索引文件的命名规则是：gov+年（四位yyyy）+月（两位mm）+日（两位dd）.xml，即"govyyyymmdd.xml"，例如：gov20050818.xml。当日没有网页可以不生成XML索引文件。
　　（3）网页索引文件的存放路径为：各级网站域名+xml，即：
　　//[HOSTNAME]/xml/govyyyymmdd.xml。
　　（4）新网页发布之后，5分钟之内写入到当日的网页索引文件中；网页被删除后，5分钟之内写入到删除操作当日的网页索引文件中；同一个网页的发布和删除信息作为两条独立的信息分别写入发生操作的当日网页索引文件中。例如：
　　假设网页"第一届吉林?东北亚投资贸易博览会开幕3万客商云集"于2005年9月2日发布，则在2005年9月2日的索引文件gov20050902.xml中应包含以下信息：
　　……
　　
　　
　　
　　
　　1
　　
　　……
　　假设该网页于2005年10月18日被删除，则在2005年10月18日的索引文件gov20051018.xml中应包含以下信息：
　　……
　　
　　
　　
　　
　　0
　　
　　……
　　（5）历史网页的处理方式：如果网站需要批量重新发布历史网页，为了避免索引文件过大，采用独立的取名方式（存储目录位置不变），每个索引文件最多包含2000个网页的索引，XML文件名称采用history_[N].xml的形式，N从1开始编号，每次递增1。如:
　　history_l.xml
　　history_2.xml

相关法规：内容办公厅国务院办公厅秘书局政府网站格式西安市人民政府规范转发通知

西安市人民政府办公厅关于转发国务院办公厅秘书局政府网站内容格式规范的通知

推荐法规

最新已解决问题

按地域查找法规

按类别查找法规

全国专业律师列表

按地域找律师

法律文书