统一资源(URL)是用于标识万维网(WWW)上特定网页地址的一种标准格式。其结构从左至右依次由下列几个部分组成:
是资源类型(scheme),它指明了用于操作该资源的WWW客户端工具。例如,“”表明访问的是WWW服务器,“ftp://”则表示通过文件传输协议(FTP)进行访问,“gopher://”表示使用Gopher协议,而“new:”则代表Newgroup新闻组服务。
是服务器地址(host),它指明了存放该网页的服务器域名。
有时(并非所有情况)需要指定端口(port),对于某些资源的访问,需要提供相应的服务器端口号。
接着,路径(path)部分指明了服务器上某个资源的具置,其格式与DOS系统中的格式相似,通常由目录/子目录/文件名等结构组成。如同路径一样,端口号的使用并非总是必要的。
关于URL的规范性,存在一些常见情况需注意:
造成网址不规范的原因有以下几点:
a. 网站的加密状态,如使用或来区分加密和非加密网站。
b. URL的静态化过程中,静态和动态URL可能同时存在且均可被链接和访问。
c. 网站中可能存在用于追踪用户行为的代码,这也会反映在URL结构中。
d. URL静态化设置出错时,同一篇文章可能会出现多个静态化URL。
e. URL中可能包含端口号信息。
f. 某些情况下,即使显示的是首页内容,URL也可能因不同设置而有所不同。
g. 内容管理系统(CMS)的设置可能导致同一篇文章出现不同的URL链接。