http协议学习

什么是http协议

HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义了HTTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定义了今天普遍使用的一个版本————HTTP 1.1。

HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端服务器模型。HTTP是一个无状态的协议。

http的作用

HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。

HTTP与TCP/IP、TLS/SSL的关系

HTTP协议通常承载于TCP协议之上,有时也承载于TLS或SSL协议层之上,这个时候,就成了我们常说的HTTPS。

默认HTTP的端口号为80,HTTPS的端口号为443。

HTTP请求响应模型

HTTP协议永远都是客户端发起请求,服务器回送响应。这样就限制了使用HTTP协议,无法实现在客户端没有发起请求的时候,服务器将消息推送给客户端。

HTTP协议是一个无状态的协议,同一个客户端的这次请求和上次请求是没有对应关系。

HTTP工作流程

一次HTTP操作称为事务,其工作过程可分为四步:

  • 首先客户机与服务器需要建立连接。只要单机某个超级链接,HTTP的工作开始。
  • 建立连接后,客户机发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。
  • 服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。
  • 客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。

如果在以上过程中的某一步出现错误,那么产生错误的信息将返回到客户端,有显示屏输出。对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。

HTTP状态响应信息

host头域

Host头域指定请求资源的Internet主机和端口号,必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域,否则系统会以400状态码返回。

Referer头域

Referer头域允许客户端指定请求uri的资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。他也允许废除的或错误的连接由于维护的目的被追踪。如果请求的uri没有自己的uri地址,Referer不能被发送。如果指定的是部分uri地址,则此地址应该是一个相对地址。

User-Agent头域

User-Agent头域的内容包含发出请求的用户信息。

Cache-Control头域

Cache-Control指定请求和响应遵循的缓存机制。在请求消息或者响应消息中设置Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。请求时的缓存指令包括no-cache、no-store、max-age、max-stale、min-fresh、only-if-cached,响应消息中的指令包括public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age。

Date头域

Date头域表示消息发送的时间,时间的描述格式由rfc822定义。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的时间表示世界标准时,换算成本时间,需要知道用户所在的时区。

HTTP的几个重要概念

连接:Connection

一个传输层的实际环流,它是建立在两个相互通讯的应用程序之间

HTTP1.1默认对方支持长链接,request和response的header中的connection代表连接类型。

消息:Message

HTTP通讯的基本单位,包括一个结构化的八元组序列并通过连接传输

请求:Request

一个从客户端到服务器的请求信息包括应用于资源的方法、资源的标识符和协议的版本号

响应:Response

一个从服务器返回的信息包括HTTP协议的版本号、请求的状态(例如“成功”或“没找到”)和文档的MIME类型。

资源:Resource

由URI标识的网络数据对象或服务

实体:Entity

数据资源或来自服务资源的回映的一种特殊表示方法,它可能被包围在一个请求或响应信息中。一个实体包括实体头信息和实体的本身内容。

客户机:Client

一个为发送请求目的而建立连接的应用程序

用户代理:UserAgent

初始化一个请求的客户机。它们是浏览器、编辑器或其它用户工具

服务器: Server

一个接受连接并对请求返回信息的应用程序

源服务器:Originserver

是一个给定资源可以在其上驻留或被创建的服务器

代理:Proxy

一个中间程序,它可以充当一个服务器,也可以充当一个客户机,为其它客户机建立请求。请求是通过可能的翻译在内部或经过传递到其它的服务器中。一个代理在发送请求信息之前,必须解释并且如果可能重写它。

代理经常作为通过防火墙的客户机端的门户,代理还可以作为一个帮助应用来通过协议处理没有被代理完成的请求。

网关:Gateway

一个作为其它服务器中间媒介的服务器。与代理不同的是,网关接受请求就好像对被请求的资源来说它就是源服务器;发出请求的客户机并没有意识到它在同网关打交道。

网关经常作为通过防火墙的服务器的门户,网关还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。

通道:Tunnel

是作为两个连接中继的中介程序。一旦激活,通道便被认为不属于HTTP通讯,尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时,通道便消失。

缓存:Cache

反应信息的局域存储。

HTTP1.0与HTTP1.1的区别

连接方面

HTTP/1.0 每次请求都需要建立新的TCP连接,连接不能复用。HTTP/1.1 新的请求可以在上次请求建立的TCP连接之上发送,连接可以复用。优点是减少重复进行TCP三次握手的开销,提高效率。

Host域

HTTP1.1在Request消息头里头多了一个Host域, HTTP1.0则没有这个域。

日期时间戳

发送方向

HTTP1.0要求不能生成第三种asctime格式的date/time stamp;
HTTP1.1则要求只生成RFC 1123(第一种)格式的date/time stamp。

状态响应码

Server看到之后呢如果回100 (Continue) 这个状态代码,客户端就继续发request body。这个是HTTP1.1才有的。
另外在HTTP/1.1中还增加了101、203、205等等性状态响应码

请求方式

HTTP1.1增加了OPTIONS, PUT, DELETE, TRACE, CONNECT这些Request方法.

请求响应码参考

1**:请求收到,继续处理

  • 100——客户必须继续发出请求
  • 101——客户要求服务器根据请求转换HTTP协议版本

2**:操作成功收到,分析、接受

  • 200——交易成功
  • 201——提示知道新文件的URL
  • 202——接受和处理、但处理未完成
  • 203——返回信息不确定或不完整
  • 204——请求收到,但返回信息为空
  • 205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件
  • 206——服务器已经完成了部分用户的GET请求

3**:完成此请求必须进一步处理

  • 300——请求的资源可在多处得到
  • 301——删除请求数据
  • 302——在其他地址发现了请求数据
  • 303——建议客户访问其他URL或访问方式
  • 304——客户端已经执行了GET,但文件未变化
  • 305——请求的资源必须从服务器指定的地址得到
  • 306——前一版本HTTP中使用的代码,现行版本中不再使用
  • 307——申明请求的资源临时性删除

4**:请求包含一个错误语法或不能完成

  • 400——错误请求,如语法错误
  • 401——未授权
    • HTTP 401.1 - 未授权:登录失败
    • HTTP 401.2 - 未授权:服务器配置问题导致登录失败
    • HTTP 401.3 - ACL 禁止访问资源
    • HTTP 401.4 - 未授权:授权被筛选器拒绝
    • HTTP 401.5 - 未授权:ISAPI 或 CGI 授权失败
  • 402——保留有效ChargeTo头响应
  • 403——禁止访问
    • HTTP 403.1 禁止访问:禁止可执行访问
    • HTTP 403.2 - 禁止访问:禁止读访问
    • HTTP 403.3 - 禁止访问:禁止写访问
    • HTTP 403.4 - 禁止访问:要求 SSL
    • HTTP 403.5 - 禁止访问:要求 SSL 128
    • HTTP 403.6 - 禁止访问:IP 地址被拒绝
    • HTTP 403.7 - 禁止访问:要求客户证书
    • HTTP 403.8 - 禁止访问:禁止站点访问
    • HTTP 403.9 - 禁止访问:连接的用户过多
    • HTTP 403.10 - 禁止访问:配置无效
    • HTTP 403.11 - 禁止访问:密码更改
    • HTTP 403.12 - 禁止访问:映射器拒绝访问
    • HTTP 403.13 - 禁止访问:客户证书已被吊销
    • HTTP 403.15 - 禁止访问:客户访问许可过多
    • HTTP 403.16 - 禁止访问:客户证书不可信或者无效
    • HTTP 403.17 - 禁止访问:客户证书已经到期或者尚未生效
  • 404——没有发现文件、查询或URl
  • 405——用户在Request-Line字段定义的方法不允许
  • 406——根据用户发送的Accept拖,请求资源不可访问
  • 407——类似401,用户必须首先在代理服务器上得到授权
  • 408——客户端没有在用户指定的饿时间内完成请求
  • 409——对当前资源状态,请求不能完成
  • 410——服务器上不再有此资源且无进一步的参考地址
  • 411——服务器拒绝用户定义的Content-Length属性请求
  • 412——一个或多个请求头字段在当前请求中错误
  • 413——请求的资源大于服务器允许的大小
  • 414——请求的资源URL长于服务器允许的长度
  • 415——请求资源不支持请求项目格式
  • 416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段
  • 417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求长。

5**:服务器执行一个完全有效请求失败

  • HTTP 500 - 内部服务器错误
    • HTTP 500.100 - 内部服务器错误 - ASP 错误
    • HTTP 500-11 服务器关闭
    • HTTP 500-12 应用程序重新启动
    • HTTP 500-13 - 服务器太忙
    • HTTP 500-14 - 应用程序无效
    • HTTP 500-15 - 不允许请求 global.asa
  • Error 501 - 未实现
  • HTTP 502 - 网关错误

Cookie与Session

Cookie和Session都为了用来保存状态信息,都是保存客户端状态的机制,它们都是为了解决HTTP无状态的问题而所做的努力。

Session可以用Cookie来实现,也可以用URL回写的机制来实现。用Cookie来实现的Session可以认为是对Cookie更高级的应用。

  • 1)Cookie将状态保存在客户端,Session将状态保存在服务器端;
  • 2)Cookies是服务器在本地机器上存储的小段文本并随每一个请求发送至同一个服务器。Cookie最早在RFC2109中实现,后续RFC2965做了增强。网络服务器用HTTP头向客户端发送cookies,在客户终端,浏览器解析这些cookies并将它们保存为一个本地文件,它会自动将同一服务器的任何请求缚上这些cookies。Session并没有在HTTP的协议中定义;
  • 3)Session是针对每一个用户的,变量的值保存在服务器上,用一个sessionID来区分是哪个用户session变量,这个值是通过用户的浏览器在访问的时候返回给服务器,当客户禁用cookie时,这个值也可能设置为由get来返回给服务器;
  • 4)就安全性来说:当你访问一个使用session 的站点,同时在自己机子上建立一个cookie,建议在服务器端的SESSION机制更安全些.因为它不会任意读取客户存储的信息。

Web缓存

什么是Web缓存

WEB缓存(cache)位于Web服务器和客户端之间。
缓存会根据请求保存输出内容的副本,例如html页面,图片,文件,当下一个请求来到的时候:如果是相同的URL,缓存直接使用副本响应访问请求,而不是向源服务器再次发送请求。
HTTP协议定义了相关的消息头来使WEB缓存尽可能好的工作。

缓存的优点

  • 减少相应延迟:因为请求从缓存服务器(离客户端更近)而不是源服务器被相应,这个过程耗时更少,让web服务器看上去相应更快。
  • 减少网络带宽消耗:当副本被重用时会减低客户端的带宽消耗;客户可以节省带宽费用,控制带宽的需求的增长并更易于管理。

与缓存相关的HTTP扩展消息头

  • Expires:指示响应内容过期的时间,格林威治时间GMT
  • Cache-Control:更细致的控制缓存的内容
  • Last-Modified:响应中资源最后一次修改的时间
  • ETag:响应中资源的校验值,在服务器上某个时段是唯一标识的。
  • Date:服务器的时间
  • If-Modified-Since:客户端存取的该资源最后一次修改的时间,同Last-Modified。
  • If-None-Match:客户端存取的该资源的检验值,同ETag。

客户端缓存生效的常见流程

服务器收到请求时,会在200OK中回送该资源的Last-Modified和ETag头,客户端将该资源保存在cache中,并记录这两个属性。当客户端需要发送相同的请求时,会在请求中携带If-Modified-Since和If-None-Match两个头。两个头的值分别是响应中Last-Modified和ETag头的值。服务器通过这两个头判断本地资源未发生变化,客户端不需要重新下载,返回304响应。

HTTPS

HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容请看SSL。