网络
所有现代计算机网络都是包交换(分组交换)网络:流经网络的数据分割成小块,称为包(packet,也称为分组),每个包都单独加以处理。每个包都包含了由谁发送和将发往何处的信息。将数据分成单独的带有地址的包,其最重要的优点是:
1、多个即将交换的包可以在一条线缆上传输,这使得建立网络的成本更低;
2、分包还有一个好处,就是可以进行校验,用来检测包在传输中是否遭到破坏;计算机来回传递数据时需要用到协议(protocol),协议是定义计算机如何通信的一组明确的规则:包括地址格式、数据如何分包等。开放、公开的协议标准允许不同厂家的软件和设备相互通信,Web服务器不关心客户端是UNIX工作站、Android手机还是一个Pad,因为所有客户端都是用相同的HTTP协议,与平台无关。
网络分层
常见的网络分层模型有OSI七层网络模型和TCP/IP四层网路模型,对于Java网络程序,OSI模型过于复杂,OSI模型将主机网络层分为数据链路层和物理层,另外在应用层和传输层之间插入了表示层和会话层。OSI模型更加一般化,更适合于非TCP/IP网络。
在TCP/IP四层网络模型中,两个应用程序间的通信过程如下:
当Web浏览器向Web服务器发送获取网页的请求时,浏览器实际上只与本地客户端的传输层对话。传输层将请求分解为TCP片,向数据添加序列号和校验,然后将请求传递给本地网际层。网际层根据本地网络所需的大小将各个TCP片分成IP数据报,并传递到主机网络层以便通过线缆传输数据。主机网络层将数字数据编码为适合特定物理介质的模拟信号,将请求发送到线缆,目标地址的远程服务器的主机网络层可以由此读取请求。
远程服务器的主机网络层将模拟信号解码为数字数据,将生成的IP数据报传递给服务器的网际层。网际层简单地检查IP数据报是否被破坏,如果已经分片则重组数据,然后传递给服务器的传输层。传输层检查是否所有的数据已经到达,对于丢失或破坏的部分则要求重传(重传得通过客户端的传输层重新发送丢失的数据包,所有这些操作对于应用层来说都是透明的)。一旦服务器的传输层接收到足够多的连续顺序数据报,就将其重组写入一个流,由服务器的应用层解析读取。服务器响应这个请求,再通过服务器系统的各个分层发回响应数据给客户端。
主机网络层(物理连接)
主机网络层由连接不同计算机的硬件(线缆、光纤电缆等)组成,一般不需要去接触这一层,除非为了是性能问题。
网际层(IP)
网际层协议定义了数据位和字节如何组织为更大的分组。称为包,还定义了寻址机制,不同计算机要按这个寻址机制查找对方。
在IPv4和IPv6中,数据按包在网际层上传输,这些包称为数据报(datagram)。每个IPv4数据报包含一个长度为20~60字节的首部,以及一个包含多达65515字节数据的有效载荷。IPv6数据报则包含一个更大的首部,数据可以多达4G字节。
传输层(TCP、UDP)
传输层负责确保各包以发送的顺序接收,并保证没有数据丢失或破坏。如果丢包,传输层会请求发送方重传这个包。为实现这个目标,IP网络会给每个数据报添加一个首部,其中包含有更多信息。这个层主要有两个协议:TCP和UDP,TCP支持对丢失或破坏的数据重传,并按照发送时的顺序进行传送,是一个开销很高的协议;UDP允许接收方检测被破坏的包,但是不保证这些包以正确的顺序传送(有可能丢包)。
应用层(HTTP、FTP)
应用层是与用户直接交互的协议,应用层确定了数据传输后的操作,例HTTP协议可以确保Web浏览器将图像显示为图片,而不是一长串数字。
IP地址
IPv4网络中的每台计算机都有唯一的4字节地址,当数据通过网络传输时,包的首部会包括要发往的目标地址和发送这个包的源地址,包括源地址是为了让接收方知道要向谁响应数据。
URL
URL是一个URI,除了标识一个资源,还会为资源提供一个特定的网络位置。在Java中,java.net.URI只标识资源,java.net.URL既能标识资源,又能获取资源。URL中的网络位置通常包括用来访问服务器的协议(如FTP、HTTP)、服务器的主机名或IP地址,以及文件在该服务器上的路径。
URL的组成:protocol://userInfo@host:port/path?query#fragment
URL的协议(protocol):如http、https、ftp等;
URL的主机(host):服务器的名字,可以是主机名或者IP地址,如www.baidu.com或204.148.40.9;
URL的用户信息(userInfo):服务器的登录信息(可选),如果有则包含一个用户名,极少情况下还包含了一个口令;
URL的端口(port):如果服务器在其默认的端口运行,如HTTP的默认端口为80,则不需要这部分信息;
URL的路径(path):执行服务器的一个特定目录,可以看成是一个文件系统的路径;
URL的查询(query):向服务器提交附加参数,一般只在http协议中使用;
从URL获取数据的三个方法:
public final InputStream openStream() throws java.io.IOException
openStream()方法连接到URL所引用的资源,在客户端和服务器之间完成必要的握手,返回一个InputStream,可以由此读取数据。从这个InputStream获取的数据是URL引用的原始内容(即未经解释的内容):如果读取ASCII文本则为ASCII;如果读取HTML文件则为原始HTML;如果读取图像文件则为二进制图片数据等。它不包括任何HTTP首部或者与协议有关的任何其他信息。public final Object getContent() throws java.io.IOException
getContent()方法获取由URL引用的数据,尝试由它建立某种类型的对象。如果URL指示某种文本(如ASCII或HTML文件),则返回的对象通常是某种InputStream;如果URL指示一个图像(如GIF或JPEG文件),返回的对象是一个java.awt.ImageProducer。但是getContent()方法最大的问题是很难预测将获得哪种对象。public URLConnection openConnection() throws java.io.IOException
openConnection()方法为指定的URL打开一个Socket,并返回一个URLConnection对象。URLConnection表示一个网络资源的打开的连接。如果希望与服务器直接通信,应当使用该方法,通过URLConnection可以访问服务器发送的所有数据:除了原始的文档本身外(如HTML、纯文本、二进制图像数据),还可以访问这个协议指定的所有元数据,例如如果模式是HTTP或HTTPS,URLConnection允许访问HTTP首部以及原始HTML。而且除了从URL读取之外,还支持写入数据。
获取分解URL的9个方法:
以URL url = new URL("https://www.baidu.com/");为例子getProtocol():输出https;
getHost():输出www.baidu.com;
getPort():输出-1;如果URL没有指定的端口号,则返回-1;
getDefaultPort():输出443,;如果URL没有指定端口号,则返回默认的端口号,如果没有默认的端口号则返回-1;
getFile():输出/;此方法返回URL的路径path部分,即从主机名后的第一个斜线(/)一直到开始片段标识符的(#)之前的字符,其中包含查询字段;
getPath():输出/;此方法类似于getFile()方法,唯一区别的是getPath()返回的字符串不包含查询字段;
getRef():返回#号后面的部分;
getUserInfo():返回用户信息,如果没有则返回null;
getAuthority():输出www.baidu.com;返回授权机构;
InetAddress
java.net.InetAddress类是Java对IP地址的高层表示,它包括一个主机名和IP地址。InetAddress类没有构造函数,但是提供了一些静态工厂方法,可以连接到DNS服务器来解析主机名。
InetAddress.getByName()
InetAddress.getByName()最常用的是InetAddress.getByName()方法,这个方法实际上回建立与本地DNS服务器的一个连接,来查找名字和数字地址,同时还有缓存作用,如果之前查找过这个主机,这些信息可能会缓存到本地,这样下次再获取这些信息时就不用再进行网络连接了。
InetAddress.getLocalHost()
InetAddress.getLocalHost()getLocalHost()返回的是运行这个代码的主机的InetAddress对象。这个方法尝试连接DNS来得到一个真正的主机名和IP地址,如果没有连接到Internet,系统也没有固定IP地址或域名,则会返回回送地址,即主机名“localhost”和IP地址“127.0.0.1”
缓存
由于DNS查找的开销可能相当大(如果请求需要经过多个中间服务器,或者尝试解析一个不可达的主机),所以InetAddress类会缓存查找的结果。一旦得到一个给定主机的地址,就不会再次查找,即使你为同一个主机创建一个新的InetAddress对象,也不会再次查找地址。
网友评论