探索
EXPLOE
信息的数字“变身”
发布时间:2024-11-25
打印
{{ isAudioPlay ? '暂停播放' : '播放声音' }}
放大 缩小

     平时,我们会用计算机来写作业、 看图片、浏览网页,网页上充满了文  字、图像、声音、视频等信息。但是这些漂亮的图片、优美的旋律不会被 计算机“欣赏”到,它们在进入计算机时已全部被数字化,也就是被转换成了本书前面所讲的0和1。就如我们在一些科幻电影里看到的,整个世 界都可以变成代码,我们人类感知到的世界,在计算机里,可以,也只能变成代码。

那么,这一切都是怎么实现的呢?

文字文本的数字化

   首先我们看看文字。无论你在电脑 上敲打什么字符——中文、英文、数字, 到了计算机里,都变成了二进制码。每 个字符对应的码是固定的,而且是由官 方规定的。不同的文字,或者说不同的 国家,都有自己规定的标准。

   最简单的文字可能是美式英文—— 只有26个字母、10个阿拉伯数字,再 加上一些符号,还不到100个字符。这 样只需要一个字节(8比特)的二进制 码就够了,因为一个字节有128种不同

的排列,已绰绰有余。

   20世纪60年代,美国制定了一 套字符编码——ASCll 码(即美国信 息交换标准代码),一直沿用至今。

ASClI码就只有一个字节,对应128 个字符的编码,比如空格 “SPACE” 是“00100000”,大写字母A 是 “01000001”。

   但常用的汉字就有3000~5000 个,这时就需要用两个字节(16比特) 来表示了。我们常用的是GB 码 ( 国 标 码)——GB2312, 它共有7445个字 符,其中汉字有6763个。 GB2312 对汉 字或符号进行了分区处理,每个区含有 94个汉字或符号,也称为“区位码”。 其中,01~09区为特殊符号;16~55区

二级汉字,按部首/笔画排序;10~15 区及88~94区则未设编码。当然,汉字 远不止6000多个,所以后来又有了包 括21003个汉字的GBK 编码。

   每一种编码之间是不能通用的,假如我们在浏览器中打开某种编码的网页,就必须将浏览器设置成相应的编码,不然就会出现乱码。那么,有没有  一种编码,可以将所有的符号都纳入其中呢?答案就是 Unicode码,目前包含了128172个字符。在 Unicode 里,一个英文字母等于两个字节;而对于汉字,比如“二”,Unicode 码中对应的二进制码是“100111010001100”

为一级汉字,按拼音排序;56~87区为(15位),需要3个或更多字节。 UTF-8 是 Unicode 的一种,“二”在 UTF-8 编码中的三个字节是“111001001011101010001100”。

图像的数字化

   图像如何数字化呢?首先,我们 把图片在水平和垂直方向上等间距地分 割成若干个小矩形,这些小矩形就是我 们平时说的“像素点”,图像就是由这 些像素点构成的。不过这些小矩形还是 太大了,会让图形变成马赛克,我们说 这样的图分辨率太低,要提高分辨率, 就是把格子分得足够细小。比如我们现 在个人电脑的屏幕,分辨率可以高达 1920×1080(你也可以用鼠标右键单 击桌面,选择“屏幕分辨率”,看看你 现在用的显示器的分辨率是多少)。每一个像素点用不同的数字来表示 不同的颜色。如果是黑白图像,每个点 只用一位二进制数(1或0)就可以表 示了;如果用4位表示一个点,那么这个图像会有2?=16种颜色;若采用16位表示一个点,则有21?=65536种颜色。 这个也叫作“色彩深度”,每个点的位 数越大,色彩深度越高,可用的颜色就 越多,自然可以产生更为细致的图像效 果。但是,这样会占用更大的存储空间, 因此我们要在视觉效果和存储空间之间 做出取舍,选择一个合适的位数。然而,图片数字化后得到的图像数 据量是十分巨大的,我们必须要通过编 码技术来压缩其信息量。

声音的数字化

模拟信号

   用数字来表达 声音就更加复杂 了。我们知道,声音是通过振动产生的,空气中分子的振动过程可以用一条连续的曲线来表示, 即声波,声波是随时间连续变化的模拟信号。那么我们如何把随时间变化的模拟信号转换成数字信号呢?

   首先,我们通过话筒把空气中分子振动的信号转换成模拟电信号。为了便于分析,我们把声音的模 拟电信号看成是一段正弦波,正弦波的横坐标表示时间,纵坐标表示电位值。我们将正弦波曲线分成很多小段, 用“矩形条”表示,矩形条的宽对应着我们用4位代码分别表示纵坐标上 的每个电压值区间,得到15种可能的 组合,从0000到1111。

   比如-2.00V~-1.75V 区间的代码是 0000,-1.75V~-1.50V  区间的代码是 0001,...,+1.75V~+2.00V      区间的代 码是1111。

   这样,我们就可以用二进制代码 来表示这个时间点上获得的电压值范 围,如果我们把截取的时间再缩短,也 就是把横坐标中的每一小格再细分,这样得到的数字信号会越接近连续的模拟 信号,也就能完整地保留原始信号中的信息了。

从数字化信息回到文本、声音和图像的合成

   转变成二进制码的文字、图像、声 音经过计算机的处理,输出的信号要被 我们看到或者听到,需要再“逆”转回 文字、声音和图像。

   把模拟信号转换为数字信号,不 仅仅是为了计算机能够辨别,而且还 为了让信号在长途传输或者是反复复 制过程中能够保持原貌。我们打长途 电话时,之所以有时会听不清对方的声音,是因为信号在传输过程中受到了各种干扰,产生衰减或失真。相比于模拟电路,数字信号只有0、1两个状态,因此在传输或其他过程中具有更强的抗干扰能力,这也是数字信号的魅力之处——没有损失。