MP3结构与组成-白红宇

MP3结构与组成

阅读量：5096 次

发布时间：2019-06-13

本文共 10204 字，大约阅读时间需要 34 分钟。

1、MP3是什么？

MP3是一种有损数字音频压缩格式。全称是Mpeg-1 audio Layer 3，其中MPEG是Moving Picture Experts Group的缩写，意思是动态图象专家组。所谓“有损压缩音频格式”也就是对数字音频使用了对音质有损耗的压缩方式，以达到缩小文件大小的目的，来满足复制、存储、传输的需要。MP3的压缩率可以达到1：12，但在人耳听起来，却并没有什么失真，因为它将超出人耳听力范围的声音从数字音频中去掉，而不改变最主要的声音。此外，MP3随身听也可以上传、下载其他任何格式的电脑文件，具有移动存储功能。

2、MP3随身听的构成

MP3随身听其实就是一个功能特定的小型电脑。在它小小的机身里，拥有存储器（存储卡）、显示器（LCD显示屏）、中央处理器 [MCU（微控制器）或解码DSP（数字信号处理器）] 等，其基本构成如下图：

3、MP3随身听的工作流程

当微型操作系统加载完成后，MCU开始为操作系统所控制，执行它所指定的各种功能。对于MP3随身听而言，这个功能最主要的就是播放MP3音乐了。播放的过程就是MP3音乐文件的解码过程，MCU利用自身的CPU的运算能力来承担繁重的MP3音乐文件解码任务。当MP3音乐下载至MP3随身听后一般多存储在机身内置闪存或硬盘里，在播放的过程中，MCU将其从存储介质里读取出来，缓冲在RAM中，解码后播放出来。由于此时的信号是数字信号，耳机此类的模拟设备还无法播放，这时就需要由数/模转换器（DAC）来完成将数字信号转变为模拟信号的工作，然后通过耳机就可以播放出美妙的音乐了。

（二）. MP3性能参数和技术知识

1、 SRS（ WOW）环绕音响效果
SRS（Sound Retrieval System）效果简单地说就是 3D立体音响效果。 WOW是由SRS、TRUBASS、BRIGHTNESS组成，能够把音质提升到从低到高的全景3D效果。SRS是WOW的核心技术，能够收集被干扰、散乱的音波，然后按照正常的途径的重放出来。它能够非常接近艺术家原创的水平和现场效果。TRUBASS能够将低频进行实用化的调和，还能够把很深的低频提升到八度音的水平并方位展示出来。BRIGHTNESS通过延伸的悦耳的音波来创造一个更高、更宽的音域，从而实现一个拉阔的效果。

2、 EQ均衡器

Equalization（均衡）将声音中各频率的组成泛音等级加以修改，专为某一类音乐进行优化，增强人们的感觉。常见包括：正常、摇滚、流行、舞曲、古典、柔和、爵士、金属、重低音和自定义。自定义就是自己调节，没有套用固定的模式，按个人喜好而定的真正EQ。EQ音效能够弥补MP3压缩时候的信号损失，同时也满足了不同的个人听音喜好

3、 SNR（Signal to Noise Ratio，信噪比）

信噪比指在规定输入电压下的输出信号电压与输入电压切断时输出所残留之杂音电压之比，也可看成是最大不失真声音信号强度与同时发出的噪音强度之间的比率，通常以S/N表示，一般用分贝（dB）为单位。信噪比越高表示音频产品越好，常见的MP3随身听信噪比都在60dB以上，OPPO MP3 的信噪比都在90dB以上，具有较高的优势。

4、 Frequency Respond频率响应

频率响应范围是最低有效声音频率到最高有效声音频率之间的范围，单位为赫兹（Hz）。它与音响系统的性能和价位有着直接的关系，其数值越小说明音箱的频响曲线越平坦、失真越小、性能越高。一般的MP3随身听的频响范围在20～20000Hz，而这一范围正好是人耳所能听到的声音频率范围。

5、 Sampling Rate（采样率）

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，把模拟音频转成数字音频的过程就称作采样。实现这个过程使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样率，单位为Hz（赫兹）。采样率越高所能描述的声波频率就越高，则音质越有保证，在录音时体现的最为明显。大部分的MP3随身听都支持播放44．1KHz的MP3音频文件。

6、 Output Power（输出功率）

指随身听耳机输出口中，以电压输出为主的非纯电压输出方式输出的功率，说明书上一般会有标称，耳机必须与随身听的输出功率相匹配。简单分析：耳机的阻抗越高，输出电压会变大，随身听的总功率就会减小，此时输出功率就会减小。当把音量开到很大的时候，功率减小更显著，此时就会产生所谓的失真现象。现在的MP3随身听在标配阻抗为16Ω的耳机的条件下，单一声道的最大输出功率一般在7～18mW之间。

7、 USB接口

USB的全称是Universal Serial Bus（通用串行总线）。目前MP3产品普遍采用的是USB2.0接口，USB2.0分为两种：USB2.0 Full Speed（全速）和USB2.0 Hi Speed（高速）。USB2.0 Full Speed的传输速率为12Mbps（兆位每秒），相当于1.5MB/s。目前大部分MP3为此类接口类型。USB2.0 Hi Speed的理论传输速率可以达到480Mbps，相当于60MB/s，这意味着装满一个128MB的MP3随身听只需要2秒钟！但由于种种原因，实际上的传输速率远远没有达到这个数值，一般传输速率都没有超过10MB/s，不过能达到了数兆每秒，这个速度已经是足够快了。

另外，早期的MP3随身听采用的多是USB1.1的接口，它的一般传输速率是1.5Mbps，即相当于USB2.0（全速）的1/8。

8、 Line in（线输入/直录功能）

从硬件角度来讲，Line in是用来接受线路等级信号的输入端子（插孔）。从功能角度讲，Line in是MP3直录功能。它可以通过音频线直接从CD机、VCD、录音机等外部音频设备取得音源进行录制，然后利用机内的MP3编码功能将其压缩成MP3格式音频文件。这样，无需经过电脑，照样可以将CD等音源录制成MP3音乐。

9、 FirmWare（固件）

固件（具有软件功能的硬件）包括了对音乐的解码、界面控制、显示各种提示信息以及通过线路与电脑连接等，功能非常强大。固件升级可以解决已经存在的错误和兼容性问题、改善操作方式使之更加人性化、并能提供更多的音乐格式支持。

10、电池

电池一般为锂电池、7号或者5号电池，7号或者5号电池有可能为镍氢充电电池。锂电池最大的好处就是几乎无记忆效应，能量强。

11、 TTS

TTS是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。所有声音采用真人普通话为标准发音，实现了120-150个汉字/秒的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。

12、 TXT文本阅读

TXT文本阅读是指MP3能够阅读TXT格式的文本，这使得消费者能够一边听音乐，一边阅读文本。

13、 ID3 信息

ID3标签是 MP3 音乐档案中的歌曲附加信息，它能够在MP3中附加曲子的演出者、作者以及其它类别资讯，方便众多乐曲的管理。缺少ID3标签并不会影响 MP3的播放，但若没有的话，管理音乐文件也会相当的麻烦。如果你在网上download （下载）MP3音乐，里面多半已经写有预设的ID3信息。如果你想要将其清除重设，使用Winamp中的“Alt + 3”热键，就能修改MP3档案中之的ID3标签。

14、内存扩展槽

扩充内存相当于给MP3随身听增加内存容量，根据MP3的不同，可以有CF卡、SM卡、MMC卡、SD卡等多种选择。CF卡是早期MP3使用的，现在因为体积和耗电的原因，已经很少用到了；SM卡在MP3随身听领域中应用较广，但目前已经比较少见了；MMC卡号称是目前世界上最小的Flash Memory存储卡，但由于价格的原因，现在使用这种卡的MP3随身听非常少；SD卡是在MMC卡基础上发展出来的，所以它也向下兼容－－换言之，如果你的MP3支持SD卡，那么它一般也可以支持MMC卡，但反过来MMC卡插槽的MP3就不支持SD卡。除了上面列举的几种卡外，SONY采用的是专用的记忆棒（Memory Stick），一般只用在SONY的机型上，很少看到其他产品使用。

（四）. MP3随身听的解码芯片和方案简介

　　解码芯片，它的作用顾名思义就是将存储在介质（Flash或者硬盘）上的MP3文件解码。它是MP3随身听工作中最重要的一环，很大程度上影响产品最终的音质表现。MP3是一种有损压缩的格式，如果MP3随身听拥有优秀的解码芯片就能够更好地还原音频信号的质量，很大程度上弥补音频信号的损失。

将MP3解码芯片、MCU（微处理器）、接口控制芯片再加上操作控制电路集成到一起（也就是我们前文《MP3随身听的构成原理图》中的那个“大黑块”），称为一个芯片方案，或者叫主芯片，我们常听到的什么PHILIPS×××芯片方案、SIGMATEL××××芯片方案，就是这个意思。比较知名的、高档一些的芯片方案，主要有PHILIPS、SIGMATEL、TELECHIPS，其它相对来说比较低端一些的有台湾SUNPLUS（凌阳）、珠海炬力等。

以SIGMATEL STMP3410芯片为例，我们就可以了解到“主芯片”的原理和作用了：

SIGMATEL STMP3410芯片原理框图

由原理图理论上我们可以看出，“主芯片”是以解码DSP（数字信号处理器）为核心的，集成了各种接口控制芯片和控制电路，所以它的实际作用已经远远不止是解码芯片了，但现实中人们仍然习惯性地称它们为“解码芯片”。

下面简要介绍前三种应用较广泛的芯片方案。

1、 PHILIPS芯片方案

iRiver和MPIO是MP3随身听发源地韩国的领导品牌，他们的产品无论是音质还是品质都是很有口碑的，这也成就了PHILIPS解码芯片的高端地位。PHILIPS 的系列芯片SAA7750、SAA7751、PNX0101ET本身仅仅是解码芯片，必须搭配其他的控制芯片才能使用。PHILIPS解码芯片本身价格就比较昂贵，再加上外围芯片整体成本就比较高了，因此采用PHILIPS解码芯片的MP3价格一般都比较昂贵。

PHILIPS SSA7750EL芯片

PNX0101ET是SAA7750EL的改良型，外型体积小了，性能及功耗却有所提高。

部分采用PHILIPS SAA7750/7751解码芯片的MP3随身听代表产品有：iriver的IFP-100、300、500系列，MPIO的大部分机器（FD100、FL100、FY200、FG100等），MSC的G128，JNC SSF-200和创新（CREATIVE）的MX100、MX200等。

　　PHILIPS PNX0101ET芯片

MPIO的FG100、FL300和iriver 的IFP-700、800、900、1000系列以及N10使用的是PNX0101ET芯片。

2、 SIGMATEL芯片方案

美国SIGMATEL公司的STMP 34××系列和35××系列芯片是目前市场上占有率最大的MP3解码芯片之一。它是几种最主流的解码芯片中唯一采用高集成单芯片的，因此采用SIGMATEL方案的机器整体外围结构比较简约，成本也容易控制，综合性价比应该算是最高的。其中SIGMATEL STMP34××系列芯片曾经因为结构简单、性价比高、方案成熟，被几乎所有的主流厂商所采用，也因此开发出了众多的附加功能，占据了MP3市场的大半河山，爱国者月光宝盒系列、JNC SSF-800

和SAMSUNG YP-55H等市场热销型号都是采用经典的STMP3420芯片。

SIGMATEL STMP3410芯片

在STMP34××系列大获成功的基础上，SIGMATEL于2004年推出了功能更为强大的STMP35××系列。魅族在年初于国内率先推出基于STMP3520芯片基础的ME系列一举获得成功，并奠定了一定的市场地位。如今采用STMP35××系列芯片的产品越来越多，大有取代STMP34××系列成为新一代市场霸主地位之势。

SIGMATEL STMP3520芯片

3、 TELECHIPS芯片方案

　　韩国TELECHIPS的TCC730、TCC731也是性能较好的MP3解码芯片之一，其成本比起飞利浦的要低一些，但是同样需要外围元件的配合，因此成本比起单芯片来说还是要高。音质方面TELECHIPS同样保持在比较高的水准，而且由于韩国的民族情感比较强烈，TELECHIPS在韩国厂商中采用的还是比较多的，而韩国的整体MP3水平又比较高，所以TELECHIPS的芯片在整个MP3随身听中还是占有很高的市场份额，这也叫近水楼台先得月的一种吧。

TELECHIPS TCC730芯片

部分采用TELECHIPS芯片方案的MP3型号有：丹丁328系列、DEC街舞系列、WeWa!!王者之音，朝华魔音系列，信利MP301等机型。可以看出，其中主要是韩国的OEM产品，由此也可见TELECHIPS在韩国的普及。

（五）. 影响MP3随身听音质的因素

1、存储器会影响音质吗？

首先来看看存储装置，它对MP3的音质有什么影响吗？存储装置主要是以文件形式保存数字编码，在这里的数字编码是用户保存进去的，因此存储装置只要能正确的还原保存上去的数字编码就可以了，而这是对存储装置的最基本要求，并且由于是数字信号，因此也不会存在信号强度、信噪比、失真等问题。因此可以说，在音质方面，存储装置不会造成任何影响，当然，如果使用HDD（hard disk drive，硬盘驱动器）方案，而电源部分未做好的话，可能会因为HDD的瞬间电流而造成些影响。

2、什么芯片方案的音质最好呢？

芯片方案（主芯片）是一个MP3随身听的绝对核心部分，它是一个高度集成的芯片，我们很难对它进行深度分析。但通过大量经验以及近年来市场用户反馈的情况来看，芯片方案的音质跟芯片公司的音频背景成正比，就三款主流芯片方案来说，音质排列顺序为：Philips > Sigmatel > Telchips。

但这个排列也并不绝对，因为有很多 MP3 随身听制造商抛弃芯片方案内部的DAC

（数/模转换器）不用，而采用自己认为音质更高的DAC芯片来解决音质问题，并且这是一个非常有效的方法。那么DAC在改变整个MP3音质中到低占了多少比重呢？可能你会说占了决定性的作用，因为它是整个模拟信号的出口。当然，如果仅仅是从技术原理上分析，确实如此，但是一台放在货架上的MP3随身听可不仅仅这么简单，那还有什么重要因素呢？

3、耳机对于音质的影响

已经有越来越多的用户开始注意MP3随身听的耳机了！确实，做为整个MP3随身听的唯一出口，它确实占据着非常重要的地位。因为不管硬件做的多么优秀，如果没有好的回放设备的话也只是徒劳。不过也不用一味要求使用高档耳机，因为一是存在着耳机与随身听搭配的问题，二是再好的耳机也只是能展现出MP3随身听的音质而已，而不能从根本上改变和提升MP3的音质。

4、 PCB布线的影响

首先，我们知道，所有的零件都是固定在PCB（Printed Circuit Board, 印刷电路板）上的，虽然是同样的电路，但是，不同的公司、不同的工程师所布出来的PCB却截然不同。而由于MP3芯片组本身集成度非常高，在同一块芯片上同时存在着很多种频率的信号。如果处理不当的话，就会造成信号间的干扰，造成音质变差，或者使随身听工作不稳定。

5、软件的作用

　实际上一般的公司在软件方面是没有能力进行任何对于音质有利的改进的。虽然软件在音质上不占有主导地位，但是如果软件设计的不好的话，也会使音质明显劣化。当然更重要的是，一个好的软件、好的操作逻辑才会让用户更加方便舒适的使用MP3随身听，这才是软件最重要的职能。

6、电源设计

MP3随身听做为低功耗的小型音频设备，其电源的设计也是非常重要的。设计的不好，不但耗电量大不说，还有可能造成对音频信号的干扰。

7、元器件选用

对于音质，如果元件选择不当对于音质的影响一般来说都是细微的，特别是对于这种数码产品，会影响音质的，其实也就是最后的那一小段模拟电路，而之前的大部分电路都不会对音质产生影响。

说了这么多，那到底谁才是决定MP3音质的关键呢？这个真的不好回答，因为一台优秀的MP3随身听需要各部分完美的结合才行，在这些因素中只要有一项做的不好，都会对音质产生明显的影响，因此它们并不能用简单的百分比来表示。所以要衡量MP3随身听的音质，除了分析它的主芯片构成外，还要多听才行，非发烧友级的普通消费者，也只能作出比较主观的判断和选择了。

（六）. MP3和WMA音频格式相关知识

数字音频格式即以数字形式进行记录、处理和播放的音频信号。数字音频格式的出现，是为了满足高保真复制、存储、传输的需求。简单的说，早期的模拟音频格式，存在着复制失真和因为介质磨损而失效的问题。从CD盘的问世开始，数字格式音频文件开始普及，但又产生了一个问题——存储体积上的限制，同时CD盘仍然存在磨损的现象。如果保存到硬盘上（相对存储时间更长），在当时存储介质（主要是硬盘）仍然昂贵的情况下，也不是好的解决方法。而互联网的出现，更产生了远距离传输文件的要求，在带宽的制约下，缩小文件体积的需求变得更加强烈，这些都从外部因素上导致了有损压缩数字音频格式产生！

而从内部因素来说，随着电脑运算、编码能力的提高，各种声学心理模式的进步，促进了各种有损压缩数字音频格式的层出不穷。以下简要介绍一些在MP3随身听上广泛使用的音频格式——MP3（CBR、VBR、ABR）、WMA、WAV、ADPCM，以及新兴的音频格式AAC、ASF和OGG。

在介绍几种数字音频格式之前，我们先来明晰一个概念——Bit Rate（比特率）。

在计算机领域中，所有的资料都是被数字化的，比特（Bit）是电脑中最小的数据单位，指一个0或者1的数，也就是数学上的二进制数字，一个“0”或“1”，就是一个位。例如当我们说一个2位的数字，就是指它是一个两位数的二进制数字，有“00”、“01”、“10”、“11”这4种组合，分别代表十进制中的0、1、2、3四个数字。

比特率是一种数字音乐压缩效率的参考性指标，比特率表示单位时间（1秒）内传送的比特数bps（bit per second，位/秒），通常我们使用kbps（通俗地讲就是每秒钟1000比特）作为单位。CD中的数字音乐比特率为1411.2kbps（也就是记录1秒钟的CD音乐，需要1411.2×1024比特的数据）。音乐文件的比特率越高，意味着在单位时间（1秒）内需要处理的数据量（Bit）越多，也就表明音乐文件的音质越好。但是，比特率高时文件大小变大，会占据很多的存储容量，MP3音乐文件最常用的bit rate是128kbps，MP3文件可以使用的比特率一般是8～320kbps。

1、 WMA（Windows Media Audio，视窗媒体音频）

作为微软公司的多媒体压缩方式，它是在Windows Media Technologies中只压缩音频数据的那一部分技术，音质类似MP3，能以MP3一半的技术完成压缩。它具有版权所有的Windows Media Rights Manager，可通过安装在WMP（Windows Media Player，视窗媒体播放器）进行播放。由于微软和Windows的强大影响力，以及最重要的版权原因，美国的主要唱片公司EMI和BMG公司等正式确定使用由微软公司开发生产的WMA方式。相信，今后这种先进方式会得到进一步的普及。

2、 MP3（CBR、VBR、ABR）

MP3是目前使用用户最多、应用最为广泛的有损压缩数字音频格式，在前文已经做过解释，在此不再复述。

CBR（Constant Bit Rate，固定比特率）

CBR是最古老最简单的MP3编码（压缩）方式。采用此法编码时，整个文件的比特率都是一样的，换言之，MP3文件每秒使用的比特率都是一样。尽管音乐文件有复杂程度不同的段落，编码器始终把比特率保持一致，除非你用最高音质，否则，MP3文件中不同段落的音质会有变化。越是复杂的段落，其音质就越差。它的最大优点是文件的尺寸固定，便于计算存储的空间。

VBR（Variable Bit Rate，可变比特率）

　　VBR是一种可变编码速率的MP3压缩方式，其原理就是将一首歌的复杂部分用高比特率编码，简单部分用低比特率编码，通过这种动态调整编码速率的方式，进一步得到音质和文件体积之间的平衡。它的主要优点是可以让整首歌都能大致达到我们的音质要求，缺点是编码时无法估计压缩出来的文件体积大小。

现在推出的MP3随身听大部分都支持VBR了，不过有些机器虽然能够播放VBR格式的歌曲，但是不能够正确显示播放时间，目前许多高品质的MP3音乐都是采用VBR编码的。

ABR（Average Bit Rate，平均比特率）

　　ABR是VBR的一种插值参数，它是在VBR的基础上发展出来的一种编码方式，是针对CBR较大的文件体积和VBR生成文件体积大小不定的特点创造了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以作为VBR和CBR的一种折中选择。

3、 WMA（Windows Media Audio，视窗媒体音频）

　　 WMA是微软公司的多媒体压缩方式，它是在微软视窗媒体技术中只压缩音频数据的技术，音质类似MP3。从压缩比角度来说，在低于192kbps的编码速率条件下，WMA可以在同样音质条件下获得比MP3文件更小的体积——甚至一半（但当编码速率高于192kbps时，普遍的反映是MP3的音质要好于WMA）。微软官方宣布的资料中称WMA格式的可保护性极强，甚至可以限定播放机器、播放时间及播放次数，具有相当的版权保护能力。

4、 WAV（声音资源文件）

WAV是一种波形文件，直接记录声音的波形，未被压缩，从CD抓取的音轨就是wav文件，体积大。

5、 ADPCM

ADPCM是Adaptive Differential Pulse Code Modulation的缩写，全名为自适应差分脉冲编码，也是一种有损压缩数字音频格式。这个格式常用在MP3随身听的录音方面，它可以提供极高的压缩比，一般128MB的MP3随身听最长可以记录16小时的录音，但追求录音时间过长是以牺牲音质为代价的。

6、 AAC（Advanced Audio Coding，高级音频编码）

AAC是由Fraunhofer研究院（MP3格式的创造者）、杜比（DOLBY）试验室和AT&T（美国电话电报公司）共同研发出的一种有损压缩音频格式，是MPEG-2规范的一部分。与MP3相比，AAC增加了对立体声的完美再现、码流效果音扫描、多媒体控制、降噪优化等MP3音频格式所没有的特性，同时还支持更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之，AAC可以在比MP3文件缩小30％的前提下提供更好的音质。

不过，在目前的MP3随身听上，仅有少数几家应用了这一格式。

7、 ASF（Advanced Streaming Format，高级流动格式）

ASF是微软公司针对Real公司开发的新一代网上流式数字音频压缩技术。这种压缩技术的特点是同时兼顾了保真度和网络传输需求，所以具有一定的先进性。也是由于微软的影响力，这种音频格式现在正获得越来越多的支持。

8、 OGG Vorbis格式

OGG是一个庞大的多媒体开发计划的项目名称，涉及视频音频等方面的编码开发。OGG Vorbis是高质量的音频编码方案，它比MP3先进在于可以支持多声道编码。官方数据显示，OGG Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。但由于随身听使用耳机播放的局限，即便是经过多声道（两声道以上）编码的OGG Vorbis格式音频文件，用耳机收听也感受不到环绕效果，因为耳机只提供双声道输出

转载自：http://szrocky.bokee.com/3312921.html

转载于:https://www.cnblogs.com/xieyuan/archive/2012/12/05/3787445.html

你可能感兴趣的文章

#Leetcode# 209. Minimum Size Subarray Sum