实时多媒体

2024-08-21

实时多媒体（精选8篇）

实时多媒体篇1

对于当前网络环境而言, 多种媒体混合在网络中并且共同实现传输, 这种工作特征进一步呈现出两个方面的重点表现, 即以流媒体作为代表的新型数据格式开始出现, 以及更强的实时性得到强调。虽然当前通信链路从物理层面实现了光网络的支持, 但是从协议的角度看, 想要面向多种媒体在同一环境中的协调有效传输, 仍然需要更深入的了解和学习。

1多媒体传输协议分析

在多媒体传输体系之下, 尤其是在当前以流媒体作为突出传输任务的环境中, 带宽和延迟都成为传输体系的关注重点, 对应的服务质量Qo S必须得到保证。然而互联网从协议到工作机制, 一直都在提供尽力而为的服务, 在带宽和延迟等方面保持了不确定性, 成为传统网络环境中的大问题。而这种状况, 如果单纯依赖传统网络协议, 必然无法实现对于传输需求的全面满足。

基于这样的工作背景, 国际互联网工程任务组 (IETF, The Internet Engineering Task Force) 针对此种情况提出了具有针对性的更为高效的传输协议, 其中以实时传输协议 (RTP, Real-time Transport Protocol) 以及实时传输控制协议 (RTCP, Real-time Transport Control Protocol) 作为主要内容, 希望通过二者之间的合作搭建起一个强大的协议簇, 最终能够支撑起当前网络, 以解决多媒体传输工作所面临的诸多问题。

从发展和产生的角度看, 1996年IETF的AVT工作组将RTP发展成为RFC正式文档, 编号RFC1889, 专门用于实现语音视频等实时交互式数据的传输, 广泛实现对于Vo IP以及视频传输等实时多媒体方面。从工作机制角度看, RTP更多利用UDP来实现数据的传输, 但同时也能够支持在TCP或者ATM等协议之上展开工作。当RTP会话被应用程序所触发的时候, 会使用两个端口, 分别分配给RTP以及RTCP。RTP本身并无法为数据包提供顺序基础之上的可靠传输机制, 也无法实现对于流量的控制和对于拥塞的管理, 在实际工作中, RTP会依赖RTCP来实现这些职能。在整个会话环境中, 每一个参与者会依据一定的周期发送RTCP数据包, 其中携带有已发送的数据包数量标志、丢失的数据包数量标志等, 同时也包括包的延时抖动以及其他相关网络状况统计资料。在这样的基础之上, 服务器能够利用这些信息实现对于整个传输过程的动态调整和控制, 在必要的情况下还可以借由对有效载荷类型的调整, 实现对于整个网络传输环境的优化。

这种RTP以及RTCP相互配合工作的方式, 能够有效面向网络开销实现管理, 并且对于传输效率的优化也同样意义重大, 因此相对而言在网络环境的实时数据传输领域有着良好的应用。

2 RTP以及RTCP数据包结构分析

对于RTP而言, 应用层分帧这一现代通信协议的设计思想在其工作中得到了良好的体现, 并且能够支持用户了解、调整甚至于定制媒体的打包方案。通过RTP的深入实现, 对应的应用层面能够对数据内容有更为深入的掌握, 因此可以依据RTP包头中的顺序号、时间戳等相关内容, 结合流媒体编码方式等特征来实现对于传输质量的影响和控制, 同时还可以面向差错展开管理, 并且考虑网络环境等因素的基础上, 选用最为恰当的方法灵活地完成拥塞以及同步等控制, 以更好地满足实时应用的要求。

因此, 对于RTP协议而言, 也会随着其职能的实现分为2个部分, 即负责实现数据传输的部分以及负责控制RTCP的部分。对应的RTP数据包结构参见图1。

在这样的RTP数据报头结构中, 留出的7位负载类型用于标识出数据包的负载类型以及编码格式, 方便数据包的接收端依据该字段数据实现对于数据包的解码工作。而时间戳则负责提供RTP报文第一个字节的采样时间, 便于数据接收方据此来实现流媒体的数据同步, 实现时间序列上多个数据包的重组。同时顺序号则主要是针对时间戳相同的数据包, 来进行深一步的区分。发送方为不同的报文分配不同的顺序号, 也能够便于接受端来实现对于传输过程中是否存在丢失问题的确认。此外SSRC同步源主要用于标志数据来源, CSRC贡献源用于标志混合报文的各个不同来源。

3结论

对于以流媒体作为重要构成和特征的多媒体数据环境而言, 如何实现具有一定质量保证的传输体系, 对于当前信息网络而言至关重要。实际工作中需要深入了解RTP以及RTCP协议组的特征, 并且据此制定出对应的衡量标准, 才能展开有效的分析, 切实推动整体传输状态的优化发展。

参考文献

[1]张占军, 韩承德.多媒体实时传输协议RTP[J].计算机工程与应用, 2001, 37 (4) :9-11.

[2]陶洪久, 柳健, 田金文.在网络中的流媒体实时传输技术[J].系统仿真学报, 2001 (11) :446-448.

实时多媒体篇2

关键字远程教育多媒体网络教学

中图分类号：G64 文献标识码：A

0绪论

远程教育是网络教学的一种典型应用。它为学生提供了一种获取学习内容的途径，而不用理会这些内容在时间上还是空间上相距有多远。随着多媒体和通信技术的快速发展，美国多数大学都提供远程教育的服务。

1相关工作

支持远程教育的网络教学系统可以分为两类：异步和同步。异步系统中，学习的课件和大纲预先确定。同步系统如IRI-h、CUSeeMe和KMi Stadium则看重在线的、实时的和交互式课程。

同步网络教学系统在实际的远程教学中最难的一个问题就是，授课视频在有限的带宽上传输。多环境交互式远程教学（IRI-h）是一个典型的同步网络教学系统。它在不同媒体比如文本、音频、视频甚至应用共享间的交互有着卓越的优点。不足的是，IRI-h对带宽和设备有着很高的要求。

2支持实时交互的多媒体远程教育系统

本文提供的网络教学系统为虚拟教室提供实时交互性。该系统适合使用有限带宽和低维修费用及低费用设备的远程教育。

2.1用于同步网络教学的人本系统

我们提出了一个基于人学习状况的方案，它专注于增强信息系统的性能。这与许多已经存在的网络教学技术不同。首先，我们将收集到的传统教学数据进行分类并使用不同的方法处理。根据预先定义的数据片段，把它们下载到学生的电脑上，然后使用集中控制命令同步数据分片。对于黑板上的手写文本，采用一种特殊的绘画软件运行在学生的应用程序端。在教师的应用程序端，手写文本内容被编码入向量，然后按照预先定义的命令发送到学生应用程序端。

2.2基于图像的手写识别

在传统的教学视频中，白板上的手写文本的视频帧的质量难以令人满意。想要借助现有的网络教学系统来获取清晰而又易于识别的手写文本图像，就必须满足教学视频的严格要求，比如精确的调焦和变焦操作，必须实现高分辩率帧的实时压缩和网络传输的高带宽。

为了实现低代价和易操作，增加了一个用于输入手写文本的便笺，并且设计新的算法来记录图标和便笺里的手写文本。我们设计的便笺绘图工具能够提供基本的绘图函数，比如不同大小、宽度和色彩的圆、直线和曲线。我们使用图1所示的流程对每个对象编码。当老师产生了一个新的对象时，命令就被送到了遥远的另一端。远处的学生端的软件将根据原来的命令重新绘制老师的便笺上的图像。橡皮也被视为一个和便笺背景颜色相同的对象。

2.3 P2P多媒体广播

我们选择Peercast模型，它是一种流行的P2P开放源码，能够用于广播多媒体数据，支持多媒体数据在我们的方案中传输。

图2描述了多媒体数据的广播过程。在系统的教师端，使用三个信道来收集和缓存多媒体数据。教师的视频信息借助一个低分辩率和低帧率的网络摄像机进行收集。音频和视频数据分别编码并且使用不同的信道传输。命令队列记录电子幻灯片、网页和使用原始命令的便笺的操作日志。

2.4记录脱机处理的数据

我們的系统将视频和音频文件实时地记录在本地存储器上，以便于脱机处理，比如授课内容的检索和多媒体数据的摘要。当教师清除便笺时，系统会把便笺上的东西当作一幅图像记录下来。

3结论及未来的工作

本文提出了一种低代价的网络教学系统，它以人为本，在有限的带宽下支持实时的交互式远程教育。它在实际的教学中表现出了令人满意的学习效果。将来的工作将集中在对多课程的多媒体资料库进行基于语义的检索、注释、摘要和挖掘。

参考文献

[1] 李越男.现代远程教育技术及其在电类课程上的应用[D].大庆石油学院，2003.

实时多媒体篇3

随着现代经济的发展, 移动通讯和互联网日益成为当今世界发展最快、市场潜力最大、前景最诱人的两大业务。国际电信联盟 (ITU) 统计信息显示:2013年全球移动用户数已达到68.35亿, 互联网用户也达到27.49亿, 中国移动通讯用户总数超过11亿, 移动互联网用户数超过4.6亿。越来越多的人希望在移动的过程中高速地接入互联网, 获取急需的信息, 完成想做的事情, 移动与互联网相结合的趋势成为必然。目前, 移动互联网正逐渐渗透到人们生活、工作的各个领域, 短信、铃图下载、移动音乐、手机游戏、视频应用、手机支付、位置服务等丰富多彩的移动互联网应用迅猛发展, 正在深刻改变信息时代的社会生活, 移动互联网经过几年的曲折前行, 终于迎来了新的发展高潮。

随着移动互联网行业的蓬勃发展, 传统的通讯业务受到挑战, 以往的只见文字和声音的通讯模式正悄然发生变化, 取而代之的是整合了文字、图形、图像、声音等多种内容的交互方式, 人使得人与人之间的沟通更为多元化。而互动多媒体则在此基础上更进一步, 具有更强的实时互动性, 是集成“视频、语音、文字、数据、流媒体”的互动通讯。以facetime为代表的集声音视频为一体的新一代视频聊天技术正悄然崛起。

然而与国外相比, 中国的移动互联网存在网络差异化和设备异构化问题, 严重制约着视频通话产品的发展。如何通过技术手段来解决网络异构化和设备差异化, 是新一代通讯产品面临的问题。

2 移动多媒体交互系统架构

图1展示了多媒体交互系统架构的基本模块, 其主要包含两个重要组成部分:音视频处理模块和网络传输处理模块。

2.1 音视频处理模块

音视频处理模块主要负责音视频的采集、编码、显示, 以及媒体数据后处理等。

2.2 网络传输处理模块

网络传输处理模块主要负责终端与服务器以及用户之间信令传输、P2P穿透、P2P直连传输以及服务器中转: (1) 消息信令传输模块。完成用户信息注册、登录、P2P穿透信令以及网络状态反馈等协议传输。 (2) P2P网络下UDP穿透模块。对于绝大多数移动终端来说, 其网络连接时都处于某个NAT局域网内, 其IP和端口是局域网私有而不是全球唯一的。所以, 两个处于局域网内的终端是不能直接连接的, 而必须通过NAT穿透技术获取双方在公网上的IP和端口映射, 才能够直连并传输媒体数据。 (3) 音视频媒体数据P2P直连传输模块。如果NAT穿透成功, 则终端直接可以直接传输音视频媒体数据。这不仅能够大大减轻服务器中转负担, 更能够提高媒体数据传输的实时性, 获得更好的用户体验。 (4) 音视频媒体数据服务器中转模块。在某些NAT穿透失败的情况下, 我们必须保证用户能够正常连接 (可能损失一些实时性) , 此时必须借助中转服务器, 分发双方媒体数据。

3 基于P2P网络的UDP穿透

由图1可以看出, 网络传输模块在系统中占用重要地位。网络传输模块的稳定性、实时性, 直接影响着用户体验。因此, 网络模块的设计与实现, 尤其是在移动互联网环境下的稳定性和实时性, 是每个互联网络应用需要重点关注并解决的问题。

由上述系统分析可知, 网络模块主要包含两部分: (1) 信令传输模块。信令传输模块完成用户注册、登录、邀请、P2P穿透信息的传输。这些协议与相应的业务流程有着密切关系, 因此要求传输可靠性, 但实时性可以适当放宽。因而这一模块采用TCP协议完成。 (2) 媒体数据传输模块。媒体数据传输模块完成双方音视频数据交互。用户建立通讯连接后, 对媒体数据的实时性就有很高的期望, 而稳定性可以适当降低 (即容忍一定丢包率) 。而由于TCP协议本身特性限制并不能满足实时性的要求, 因此UDP传输则成为媒体数据的首先传输协议。

而两个客户端在通讯前一般处于各自的内网环境 (NAT) , 通讯时需要经过各自的路由器到达外网, 然后传送到目的地。如果两端的路由器通过某种方式可以直接连接并通讯, 即为穿透。穿透的主要工作是客户端在两端的路由之间建立彼此的映射, 传输时直接通过路由发往至另一端的路由。

3.1 NAT[1]简介

随着互联网络及各种联网终端的迅速发展, 绝大多数家庭及企事业单位的用户都有上网需求, 导致IP地址及路由急剧膨胀。但是, 现行的IPV4协议使用公有的32bit的IP地址空间 (虽然IPV6标准早已提出, 但总体推进进度却依然缓慢) , 使得公有IP地址远远不能满足快速发展的网络需求。NAT技术的合理使用能够在在IPV4协议的基础上, 很好的解决这个问题。

NAT的最初设计目的是用来增加似有组织可用地址控件和解决将现有的私有网络 (通俗的讲就是大家熟知的局域网、内网) 连接到互联网上的问题。互联网拨号机构 (IANA) 将地址划分为公有IP地址和私有IP地址, 公有IP地址是指在因特网上全球唯一的IP地址, 而私有IP地址是指只能作为内部网络拨号使用, 不能在互联网络上直接使用, 因此可以不必向ISP或注册中心申请。RFC1918为私有网络预留除了三个IP地址段, 如下[2]:

A类:10.0.0.0~10.255.255.255;B类:172.16.0.0~172.31.255.255;C类:192.168.0.0~192.168.255.255

3.1.1 NAT原理

简单的说, NAT (Network Address Translation, 网络地址转换) 是将IP数据包头中的IP地址转换为另一个IP地址的过程, 它可以在路由器、防火墙或者单独的NAT设备等多种网络设备上进行配置, 能够有效解决IP地址不足的问题。

如图2.1所示, NAT的工作流程简单大致有四个步骤[3]:

第1步:网络终端设备的网关设定为NAT主机, 当其需要连上Internet的时候, 网络终端设备上的协议包就会被发送到NA主机, 这个时候的协议包头的源IP地址信息为10.0.0.172:80;第2步:透过NAT主机, 将网络终端设备的对外协议包的IP地址信息 (10.0.0.172:80) 修改成NAT设备所具有的公共IP地址信息, 因为是公共IP, 所以这个封包就可以连上Internet了, 同NAT主机并且会记忆这个协议包是由哪一个 (10.0.0.172:80) 终端设备传送来的;第3步:由Internet传送回来的协议包, 由NAT主机接收到了, 这个时候, NAT主机会去查询原本记录的IP地址信息, 并将目标IP信息由公共IP改回原来的10.0.0.172:80;第4步:最后则由NAT主机将协议包传送给原先发送封包的网络终端。

3.1.2 NAT的分类

根据NAT对内转发数据限制程度来看, 可将NAT分为以下几种类型: (1) 完全锥形 (Full Cone) :在一个完全锥形NAT中, 所有从同一个内部IP地址和端口过来的请求都被映射到同一个外部IP和端口, 此外, 任务外部主机可以通过映射在NAT上的外部地址发包给内部主机。 (2) 受限锥形 (Restricted Cone) :在一个受限锥形NAT, 同样所有从同一个内部IP和端口发出的请求都会被映射到同一个外部IP和端口, 但有完全锥形NAT不同, 只有内部主机向其发送过包的外部主机才可以对这个内部主机发包。 (3) 端口受限锥形 (Port Restricted Cone) :与受限锥形NAT类似, 但是增加了对端口的限制, 如内部主机向一个IP为X和端口为P的外部主机发送过包, 那么只有从这个主机的IP为X端口为P发出的包才能被发送到内部主机上去。 (4) 对称 (Symmetric) :在一个对称NAT上, 从同一个内部主机的IP和端口发送到某个目标IP和端口的所有请求会被映射到同一个外部IP和端口上, 如果同一个内部主机从同一个源IP和端口发送到不同的目标主机时, 会被映射到不同的外部端口上去。另外, 只有收到过包的外部主机才能发送包给内部主机。

3.2 基于UDP的P2P传输限制

由3.1节分析可知, 处于不同内网间的用户之前需要通讯, 其地址必须通过各自NAT设备转换成公有IP。然而, 如图2.2, NAT设备之间也并不知道目标设备的内网IP地址对应的公有IP地址信息, 因此还是无法直接将发给对方, 因此, 通常的设计还会有一个具有公有IP的中转服务器, 双方的数据有NAT发送给中转服务器, 由中转服务器分发给双方。

因此, 由NAT的分类介绍及图2.2分析可知, 限制基于UDP的P2P传输的原因无外乎两个: (1) 终端设备A和终端设备B之间在连接建立之前, 并不知道对方的公有IP信息 (NAT转后的公有IP信息) 。 (2) NAT设备对内转发数据限制。

3.3 UDP穿透方案实现

要实现处于两个不同内网之间用户之间的UDP直连, 就必须突破3.2节中所提到的限制:获取公有IP信息及规避NAT对内转发数据限制, 这一过程通常被称作UDP穿透或者UDP打洞技术, 其系统流程如图2.3。

流程说明: (1) NAT端口映射:在NAT A, NAT B路由上建立客户端音视频的端口, 以此端口进行P2P传输, 共包括音频和视频两组数据。 (2) 附带的NAT映射信息包括:客户端IP地址及音视频端口。客户端NAT的IP地址及在NAT上映射的音视频端口。 (3) 连接测试:客户端向对方发送测试信息, 对方收到后立即返回给发送方。如果在一定时间内收到自己的测试信息并且收到对方的测试信息, 测试通过, 否则失败。

3.3.1 UPn P及STUN

UPn P是即插即用技术在网络环境中的扩展, 他通过用户控制点向NAT设备发送控制信息添加端口映射的方式实现NAT穿透。UPn P不需要对现有设备进行改造, 但要求集成NAT功能的网关或路由器支持UPn P功能。目前大多数网关都支持UPn P, 因而我们可以首先尝试UPn P方式进行穿透, 但也不排除部分网络环境下不支持UPn P, 所以还需结合其他穿透技术才能达成目标[4]。

miniupnpc[5]是基于UPn P开发的开源项目, 其实现了搜索局域网中所有的UPNP设备、根据指定设备和外网端口获得内网信息、根据指定设备获得外网IP地址、根据指定设备, 获取连接类型等功能, 非常方便基于UPn P穿透应用。

STUN (Simple Traversal of UDP over NATs) 采用另外一种死了实现NAT穿透:内网中的主机通过位于外网具有公有IP信息的穿透服务器预先获取自己出口NAT上对应的外网IP信息, 然后在与其他节点通讯时直接使用该外网IP信息自己的通讯地址[6]。RFC3489详细介绍了STUN协议及处理流程, 当然, 人们也可以根据STUN思想自行实现穿透流程。

3.3.2 UDP穿透测试

由NAT分类可知, 外部网络终端需要访问处于NAT内的网终端, 必须满足一定的条件。因此, 当内网终端获取到NAT出口公有IP信息后, 必须相互发起UDP穿透测试, 以满足NAT向内转发数据的要求。

NAT分类中的完全锥形、受限锥形和端口受限锥形都属于静态端口分配类型, 即所有同一个内网IP和端口的请求都会被映射到同一个外部IP和端口, 不同的只是NAT在向内转发数据时是否需要由内网终端首先主动发起连接。而对称型NAT则是动态端口分配类型, 即同一个内网IP和端口发往不同的IP和端口时, 会被映射到不同的外网IP和端口。

UDP穿透测试流程如图2.4。

3.3.3 UDP穿透实现

由于目前大部分NAT设备已经支持UPn P, 因此我们采取UPn P及STUN双重方案, 以提高UDP穿透成功率, 具体实现流程如图2.5。

(1) UPn P检测接口。1) 首先调用upnp Discover启动搜索局域网中所有的UPNP设备;2) 然后调用UPNP_Get Valid IGD () 在UPNP列表中查看有效IGD设备, 其返回值含义为:=0没有IGD设备;=1有一个连接;=2有设备但没有连接;=3有UPNP但不是ICG设备;3) 如果返回1, 则调用UPNP_Add Port Mapping将内外IP, port在路由器上做一个映射;4) 映射成功后, 则UPn P检测流程结束。

(2) UDP穿透实现流程。1) 用户登录控制服务器并向控制服务器发送UDP心跳包, 服务器收到后将映射信息通过TCP转发给对方;2) 在收到对方映射信息前, 必须保持向控制服务器发送UDP包, 以维持映射信息;3) 收到对方映射信息后, 开始向对方Port及Port+1端口发送UDP测试数据, 并通知控制服务器已经开始UDP测试, 控制服务器将该信令转发给对方;4) 当对方也启动UDP测试后, 启动超时定时器;5) 在超时时间内, 是否收到对方UDP响应, 如收到, 则测试成功, 否则测试失败;6) UDP穿透测试过程中, 一般需要双方同时向对方发送UDP测试包, 为避免因映射信令通过TCP传输而造成的启动UDP测试不同步, 我们在收到双方的启动测试通知后, 才启动超时定时器, 以避免一方已经测试超时, 而另一方则还没有开始测试的问题。具体流程图如图2.6。

4 UDP+CDN中转

虽然UDP穿透技术能够解决大部分NAT直连障碍, 但是依然存在穿透失败的可能, 尤其对于这三种情况不能直接用P2P穿透, 它们分别是通信两端都是对称路由, 通信一方是对称路由另一方是端口限制路由, 或者通信两端在同一个路由下, 而路由不支持回环。因此, 在UDP穿透失败情况下需要服务器转发。

在中转模式下, 大部分延时时间发生在终端与服务器之间, 尤其是在移动互联网环境中, 由于跨IDC运营商等问题, 可能为中转模式带来更大的传输延时。因此, 从客户端到中转服务器之间, 我们仍然使用UDP传输协议。而在跨IDC之间, 则使用TCP转发模式。

跨IDC间的TCP转发, 理论上可以在每个运营商机房建立一个中转服务器, 但是这样所带来的资源消耗非常巨大, 因此我们目前较为成熟的CDN (Content Delivery Network, 即内容分发网络) 技术, 以解决不同地区、不同IDC之间传输不稳定的问题。

CDN是一种新型网络内容服务体系, 其基于IP网络而构建, 基于内容访问与应用的效率要求、质量要求和内容秩序而提供内容的分发和服务。而从广义的角度, CDN代表了一种基于网络而构建的高质量、高效率、具有鲜明网络秩序的网络应用服务模式。CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容, 解决Internet网络拥挤的状况, 提高用户访问网站的响应速度。

UDP+CDN中转模式如图3。

5 结语

通过UDP穿透及UDP+CDN转发模式, 系统较好的解决了基于移动互联网的多媒体交互实时性和稳定性的矛盾。当然, 由于系统中使用UDP传输协议以最大程度的到达实时性要求, 而UDP协议本身是不可靠传输协议, 存在一定丢包概率。在实际测试过程中, 同一个内网之间基本不会出现丢包现象, 而同一个运营商之间丢包率在3%以内, 不同运营商之间丢包率在5-7%之间, 但这并不会影响用户体验。

参考文献

[1]RFC 1632.

[2] (美) J.D.Wegner, (美) Robert Rockell等著, 赵英等译.IP地址管理与子网划分.机械工业出版社, 2001.

[3]韩毅刚, 李亚娜, 王欢编著.计算机网络技术实践教程.机械工业出版社, 2012.04.

[4]任浩, 王劲林, 鲁逸峰.UPnP和STUN相结合的NAT穿越技术研究.计算机工程与应用, 2009, 45 (2) .

[5]http://miniupnp.free.fr/, MiniUPnP Project HomePage.

实时多媒体篇4

随着宽带网的普及, 使得几乎所有的宽带ISP和各大网站都提供了基于互联网的VOD服务。开展交互视音频业务所用到的多媒体终端多为机顶盒, 但是由于机顶盒本身缓冲区较小的局限性, 当网络中有不可预测的抖动发生时, 在缓冲区处容易发生过载和欠载现象, 即使没有传输错误发生, 也将会严重地影响播放质量。因此, 需要引进新型速率控制策略[1]。

Yeali S.Sun等提出了一种基于客户端队列长度的流量控制, 这种控制算法过于复杂, 由于控制周期是基于RTT (Round Trip Time) 的, 控制周期越长, 缓冲区发散的可能性就越大, 系统的鲁棒性能不佳。文献[2,3]表明, 控制理论已成功应用于基于速率的视频编码和高速网络设施, 尤其在负载信息不确定时, 反馈机制可获得较好的系统性能。Wang Chia-Hui[4]等人提出一种PD控制策略, 但是, 其保守的控制参数设计, 使得: (1) 较低的增益, 动态响应性能变差; (2) 当网络传输延迟抖动时, 系统的鲁棒性能变差。

本文在速率反馈控制理论框架的基础上, 将先进控制理论中的一些思想方法运用到VOD的流量控制中, 采用DMC补偿器进行反馈控制以达到解决这些问题的目的。

1反馈控制结构

反馈控制系统结构如图1所示。服务器通过网络将流量数据包发送到用户端, 并且周期性地将当前机顶盒缓冲区长度值返回到速率调节器, 速率调节器根据一定控制策略计算下一个周期内的发送速率, 并以此作为根据调节发送速率。

1.1相关变量选择

根据图1, 可建立如下控制相关变量 :

1) 中间变量 (对于反馈控制器是未知的) 接收速率λ (k) , 为服务器的发送速率与网络抖动速率之和, 即λ (k) =u (k) +q (k) 。其中q (k) 为因网络传输延迟和数据重传等产生的网络速率抖动;播放速率μ (k) , 采用MPEG-1文件格式作为视频数据背景, 其平均播放速率大约为172kB/s。

2) 被控变量缓冲区长度b (k) 。

3) 设定值或期望值 (代表被控变量期望的性能) 缓冲区长度设定值Bm=B0/2=100kB;缓冲区上、下限域值分别为Bh=150kB和Bl=50kB;当超出其范围时, 容易发生溢出或欠载现象, 影响播放质量。

4) 操纵变量服务器的发送速率u (k) 。

1.2速率控制模型

因缓冲区容量有限, 缓冲区动态具有饱和非线性, 设Ts为控制周期, 可得到如下缓冲区离散方程:

b (k) =SatX0{b (k-1) +TS (λ (k) -μ (k) ) } (1)

式中:

$S a t_{z} = {\begin{cases} 0 z < 0 \\ a z > a \\ z 其它 \end{cases}$

本文重点分析控制系统的抗干扰性能。为方便起先, 将变量在稳态附近进行变量增量化处理。假设初始稳态值:

λs (0) =μs (0) =us (0) =172kB/s

bs (0) =100kB qs (s) =0kB/s

由于μ (k) 和q (k) 作用于对象前端, 且均为不可测, 可令d (k) =Δμ (k) +Δq (k) 表示综合不可测扰动, 即通信网络扰动为延时传输抖动与播放速率抖动所造成干扰之和, 此时Δr (k) =Δu (k) -d (k) 。因而可用发送速率控制替代速率差控制。不特别指出, 文中所取变量以稳态值为基准增量化, 仍用u (k) 代替Δu (k) , b (k) 代替Δb (k) 。在缓冲区约束范围内, 可去掉式 (1) 的非线性因子, 则系统的动态方程为:

b (k) =b (k-1) +Ts{u (k-1) -d (k-1) }

根据此动态方程来建立系统的数学模型。

1.3性能评价指标

通过以上分析, 建立如下性能指标体系:

1) 最大发送速率变化率 (MRCT) 如果发送速率的变化量超出了规定的范围, 即网络传输中的速率抖动过大, 将会影响网络共享环境下的友好性。

2) 超调量σ% 缓冲区长度的超调量是以Bm为参考基准的, σ%越大, 其缓冲能力越弱。

3) 过渡过程时间ts (s) 速率稳定在±2%阶跃扰动幅值内的时间, 该值大小表明速率波动持续时间长短, ts (s) 越大, 对网络造成抖动时间越大。

2动态矩阵控制算法

DMC (Dynamic Matrix Control) 是一种基于对象阶跃响应的预测控制算法, 具有建模容易、结构清晰、算法简单的特点, 适用于有时滞、开环渐近稳定的非最小相位系统[5]。

DMC 算法包括以下三个部分:

1) 预测模型 DMC的预测模型采用被控对象的单位阶跃响应的离散采样数据。

2) 反馈校正由于模型误差和干扰等的影响, 系统的输出预测值需在预测模型输出的基础上用实际输出误差进行反馈校正, 以实现闭环预测。

3) 滚动优化 DMC 控制算法采用滚动优化目标函数, 其目的就是在每一时刻k , 确定从该时刻起的M个控制增量, 使过程在其作用下, 未来P个时刻的输出预测值尽可能地接近期望值。

3仿真结果分析

考虑到网络中数据的传输速率受到多种因素的影响, 使其具有不可观测性、不可预估性和不确定性, 这为网络流量的仿真带来一定的困难。为较全面地考核反馈控制性能, 给出如下干扰负载。

1) 阶跃干扰

它是系统性能测试中常用的一种信号, 因为阶跃输入容易产生而且简单, 同时阶跃输入是一种很剧烈的扰动, 如果控制系统对阶跃扰动有较好的响应, 则对于其他扰动更能克服。在网络的流量传输中, 为了体现友好性和公平性, 带宽需要公平分配, 即给未分配宽度的客户提供宽度, 这时, 就可能出现正在使用的客户的带宽持续减轻的情况, 与阶跃干扰的输入相似。

2) 低频正弦加随机干扰

反映视频流解码和播放过程中缓慢规律的扰动变化, 为了更加全面验证控制性能, 可用低频正弦波叠加随机干扰作为扰动负载。

设阶跃扰动为6kB/s, 正弦加随机扰动为5sin (0.1t) +Unif (-1, 1) kB/s, 其缓冲区长度和发送速率变化率响应曲线分别如图2和图3所示。图2 (a) 为阶跃扰动下缓冲区长度响应曲线, (b) 为阶跃扰动下发送速率变化率响应曲线;图3 (a) 为正弦加随机扰动下缓冲区长度响应曲线, (b) 为正弦加随机扰动下发送速率变化率响应曲线。各种扰动下的响应结果的评价性能指标列于表1。从表1可以看出, DMC控制算法的综合控制性能均优于传统的Smith控制。

4结束语

通过实验验证了DMC控制算法的有效性, 并证明该方法在各种扰动负载下的综合控制效果优于传统的Smith控制方法, 一方面可以增强系统的动态响应性能, 另一方面可以补偿网络拥塞造成的不利, 提高了反馈控制理论在实时多媒体流控中应用的有效性, 该方法对具有大滞后特性系统是一种比较好的控制方法。

摘要：网络传输的抖动影响了VOD的播放质量。采用反馈控制机制进行实时多媒体流量控制是一种有效解决方法, 但因实时多媒体流量控制及性能要求的特殊性, 仅采用传统的反馈控制技术难以消除这一缺点。针对此问题, 在速率反馈控制理论框架的基础上, 将先进控制理论中的一些思想方法运用到VOD的流量控制中, 采用了DMC控制器进行反馈控制。由实验结果表明, 该方法具有一定的有效性, 克服由于扰动和传输延迟带来的不利影响, 提高了播放质量。

关键词：动态矩阵控制,延迟补偿,VOD

参考文献

[1]汪小帆, 孙金生, 王执铨.控制理论在INTERNET拥塞控制中的应用[J].控制与决策, 2002, 17 (2) :129-134.

[2]Kolarov A, Ramamurthy G.Acontrol-theoretic approach to the design ofan explicit rate controller for ABR service[J].IEEE/ACM Trans onNetworking, 1999, 17 (5) :741-753.

[3]LiewS C, Tse D C.Acontrol-theoretic approach to adapting VBR com-pressed video for transport over a CBR communication channel[J].IEEE/ACMTrans on Networking, 1998, 16 (1) :42-45.

[4]Chia-Hui Wang, Jan-Ming Ho, Ray-I chang, et al.Acontrol-theoreticmethod for rate-based flow control of multimedia communication[R].Technical Report TR-IIS-01-007, Institute of Information Science.Aca-demia Sinica, 2001.

流媒体中的实时语义检测篇5

随着多媒体和网络技术的迅速发展,越来越多的数字化多媒体信息出现在万维网上,Internet正在成为一个巨大的多媒体信息仓库。语音作为信息传播的一种重要载体,具有清晰的语义。随着网络的发展以及语音信箱、语音聊天、音视频会议和数字视频点播系统等产品越来越广泛的应用,如何实时的监控、检索这些多媒体信息,维护网络媒体的信息安全,逐渐成为研究的热点问题[1,2,3]。

本质上讲,基于语音的实时语义检测是一个模式识别的问题。它包括几个方面,语义的描述、特征的提取和特称的匹配。语义检测当中最直接的语义描述就是基于关键词语音样本检索(keyword query)。工作的重点和难点在于数据特征的选取和匹配,这些问题与传统的语音检索工作相一致,对于流媒体中的实时语音检测具有重要参考价值。可以说特征选择和提取是前提基础关键词样本和流媒体中有效信息的匹配是最终目的。

很多研究人员在这个领域做了大量的工作,提出了许多解决方案[1,2,4]。流媒体中语音检测也有其特殊性:语音信号处理的实时性具有较高要求,且大量的流媒体信息具有未知性。传统的音频检索方法在实际应用中主要存在以下两个方面的问题:

第一,这些研究中所采用的媒体样本具有简单的分类特征。传统采用的视频文件具有很鲜明的类型特征,例如或者完全是语音新闻节目,或者完全是音乐的片段,这种条件下检索的准确度和速度还比较满意,但如果对象是各种类型片段混合的码流时结果不是很理想。这种方案不能适用于实时传输的流媒体进行特定语音检测。

第二,在进行特征匹配的时候仅针对一种或者几种音频特征,采用某种匹配算法进行分类、匹配运算。如果选取较少特征则精度低,如果选取较多特征进行联合运算则运算量大,速度慢,不利于实时性分析。

针对以上问题,本文在文献[2]基础上,针对流媒体中语音检测的实时性要求,提出了一种改进的前向序列特征加权距离(FWDM:Forwarding-sequential weight-feature distance measuring)检测算法,经实验验证有较好结果。

1 语音检测

基于语音语义检测是语音内容检索的一种实际应用,对实时性要求高。传统的音频检索框图如图1所示:

这种方法首先读入媒体文件,帧化、片段化后一次性的计算出所有的特征值,然后进入分类、匹配过程。在匹配过程当中,选取完整的特征集组成十几甚至几十维的特征向量,然后计算样本和数据之间特征向量的距离,从而进行特征匹配。

特征提取前需要对语音数据进行预处理。预处理包括以下两步:

帧化(Framing):

片段化(clipping):

音频的内容可以从两个角度来反映:第一,从声学角度讲,他们是一些可测的声学特征量;其次,从人类认识的角度来看,他们是一些心理声学特征。声学属性描述了在给定物理量下声音的表现,他们包括幅度、响度等等。人类认识的心理声学特征是指人类听觉系统感知的主观感受,他们包括节奏、音质等等。这些心理声学特征与可测的声学量之间存在着非常复杂的联系。声音的主观感受和其物理量之间的关系是心理声学研究的主要内容。

音频的特征可以分为四类:时域特征(temporal features)、频域特征(frequency features)、谱域特征(spectrogramfeatures)和系数特征(coefficient features),文献[2,5]通过实验验证了以下特征集的有效性。

(1)时域特征

均方根(RootMean Square,RMS):这是一个帧特征。该特征描述了语音帧的平均响度。

静音比(Silence Ratio,SR):这是一个段特征。该特征定义为clip中静音帧的数目与clip帧长之间的比例。

过零率(Zero Crossing Ratio,ZCR):语音、音乐以及背景音的过零率有很大不同,因此这是一个用途非常广泛的特征。

(2)频域特征

频率中心(Frequency Cancroids,FC):又称为音频亮度(audio brightness),是频域平衡点频率值。

带宽(bandwidth):频域各频率值与频率中心差值的能量加权平均值,衡量音频频域范围指标。一般来说,音频的带宽范围在0.3kHz～3.4kHz;音乐的带宽较宽,为22.05kHz左右。

子带能量比(Sub-Band Energy Ratio,SBER):把频域分成四个子带:,分别计算各子区间的能量比。能量比衡量了能量在各子带的分布,不同类型语音其分布有所不同。

(3)系数域特征

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)是受人的听觉系统研究成果推动而导出的声学特征。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC的计算首先用FFT将时域信号撰化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换,并取前N个系数。MFCCs具有识别性能和抗噪能力,实验证明在汉语语音识别中MFCC性能明显优于LPCC参数。故此,本文在试验中使用MFCCs。

传统的语音检索过程中,对以上这些特征值组成的高维特征向量{λ′i},采用SVM或神经网络等算法对语音进行分类、匹配,获得了较好的效果。但是这种方式在流媒体检测过程当中会遇到一些实际问题:首先,由于流媒体在线点播的实时性,不能让检测算法一次性读入整个媒体文件。这影响了传统检索算法在流媒体语音检测中的实际运用其次正如引言中所述,一次计算特征全集然后对高维特征向量进行匹配计算量非常大,容易造成流媒体播放延迟,影响实时性。

2 前向序列特征加权距离算法

为在实时性要求很高的流媒体情况下进行语音检测,本文采用了已经验证有效的特征集,在检测中采用一种改进的匹配算法:前向序列特征加权距离算法(Forwarding-sequential weight-feature distance measuring,FWDM)。该算法分两步对语音信号进行匹配:预判决和向量加权匹配,如图2所示:

本文选取的音频特征值主要分为两类,其中一类对音频类型敏感,这就是说该类特征值可以用来有效区别音频段是语音、音乐还是混杂片段。另外一类对音频内容敏感,这类特征值更合适做基于内容的语音识别、匹配。

基于FWDM的检测方法的提出是基于这样的先验知识,即流媒体的音频信息包含许多明显的分类。例如:噪声、静音、语音、音乐等等。这些分类的语音特征的统计值具有显著的差别。在匹配的过程中,不需要对所有的帧进行一次性完全匹配。实时语义检测仅对语音类音频信号感兴趣。这样,可以通过选取对音频类型敏感的特征值对音频信号进行预判决,从而可以有效地缩短匹配时间,以达到流媒体环境中所要求的较高的实时性。

针对这些,基于FWDM的检测方法首先将所选取的特征值λi分成以上两类,并且在类别内部根据该特征的影响因子排序,影响较大的特征排在前面,影响较小的排在其后,同时,把类型敏感类特征RMS,ZCR,SR,BW依次排在内容敏感类特征FC,SBER,MMFCs的前面,形成一个特征值有向序列{λ′i}。按前向顺序,对经过帧化、片段化后的流媒体序列进行预判决。预判决函数为:

εi为流媒体特征值,γi为前向序列特征λ′i对应的门限值。如果λ′i匹配成功则顺次尝试匹配λ′i+1直至全部特征值匹配。否则,跳过当前帧,对下一媒体帧进行匹配。以此达到提高速度的目的。

为提高匹配的准确性需要从语义角度进行二次匹配,即对已判决的音频帧的特征向量全集进行特征加权匹配。为突出语义类特征在该步骤中的更大影响,给选取的特征值按照其影响程度加权影响因子αi,然后按如下公式计算其加权后向量之间的距离,最终获得最后匹配结果:

其中,,Γ为判决门限,和Ψi分别为流媒体帧和样本帧的归一化特征值。通过这样的两步、分级的匹配过程,达到快速、准确地实现流媒体中基于语音的实时语义检测。同时,为提高用户使用体验,在真或假的二元判决基础上,在满足判决门限条件下,可以根据计算所得距离进行评分(ranking),最后把分数高于阈值的片段按照分数由高到低配列出来以供用户浏览。

3 实验结果和分析

实验所使用流媒体数据来源于电视节目伴间。音频采样率48kHz,精度16位。帧(frame)是本文实验中语音处理的元单位。(0.1)中Lf为帧长,取Lf=256;δ为相邻帧之间重叠部分的长度,取64。片段(clip)是本实验中语音处理的抽象语义单位。(0.2)中Lc为段长,取Lc=250。特征值序列为{RMS,ZCR,SR,BW,FC,SBER(4),MMFCs(13)},其中SBER和MMFCs分别包含4个和13个系数。在二次匹配过程中,各特征值经过归一化:后,对类型敏感特征RMS,ZCR,SR,BW加权值αi=0.1,FC,SBER,MMFCs特征的权重αi分别取0.1,0.25,0.55。

针对不同场景设置三个实验:第一个,在新闻片段当中搜索“帐篷”单词。新闻片段来源于CCTV1的新闻访谈,为纯语音。实验二使用上海文广体育频道的采访节目搜索“焊接”,音频为有背景噪音的语音。实验三为上海文广戏曲频道的歌唱片断中搜索“军旗”,音频为带有伴奏的演唱。命中率定义为检索到的单词与实际之间的比值实验结果如表1所示:

从试验中可以看出,由于没有背景噪音的影响,对纯语音片段的检索速度提高最多,命中率效果也最好。相比之下,带有背景噪音的实验提升效果较差。同时发现配有音乐的歌唱中搜索命中率不高

4 结束语

基于内容的音频检索是实现视频检索的一种有效辅助方法,是当前视频检索领域的研究热点。音频特征提取、匹配是音频语义抽取和基于内容的音频检索的关键,在音频检索、视频摘要和辅助视频分析等方面有重要的研究价值。本文提出一种改进的前向序列特征加权距离算法,分两阶段引用于音频特征的匹配过程,最终实现对音频的检索工作。实验表明,改进的前向序列特征加权距离算法效果良好,有效地提高了语音检索的速度。

参考文献

[1]Foote J.An overviewof audioinformation retrieval[M].ACMSpringer Multimedia Systems,1998.

[2]白亮,老松杨.基于支持向量机的音频分类与分割[J].计算机科学,2005,32(4):87-91.

[3]陆伟艳,夏定元,刘毅.基于内容的视频检索的关键帧提取[J].微计算机信息,23(11-3):298-300.

[4]Liu Z,Huang J,Wang Y,et al.Audiofeature extraction and analysis for scene classification[J].IEEESignal Processing Society1997Work-shop on Multimedia Signal Processing.

实时多媒体篇6

1 ML-Chord结构介绍

ML-Chord是一个多层P2P资源共享模型,在ML-Chord中,覆盖网层数决定于一个特殊领域的类别数量,每一层的节点都被组织成Chord结构的形式。覆盖网中有两种类型的节点:一种是普通节点(NP),一种是桥节点(BP)。一个具有更好能力的节点(如较高的处理能力或带宽)可以被选择作为桥节点。桥节点连接所有的类层,所有的桥节点自己又形成了一个Chord结构的覆盖层,称为BP层。

每个节点在ML-Chord中拥有唯一的ID值,被定义为NiID。在所有的IP网络中,NiID可以被计算为NiID≡Hm(IP)||Ci,Hm是一个m-bits的哈希函数,||是一个连接符号,Ci标识第i层,1≤i≤T,T是类层中的所有节点。同样,共享资源的ID可以被计算为KiRID≡Hm(R)||Ci,R标识共享资源的内容。

每个节点和BP都有一个路由表,每个路由表的大小为m,路由表的创造过程如下:对于一个在类层C的节点id,id计算为tk=(id+2k-1)mod 2m,对于所有k,有1≤k≤m。对于每个tk,id调用find-successor(c,tk)去获取后继tk',所有tk'组成了id路由表。对于BP节点的BP路由表,创造过程同上,但是普通节点的BP路由表的创造不同于普通节点其它路由表,为了创造一个BP路由表,一个普通节点随机的在任意一个路由表中选择一个节点。然后,普通节点检索被选节点BP表的第一个条目,被选的条目变成了BP路由表的第一个条目。第二个BP路由表的条目是第一个表的后继,持续这个过程,直到所有条目填充完毕。对于普通节点BP路由表的大小为d,满足1≤d≤m。

2 MCS系统结构

2.1 视频流的划分

V[0,T]代表一个视频节目,T指的是当前时间,V[0,T]被分割为块U[T/Q]-1i=0Bi,Bi是第i块视频块,位于[iQ,(i+1)Q]。每个视频块的大小为Q秒,视频块是被用于节点交换的最小单元。请求节点可以请求V[T-o],0≤o≤T,在时间T,当o=0时,称作实时流,当0

2.2 缓存策略

每个系统中的客户端都拥有一个可变长度的先进先出的缓存结构,存储最近接收的视频内容。已经存在的客户节点只要拥有足够的初度带宽并且缓存中存在视频块就可以转发视频流到新的节点。

2.3 节点物理地址

对于高效传输的流媒体,节点之间的网络位置非常重要。在基于DHT原理的结构化P2P中由于每个节点被随机映射到一个节点标号,这样的映射过程丢失了很多物理网络的性质。因此,构建起来的逻辑上的覆盖网络往往和物理网络不一致,物理上相距很远的点可能成为逻辑上的邻居;相反,物理上邻近的节点可能在逻辑网络中相距很远。通常把这种现象称为失配。失配会造成网络资源的浪费并增加链路的压力,而且数据的传输服务质量会下降。本文通过改进DHT关键字的方式来解决逻辑网络与物理网络的失配问题。

节点区域划分标识将地理位置映射到DHT关键字中,本系统运用希尔波特曲线(如图1)对空间进行划分。希尔波特编码是可调的,编码越长,则划分越细,可控性越高。它非常适合作为结构化节点ID来反映节点的地理位置。用一条希尔波特曲线穿过一个平面区域,将该区域划分成若干个小区域,给相邻的小区域分配连续的区域标识,这些区域标识便可以构成一个一维的数值环。小区域的空间顺序将连续地保持在数字空间中,区域标识之间的距离将反映出区域之间的物理距离。

2.4 MCS系统介绍

本文利用ML-Chord结构,结合物理ID,流媒体缓存策略,构建MCS实时流媒体结构。MCS系统中,节点ID为希尔波特曲线划分的17位物理地址。把一个单位的视频块作为一个块层。所有加入系统时请求本视频块的节点都加入本层中,通过物理ID形成Chord环。随着实时流的向前推移,每一个视频块时间都将形成一个块层。并且每增加一个视频块时间,所有层号加1,例如:视频块1形成的层为层1,则在视频块2时间时,本层变为层2,在视频块2时间内加入节点形成的层变为层1,依此类推。

2.4.1 节点加入

新节点n加入系统时,首先获取物理ID值,然后根据需求的视频块,加入到相应的块层c,n要加入c层,但c层不存在节点,则n创建c层,将自己设为本层桥节点,并从服务器获取视频块资源。如果有其它节点存在于c层,则节点随机从c层中获得节点S,创建路由表并获取其最近的ID节点,传输视频块资源。MCS节点加入算法如下:

2.4.2 资源查询

查询资源R,查询节点将资源映射为块层C,然后调用id.closest__node[n]去查找存储R资源的物理上最近的节点。如果R不在查询节点所在的层D,则查询节点通知BP节点,然后由BP节点进行查询,BP节点查询C层距离n节点物理最近的节点。

如图2所示:节点N134在块层C1,尝试找出视频块2,因为块2在C2层,N134没有C2层的路由表,所以N134查询本地BP路由表,获得NBP51,N134发送请求信息到NBP51,N251继续查询,尽管NBP51和N251在概念上处于不同的层,但他们是相同的节点,N251查询C2层的路由表,获得了N223靠近N134,然后N223继续Chord查询,最终获得N232更接近N134,NBP51将N232返回给N134。

MCS搜索算法如下:

2.4.3 应用

当节点n注册加入系统时,节点n首先根据其物理位置获得ID值,根据其视频块选择加入块层i,视频块i也是其需要在缓存中存放的视频块,通过ML-Chord结构找到物理位置最近的节点获得此视频块,然后,根据流媒体的播放进程,节点预测下一视频块的值,从其他层的临近节点获得下一视频块资源,缓存并进行播放。当节点需要回放时,同样,通过所需视频块的映射,查询相应的块层获得视频块进行播放。

MCS系统通过ML-Chord结构和缓存策略很好的完成了在DHT结构中的实时流媒体播放和回放的功能。通过在节点ID中映射物理信息,使节点更好的反映物理拓扑结构并提高传输效率。

3 模拟实验

本文在PeerSim模拟器上建立了MCS结构系统,节点数量设置为2K,26≤K≤215,节点间相互独立进入系统,节点会保存在系统中直到视频播放过程结束。视频长度L为7200s,比特率为1Mb/s,视频块Q设为120s。

3.1 平均查询消耗

平均查询消耗是指查询信息经历的平均跳数。如图3所示:我们将MCS系统与P2TSS进行了对比,可以出,使用ML-Chord的MCS在平均查询消耗上要小于使用Chord的P2TSS系统。这主要是由于ML-Chord结构优于Chord所造成的结果。

3.2 网络路径长度比较

如图4,本实验使用链路长度来反映物理距离,MCS系统将节点物理距离映射到217数值范围内,通过计算节点间的ID差值来反映相互间的物理距离。我们将ID差值称为链路长度。P2TSS系统节点ID使用随机hash值,无法反应物理间距离,所以链路长度较大。而使用物理ID的MCS系统,节点寻找物理距离最近的资源节点进行传输,所以链路长度较小。这说明MCS充分考虑了实际物理拓扑,提高了节点路由效率。

4 结论

本文提出了一种基于P2P的结构化的流媒体系统直播模型MCS,并讨论了ML-Chord底层结构,相应的缓存策略,以及物理节点ID。最后,对MCS进行了仿真模拟实验,并把它和P2TSS系统进行了性能比较。模拟结果表明该模型降低了搜索延迟,提高了路由效率,并且流媒体的服务质量也得到了大幅提高。如何更有效的防止数据块的丢失以及获得更高效的路由是我们需要进一步研究的工作。

参考文献

[1]Zhang Xinyan,Liu Jangchuan,Li Bo,et al.Donet/coolstreaming:A data-driven overlay network for live media streaming[C]//24th Annual Joint Conference of the IEEE Computer and Communications Societies.IEEE press,2005:2102-2111.

[2]Mol J J D,Pouwelse J A,Meulpolder M,et al.Give-to-Get:Free-Riding Resilient Video-on-Demand in P2P Systems[C]//Society of Pho to-Optical Instrumentation Engineers(SPIE)Conference Series,2008:6818.

[3]Hei Xiaojun,Liang Chao,Liang Jian,et al.A Measurement Study of a Large-Scale P2P IPTV System[C]//IEEE Transactions on Multimedia,2007,9(8).

[4]Deshpande S,Noh J.P2TSS:Time-Shifted and Live Streaming of Video in Peer-to-Peer Systems[C]//Hanover,Germany:IEEE Internation al Conference on Multimedia and Expo,2008:625-649.

实时多媒体篇7

关键词：DM642,DSP/BIOS,RF5,H.264

1 概述

随着现代通信技术的飞速发展, 多媒体通信已经成为通信业务发展的必然趋势, 图像信息传输已经成为现代通信系统提供的基本服务。图像处理的特点是运算数据量大, 特别是实时图像视频的传输, 需要足够的处理速度。DSP作为高性能数字媒体处理器, 使之成为数字信号处理的基本硬件工具, 可以用来快速地实现各种数字信号处理算法, 目前已广泛应用于实时图像处理、图像监控等领域。

2 DSP系统技术开发

本课题选用TI公司推出的DM642[1]定点DSP, 是专为多媒体领域应用而设计的。DM642采用C64x的内核, 该内核包含程序取指单元、指令分配单元及指令译码单元, 还包括2个对称数据通道、2个对称通用寄存器组、2组对称的功能单元, 每组有4个功能单元。每级数据通道都有读、写数据总线与片内第一级数据缓冲器相连。DM642具有两大特点。一是拥有三个可配置的视频接口, 可同时采集三路视频信号;二是它集成了以太网接口, 10/100Mbps模式自适应, 能工作在全双工或者是半双工模式下, 并具有硬件流控制和服务质量保证 (Qo S) 的支持。

DSP/BIOS是DSP开发环境CCS (Code Composer Studio) 中的一个可裁剪的可抢占式实时操作内核[2], 主要面向实时调度与同步、主机/目标系统通讯以及实时监测等应用, 具有实时操作系统的诸多功能。BIOS具有如下的优点:

2.1 BIOS自带的分析工具, 可方便地获取程序运行情况

2.2 减少生成的可执行机器代码的大小。对于一个典型的应用, 使用DSP的BIOS创建的多任务程序, 其经编译连接生成的可执行机器代码的大小与其它方法相比, 可减少约50%, 这对于嵌入式应用有重要意义。

2.3 提高运行效率。使用BIOS对象编程, 由BIOS来调度任务, 可更合理地利用资源, 且在程序运行时, 可减少一些动态对象的建立, 加快程序运行。

3 系统整体结构及功能描述

系统的总体是实现现场实时视频音频的采集, 并使支持WAP服务的用户能够通过手机进行浏览。系统工作模型图1所示, 其中视频处理系统由DM642核心处理器和简单的外围电路构成, 可完成视频图像数据采集、视频图像编码处理、网络传输等一系列功能。

系统的工作过程简单概述为:摄像头将采集到的视频图像送入DSP图像处理系统中, 使用在DSP内部的算法库, 便可以对视频图像进行分析和处理。最后, 经过处理后的图像信息由运行在DSP内的TCP/IP协议栈进行打包, 最后经以太网口传送到互联网Internet上, 通过WAP业务供远程的手机用户接收浏览。

4 系统软件设计

4.1 RF5系统参考框架

RF5是功能强大的DSP应用程序参考框架, 它适用于多通道和多算法的高密集型DSP应用系统[3], 而且RF5支持静态及动态DSP/BIOS模块对象的创建, 支持1-100个数据处理通道和XDAIS算法, 支持由DSP/BIOS任务对象TSK实现的线程调度机制, 从而被广泛应用于音频视频信号处理等复杂数字信号处理系统中。RF5共有4个基本的数据处理部件:任务 (task) , 通道 (channel) , 单元 (cell) 和标准算法 (XDAIS algorithm) 。

4.2 H.264编码

现有的视频压缩编码标准由于存在种种局限和不足, 均无法满足无线移动网络和IP网络对视频传输所提出的高要求。为了克服现有视频压缩算法的局限与不足, 适应更广的传输信道, 提供更高的视频质量、更大的灵活性和实现更多的功能, 为此, 有必要制定新的视频压缩编码标准。

H.264编码时, 首先将当前帧Fn划分成宏块[4]。宏块有帧内和帧间两种模式, 帧内模式使用当前帧内已编码的宏块进行预测;帧间模式使用之前一个或多个帧作为参考进行运动预测。将预测值和原始值的差值D进行整型变换、量化、重新排序, 最后把运动向量MV和每个宏块的头信息进行熵编码, 产生的压缩数据流进行运动预测。H.264的编码结构图如图2所示。

5 结论

应用软件设计基于DSP/BIOS操作系统, 并采用了RF5参考框架, 有助于实现复杂的任务和强大的功能, 提高系统的运行效率。RF5提供了一个通信基础框架, 能进行通道管理, 还能够有效的进行任务间的通信, 方便的替换和修改驱动程序。

参考文献

[1]TI, TMS320DM642Video/Imaging Fixed-Point Digital Signal Processor Data Manual (SPRS200G) , 2004:17-22.

[2]陈煜, 胡剑凌, 王超.基于DSP/BIOS的TI DSP应用程序框架设计[J].微计算机信息, 2009. (25) :130-132.

[3]曹磊, 范彩霞.基于RF5框架的视频处理系统研究[J].单片机与嵌入式系统应用, 2008 (06) :17-19.

实时多媒体篇8

2015.11News Dissemination新闻传播POLICY GUIDE当下关注如果20年前描述人类“数字化生存”还带有预言性质的话, 那么, 由互联网、移动互联网、物联网、人工智能等技术带来的社会网络化、信息数字化、交互实时化的现实, 已经成为真实而普遍的生存方式。今天, 新媒体对社会发展及人们生活带来的巨大变革已经渗透到生产、流通、消费各个环节, 推动着以信息技术、网络技术为代表的第三次产业革命不断深化。它所具备的连接、开放、个性、智能等特性, 使人类社会正迸发出以往任何一个时代都不曾有过的财富和知识红利。实现无处不在和无远弗届的连接。在移动互联网、物联网等迅速发展的近几年, 时刻在线已成为许多人的生活常态。无处不在、无时不有的“泛在化”网络使人与人、人与物、物与物之间可以无障碍地传递信息, “连接”成为这个时代的一个基本标识。连接所产生的效能远大于个体的简单叠加, 无论是信息传播、知识生产, 还是商业经济、社会治理, 都产生出巨大的新能量。零边际成本社会特征开始出现, 中介的作用日益式微, 企业组织可以与终端用户直接沟通, 通过线上与线下的互动形成一个个服务特定需求的垂直化社群, 催生出更多新的商业形态、经济模式和组织形式。带来更加个性化与多元化的生活模式。新媒体环境中个体的特质得到更大释放。个性化、精准化、人本化、以需求为导向的生产方式以及由此所掀起的生活模式变革, 正在成为一种常态。而且, 这种变革对整个社会的政治经济形态有着重大影响。个性化的生产方式倾向于资源、财富配置的分散化趋势, 更有利于创新, 也更有助于减少财富过度集中与资源分配不公。与此同时, 一种尊重个体、更具多样性的消费文化正在形成, 逐步渗透到社会各个角落, 改变着人们的思维、行为方式和生活模式。重构时空格局与存在方式。新媒体技术带来信息沟通上的实时性, 压缩时空距离, 使人们的交往更加不受地域限制。它不仅呈现出跨时空、全息化、非线性的世界图景, 而且还使这一图景的接受者具有充分的主动选择性。新媒体所构建的世界是以主客体互动的形式而存在的:一方面, 现实社会与网络空间形成客观的海量信息;另一方面, 每个人可以根据自己的特定需求及偏好, 通过搜索、过滤、选择, 创建一个属于个体的世界。当然, 新媒体所带来的“时空压缩”“时空分延”等特征, 往往也给人造成时空分裂、现实倒置的紧张感;时间的碎片化容易使人无法集中精力;信息定制化、选择性, 使人越来越局限于自己的兴趣和圈子, 这些都是新媒体带来的考验。创造更加智能化与人性化的生活场景。新媒体技术的快速迭代升级, 使人们由后工业时代大步迈向智能时代。人工智能已经以不同方式、不同程度地渗入人们的生活:更具有精准化、智能化的信息推荐技术, 为人们购物消费、浏览新闻等创造出更加贴心的体验环境;语音识别、图像分类、机器翻译技术以及可穿戴设备, 使人们能够无障碍沟通;由机器人主导的智能生产已经在诸多制造企业中规模化应用。当前的人工智能技术表现出更强的人性化、类人化特性, 其未来发展难以估量。也正是由于不可预见性和不可控性, 很多学者对人工智能心存担忧。尽管如此, 人工智能技术的发展并未止步, 欧美发达国家均推出新的人工智能研究计划。为人们认识和改造世界提供新视域。新媒体为大数据的形成创建了丰富的场景, 并掀起一场由数据技术革命所引发的认知革命和方法革命。大数据通过数据量化世界, 为人们认知世界提供了新的方法论。同时, 越来越高效的大数据分析方法和技术, 使数据的利用不再抽象, 而是具体的应用场景, 比如基于大数据的分类、预测、预警技术, 使管理更加高效率、低成本。当然, 大数据的效能来自数据的开放、共享, 这也给数据权益、隐私保护等提出了新的问题。新媒体环境下人们的在线购物、社交、搜索等行为均会留下印迹, 对个人隐私保护造成极大隐忧。如何在提升大数据价值的同时降低使用风险, 是当前人们面临的新问题。■ (稿件来源:人民日报2015-10-11) 新媒体给社会生活带来巨大变革社会网络化信息数字化交互实时化北京大学新媒体研究院院长谢新洲

【实时多媒体】推荐阅读：

实时流媒体协议06-11

实时仿真10-16

实时处理10-20

实时计划05-10

实时检测05-21

实时跟踪05-24

实时联网05-28

实时诊断05-30

实时获取06-03

实时技术06-10

>> 查看更多相关文档