制作视频字幕

2024-07-21

制作视频字幕(精选6篇)

制作视频字幕 篇1

1 根据角点检测原理的字幕文字提取方法

角点是图像边界上曲率很高的点, 是图像纹理的一个重要特征。图像信息里含有很多的角点, 在使用原图进行计算的前提下, 角点计算不但可以够保留原有信息而且还可以提高计算的效率。本方法就是利用角点这个纹理特征来进行文字区域的检测。根据图像边缘的方法要对图像边缘进行编码, 图像的分割和边缘提取决定了这种角点检测效果的好与坏, 由于该操作方法操作难度和计算量都比较大, 所以检测效果不是太令人满意。

通过计算点的曲率及梯度来检测角点的方法叫做图像灰度。Harris角点检测算法是通过微积分的运算方法和自相关矩阵的方法来进行角点的检测, 进一步提高文字的提取效率。为了抑制噪声的产生, Harris检测算法是把高斯函数作为检测窗口, 平滑滤波是对图像的第一步处理, 图像中角点检测是对图像的进一步处理, 本文提出了一种视频字幕检测算法其依据是角点检测。

在视频图像中, 背景留下的一些角点也可能被看成是文字区域的角点。为了提高文字区域检测的准确率, 降低提取结果中的噪声, 应先将角点分布图中孤立的角点滤除。因为大量的角点存在于视频图像中的文字区域, 所以从角点分布图中来看, 角点分布密度很大的情况就是文字区域, 而在视频图像中的某些背景区域虽然也含有不够密集的角点, 但是文字区域构成的最小外接矩阵特征与背景区域角点构成的最小外接矩阵特征相差较大。可以利用这些对角点分布图进行过滤, 检测找出文字区域。本文总结了根据启发式规则和角点分布密度的文字区域检测、根据角点聚类的文字区域检测以及根据角点匹配的文字区域检测这三种文字区域检测的方法。

2 插值放大和混合阈值二值化方法

对切割出来的文字区域先进行灰度变换, 然后再插值放大、二值化。先将图片的大小和分辨率都进行插值放大, 以满足OCR软件对输入的图像质量的较高要求, 然后进行二值化。插值方法是一种图像放大增强的手段可以提高图像放大和灰度化之后的文字图片中文字和背景的对比度, 提高二值化的效果。图像增强技术可以归纳为两大类即空间域法和频率域法。把原始图像的灰度直方图从比较集中的某个灰度区间变成全部灰度范围内的均匀分布的方法叫做直方图均衡增强, 本文就用运该方法对灰度化后的文字图像进行增强。在处理实际情况时, 一般先对原始图像的灰度情况进行统计分析, 并计算出原始直方图分布, 然后利用某个函数将图像的某个灰度值进行转换, 使原始图像成为均匀的积累直方图分布。

对于背景简单的文字图片, 用全局阈值二值化方法提取文字的效果较好, 而对于背景复杂的文字图片则使用局部阂值的二值化方法较好。如果只使用其中的一种方法, 不能发挥其优点, 文字的提取效率也会相应的降低, 噪声也不能得到很好的控制, 图像的细节也不能完整的保存, 只有把两种方法结合起来使用, 效果更加显著。对于背景简单的文字图像, 应该在使用二值化方法之前对文字灰度图像进行增强, 这样能提高二值化识别的正确率, 取得更好的二值化效果。对于背景复杂的文字图像, 首先应选取一个全局阈值把图像分割成几个小图, 因为全局阈值二值化方法在整个图像的二值化过程中只使用一个阈值, 此阈值的产生与整幅图像的灰度分布有密切的关系。当图像中前景较背景灰度值差距大时, 应该使用全局二值化方法。平均灰度法、OTSU法、迭代最优算法是常用的全局二值化方法。采用二值化方法计算全局阈值时效果更好。

全局阈值二值化和局部二值方法在提取文字后都会混入一定的噪声, 即使很小的噪声也会对OCR的识别结果造成一定的影响, 其后果是输出内容和原内容相差很大, 所以要利用一定的方法把噪声去除。要想消除噪声, 只能在形态特征上对文字笔画连通域和非文字像素构成的连通域加以区分, 因为二值化后文字图像中的噪声与文字像素值相同。为了做出正确的判断, 避免文字和图像相互混淆, 我们应采取这样一种方法:首先求出每个矩形的连通域, 找出每个矩形的宽度、高度、左上角坐标以及右下角坐标。再找出所有外接矩形高度、宽度值、左上角坐标值以及右下角坐标值出现频率最高的值, 这四个数值可以在一定程度上代表文字区域。噪声可能对文字图像边界相连的连通域造成错误的判断, 所以应根据文字区域的四个元素选定一个矩形框, 然后把该矩形框涂上不同于文字的颜色并把文字框住。

3 结论

随着社会的发展, 人们生活水平的提高, 电视节目已成为人们生活中必不可少的一部分。电视节目的多样化以及内容的质量都会对成年和孩子们的思想和行为有重要的影响。为了给人们播放新鲜、积极向上的各类节目, 丰富人们的生活, 虽然我们采取了一系列的方法, 但是还不能把所有的节目内容进行监控, 所以我们要不断地研究更先进的操控方法。

参考文献

[1]杜奇, 向建勇, 袁腾春.一种改进的最大类间方差法[J].红外技术, 2008 (5) :33-36.

[2]谢毓湘, 栾悉道, 吴玲达, 老松杨.新闻视频帧中的字幕探测[J].计算机工程, 2010 (10) :67-71.

[3]钥建明, 吴立德.一种改进的文字/图形图像的快速分割算法[J].模式识别与人工智能, 2009 (2) :201-206.

[4]季丽琴, 王加俊.视频字幕的自动检测与去除[J].中国图像图形学报, 2008 (13) :15-17.

[5]DingHui, Ding Xiao-Qing, Wang Sheng-Jin, Fast Text Registration and Enhancementin Digital Video, Computer Science and Information Technology, 2008.ICCSIT’08.Inter Conferenceon Aug.29 2008-Sept.22008:884-888.

对比内嵌字幕进行视频去重 篇2

摘 要:现有的视频去重技术多样,但字幕这一与视频内容能高度匹配的重要信息并未被考虑到其中。提出一种针对含内嵌字幕视频进行去重的方法,并在三大视频网页中得到了该方法的再去重效果。首先将相应网页视频中的字幕经过OTC处理将其文档化,再规范文档,最后设定一个界值,对网页进行去重筛选。类比于网页文本的去重方法,基于文本内容的去重工作可以大大改善去重的效果,考虑到视频中人物对话内容的唯一性,我们可以根据视频字幕内容来进行去重,从而得到更为精准的视频去重结果。

关键词:网页视频;内嵌字幕;去重;LCS

中图分类号:TP391 文献标识码:A

Abstract:Even there are many ways to remove duplicate web videos, the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos, and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again,and set an boundary value through experiment, so that the duplicate web video can be filtrated. simihar to the duplicate removing method, in web page next this method can greatly improve the effect of duplicate removing,Considering the uniqueness of dialogue contents in the video,we can use the contents of the video subtitles to do duplicate removing,and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles, which is belong to webbased content to the duplicate removing study, used to remove the duplicate web video pages and improve the user experience.

Key words:web video; embedded subtitles; remove duplicate; LCS

1 引 言

在互联网中,网页内容的大量重复,对搜索引擎来说,这些重复使得用户体验太差,因此,需要“去重”[1]。

在以UGC(User Generated Content)业务为主的视频网站中,每天都有大量的视频被上传[2]。用户上传的视频有数量大、重复视频多的特点,特别是一些热点视频会同时有多个用户上传。这样 会导致搜索或者推荐结果中出现大量重复视频。如何识别出这些相同内容的视频,为用户提供更好的搜索和推荐体验,是一个需要解决的问题。现在识别相同视频的方法很多,通常的方法有:视频文件md5值去重,每个视频文件里都保存有一个md5值,可以认为是这个视频文件的基因;根据视频的文本信息(指生成标题、描述和标签等)进行去重,用户在上传视频时会生成标题、描述和标签等文本信息,根据这些文本信息进行相同视频的去重;根据视频时长进行分类,在进行相同视频的去重的算法中可以先根据视频时长对全量视频进行分类,然后根据视频文本信息计算文本距离,在每个分类中应用视频文本信息距离进行迭代就成为可能;根据图像或者视频内容进行去重(关键帧的图像匹配),根据文本信息进行去重的劣势是过度依靠文本信息,而视频内容毕竟不能完全用文本来衡量。[3]如果一个视频的文本信息过少的话,去重的结果是不可靠的,所以根本的解决问题的方法是依赖视频内容进行去重,视频本质上是一帧一帧的图像组成的,所以可以把这个问题简化为关键帧的图像匹配问题,著名UGC视频网站Youtube就是采用了这种方法进行视频去重。或者干脆简化一点,根据视频的缩略图进行图像匹配估计也会达到很好的效果[4]。

本文研究的对象是含有内嵌字幕的视频,具有内嵌字幕文本信息这一重要因素,与视频内容具有高度匹配性,于是提出了一种基于内嵌字幕的视频去重途径,属于文本信息去重法。分别依据生成的标题、生成的标签、描述,内嵌字幕,对已有的搜索视频结果进行再次去重,观察其再去重率效果。

2 去重标准设定

同一段视频的字幕是根据视频内容而来,具有相同内容视频的内嵌字幕,从理论上来说应该完全一致,即去重标准应定为100%。但是,由于提取内嵌字幕时采用的是光学OTC的方法,在不同视频分辨率的时候提取出来的内嵌字幕有所偏差,即使是两个相同内容的视频,提取出来的字幕也会不同,于是需要允许一定的偏差。

由图可看出,基于内嵌字幕的再去重明显优于基于文件标题特征进行再去重的方法,这是因为每一个视频的内嵌字幕都具有唯一性,而视频的标题、标签、描述是在视频上传时用户可以随意赋予的,故而并不一定与视频内容相符。

5 结束语

本文针对含有内嵌字幕的视频,提出一种基于内嵌字幕内容的去重算法。实验表明,该方法去重较基于文件标题特征的方法效果更佳。通过提取视频网页的内嵌字幕,在去重过程中加入适用于本研究的动态LCS算法,由实验结果可知,依据内嵌字幕对网络视频去重确实较为精准,从而可大量节约结点存储资源,采用此方法进行视频去重具有很大的现实意义。然而,本文并未对如何使大量人工标注过程实现自动化进行研究讨论,可在今后的研究工作中进一步研究实现。参考文献

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R]. 2008年1月. 39-40页.

[2] Ming Zhao;Yagnik,J.;Adam,H.;Bau,D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition, 2008. FG '08[J].8th IEEE International Conference on DOI:10.1109/AFGR.2008.4813381. Publication Year: 2008, Page(s): 1-7.

[3] Xiao Wu;ChongWah Ngo;Hauptmann,A.G.;HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume:11,Issue: 2 DOI:10.1109/TMM.2008.2009673. Publication Year: 2009, Page(s): 196-207.

[4] Chengde Zhang;Xiao Wu;MeiLing Shyu;Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration (IRI)[J].2013 IEEE 14th International Conference on DOI:10.1109/IRI.2013.6642526. Publication Year: 2013, Page(s): 618-625.

[5] 于海英. 字符串相似度度量中LCS和GST算法比较[J].电子科技, 2011,24(3):101-103.

[6] 盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社.2001年12月第3版:294-312.

[7] 王晓东. 计算机算法设计与分析[M]. 北京:电子工业出版社, 2001.

[8] Rubi, R.D.;Arockiam, L. Positional_LCS: A position based algorithm to find Longest Common Subsequence (LCS) in Sequence Database (SDB). Computational Intelligence & Computing Research (ICCIC)[J].2012 IEEE International Conference on DOI: 10.1109/ICCIC.2012.6510271. Publication Year: 2012, Page(s):1-4.

[9] Wei Liu, Ling Chen, Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07: Proceedings of the 2nd international conference on Scalable information systems[J].Publisher:ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering). June 2007.

[10]Heba AlShaek Salem, Maryam Nuser, Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12: Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher: ACM. April 2012.

[11]申晓. 如何编程实现快速LCS算法[J].电脑编程技巧与维护,2012,(11):91-92.

[12]胡婕,业宁,罗晓波,等. 多序列的近似LCS改进算法[J].计算机工程,2011,37(2):166-168.

[13]Jeffrey E.F. 精通正则表达式,余晟,译[M]. 北京:电子工业出版社,2007.

一种3D视频中立体字幕叠加技术 篇3

随着科技进步和人们对生活品质的不断追求,3D电影已一步步走进我们的生活。与传统二维影视的无深度和临场感的显示技术不同,3D电影给观众带来身临其境的逼真感觉和无与伦比的立体观赏效果。

3D电影的盛行迫切需求3D字幕技术的革新。目前的3D电影往往将字幕直接放置在立体图像的最前面,字幕自始至终浮现在银幕前,并没有考虑立体图像内容的景深变化,观众很难同时看到字幕和内容,眼睛会感到累甚至头昏眼花,没有解决视觉疲劳问题。立体图像强烈的纵深感,是叠加3D字幕时必须考虑的因素。针对上述问题,文献[1]提出了3D字幕与立体图像内容自适应的解决方案,将三维图像做垂直样本线投影将其简化为一个抽象图像对,计算代理深度以确定一个字幕元素的渲染属性。此方法极大的加快了深度的计算,具有实时性,但由于丢失了大量信息而不可避免地降低可靠性。本文经过实验,提出了3D字幕视差与立体图像景深的对应关系,基于立体视觉的双目视差原理叠加3D字幕,一定程度上缓解了观看时的视觉疲劳问题,可实现更好的观看效果。

1 立体视觉

人类的立体视觉由心理立体视觉与生理立体视觉组成[2]。双眼视差[3]是人眼最强烈的生理立体视觉因素。Julesz利用随机点图已经证明,在排除一切心理立体视觉之后,一组完全无异议的视觉刺激,只要具备视差条件,就能经双眼产生深度上的感觉[4]。双目视差反映了客观景物的深度信息。具有视差的双眼视图经视觉皮层融合,产生立体感。若能为左右眼提供同一场景的立体图像对,并采用光学或其他技术措施,使观看者的左右眼分别只能看见对应的左右眼视图,则观看者就能感知到立体图像。在影响生理立体视觉与心理立体视觉的诸多因素中,与立体图像有直接关系的只有双目视差。即,影响人眼立体视觉的外界因素主要是立体图像中的双目视差信息。

立体图像固然生动形象,但由于当前技术条件限制观看时会产生视觉疲劳问题,其主要原因是双目会聚与焦点调节不一致[5]。现实世界中会聚与焦点调节是一致的,然而在观看立体图像时,若视差大小在融合范围[6]内,调节和会聚距离虽然不一致,但是仍可以把左右眼视差图像融合成一幅立体图像,观看者在立体屏幕上看到的是一幅具有纵深感的立体图像;若视差的大小在融合范围之外,观看者则无法将左右眼两幅视差图像融合成一幅立体图像,观看者看到的是一幅不清晰的串扰图像,从而产生严重的视觉疲劳。

2 立体字幕叠加

综合影响立体视觉的诸多因素,在立体图像中叠加3D字幕主要依据立体图像中的双目视差信息。而3D字幕的视差必须在融合范围内,不可为了追求超强立体感而过度加大视差。人眼的视觉特性决定了人眼在某一时刻只能会聚在立体图像的某一个点上。在观看立体视频时,人眼自然跟随立体图像内容而运动。为了同时且舒适的看到3D字幕和立体图像,3D字幕的感知深度需与立体图像内容的深度保持一致。

3D字幕不能对立体图像的内容造成干扰,才能使叠加3D字幕的立体图像给人以自然的立体感。研究发现[7]:3D字幕位置稍微比立体图像内容的感知深度离观众近些,可提供最佳的观赏体验。假设字幕与图像深度相同时,观众既看字幕又看立体图像,需不断地在字幕与内容之间转换焦点,容易分散注意力;而字幕在立体图像后面就更不舒服了,观众很难看到字幕。

其次,字幕的大小应足够大,颜色容易观看。视差的大小体现了再现立体深度大小,字幕在场景中的深度随着立体图像内容的深度变化而不断变化。为了让观众感觉字幕没有明显的改变,字幕的大小要随着视差的大小而调整。同时字体的其他属性,如字体的类型、颜色、亮度等,也需跟随立体图像内容做自适应调整,以减少遮挡,增强观赏体验。

针对上述问题,本文提出3D字幕视差与立体图像景深的对应关系——字幕的视差由立体图像内容的视差决定。基于立体视觉的双目视差原理将具有视差的字幕叠加在立体图像对上,3D字幕视差相对于立体图像内容视差适当加大,字幕字体的属性随立体图像内容自适应调整。该方法在立体图像上叠加了人眼感觉舒适的3D字幕,一定程度上缓解了观看时的视觉疲劳问题。

3 程序设计

3D字幕的叠加是基于立体视觉中的双目视差原理,3D字幕的视差由立体图像内容的视差决定。采用改进的基于区域增长的立体匹配算法提取立体图像的视差信息。在立体图像对的左右眼视图上用OpenGL叠加具有视差的字幕,由视差的大小调整字幕的大小、颜色等属性。

3.1 程序设计流程

选取立体图像,分离出左右眼视图,为立体匹配提供只有水平视差的原始图像。采用改进的基于区域增长的立体匹配算法对左右视图进行处理,得到较为准确的视差图。将视差结果应用于OpenGL字幕叠加,并根据视差值的大小调整字体的类型、大小、颜色、亮度等属性。最后将叠加字幕后的立体图像对立体显示,使观众看到的3D字幕舒服流畅。

程序共分3步:1) 立体匹配计算视差;2) 取字幕区域视差,OpenGL叠加3D字幕;3) 立体显示。程序设计详细流程图见图1。

3.2 视差计算

立体匹配是指根据对所选特征的计算,建立特征间的对应关系,从而建立同一个空间物理点在不同图像中的像点之间的关系,并由此得到相应的视差图[8]。本文以文献[9]的基于区域增长的立体匹配算法为基础,引入对极几何约束、松弛迭代法、中值滤波等方法对匹配点进行优化,得到更精确的立体图像点对和视差图。由于立体图像对仅在水平方向有视差,为了降低算法的复杂度,只考虑水平方向的区域增长。该算法的基本思想:选取种子点并对其进行匹配,在种子点基础上根据区域增长策略找出所有的匹配点对。即,一旦找到一个准确可靠的匹配点对,就可以根据它们之间的相对位置关系将匹配迅速传播至整个图像区域。其优点在于利用连续性约束极大地提高了匹配的效率,并且消除了重复图案间大的匹配误差[10]。

算法的具体操作过程。第一步,种子点的选择。能量函数计算视差,若选择点视差的误差能量小于等于预设的阈值,则认定其为种子点,进行下一步;否则认为其为无用点,继续查找。为了找到准确、可靠的种子点,利用对极几何约束对种子点进行优化。第二步,区域生长的过程。由种子点的视差计算其相邻点视差的误差能量,若其值小于等于预设的阈值,则认定其为增长区域;否则返回第一步寻找新的种子点。最后用松弛迭代法去除误匹配点,邻域均值滤波和中值滤波去噪,降低噪声的干扰,增加视差的可靠性。其中误差能量公式为

由上述改进的区域增长算法计算得到的视差图较理想,算法准确且复杂度不高。在视差图上选定字幕区域,提取字幕区域的视差最大值作为字幕的视差值。用OpenGL在左右视图上叠加具有此视差值的字幕。

3.3 OpenGL叠加字幕

字幕区域的选择需要大量的实验测试和主观评价,以找到令人感觉最舒适的位置。本文依据大众的观看习惯将字幕区域选定在显示屏幕的底部,同时为了减小遮挡问题,根据图像内容的空白区域作适当调整。

选定字幕区域,采用OpenGL中文字体的绘制位图方法叠加字幕[11]。将左眼视图以原比例大小作为场景的背景显示,在场景上创建具有一定属性的字体,用GDI方式将文字形成单色位图,并在字幕区域调用OpenGL绘制位图函数glBitmap( )便可清楚地将文字显示出来。该方法简单可行,右眼视图叠加字幕时只需将字幕水平坐标向右平移视差值。应用OpenGL可方便、快速地更换文字内容、字体属性及文字的位置等。随着视差的变化,字幕字体的大小随之改变,以便观看效果清晰流畅。字体的其他属性也需跟随立体内容改变而调整,以减少遮挡,增强观赏性。

最后,视图与字幕一起保存为原视图大小的BMP图,将叠加了字幕的立体图像对立体显示即可看到具有深度感的3D字幕。

4 实验结果

利用Red Star Studio Ltd. 的Benjamin Smith制作的立体视频[12] ,将其分离出左右眼视图,应用本文的程序对左右眼视图进行处理,运行结果在显示器上显示。使用的观看设备是NVIDIA GeForce 3D立体眼镜与Samsung SyncMaster 2233RZ显示器,显示器的分辨力为1 680×1 050,刷新率为120 Hz。

图2~4是不同方法实现的3D字幕叠加红蓝效果图。目前3D电影将字幕直接放置在立体图像前面,没有考虑立体图像内容的景深情况,结果如图2所示。图3为 “Sizzle”视频中使用Poliscript 3DITOR 字幕制作软件,将3D字幕放置在银幕的顶端图[13]。一般图像顶端场景深度感不明显,3D字幕视差小甚至无视差,容易叠加。相对图3有一定改进,但是观众观看时会感觉不习惯。图4是本文提出的方法实现的3D字幕叠加。通过对比不同方法的实验结果发现,本文方法实现的3D字幕叠加效果更加舒适流畅,符合大众的观看习惯。

根据实验结果可以得出以下结论:立体字幕放置位置是基于立体图像内容的。立体显示的再现立体深度与视差图的视差大小有关,字幕的视差由立体图像内容的深度决定,并且随着立体图像序列内容的深度改变而改变。为了获得最佳的观赏效果,需对字幕视差进行微调,使3D字幕的位置比立体图像内容稍微靠前一些。

5 结论

巧用转场滤镜 制作字幕特效 篇4

相信很多DV用户在剪辑自己的视频的时候,都使用过软件中的转场滤镜来丰富自己的视频。但其实转场滤镜还有一个很神奇的用法,就是制作字幕特效。估计大家很少知道这种方法,那么下面就让笔者以Premiere为例,来给大家详细介绍如何使用转场滤镜来制作字幕特效。

制作方法

首先在Premiere的项目面板里,点击鼠标右键,选择新建分类—字幕,来建立一个字幕文件。

建立另一个字幕文件,字体、大小都要和步骤一中建立的字幕完全一致,但是颜色要另选择一个。当然您也可以复制第一个字幕,并且在项目面板中粘贴,在复制后的字幕中改变字幕的颜色。

这一步需要把两个字幕拖动到时间线上。根据上面的设置,现在我们手里有两个字幕,一个是红颜色的,一个是蓝颜色的。如果您想要字幕由红变为蓝,就把红颜色的字幕放在视频轨道1上,把蓝颜色的字幕放在视频轨道2上。如果想要由蓝变为红,则正好相反。那么我希望字幕是由红颜色变为蓝颜色的,所以需要把红色字幕放在视频轨道1上,把蓝颜色的字幕放在视频轨道2上,且使两个字幕首位对齐。

如果之前您是通过复制粘贴来建立第二个字幕,就可以跳过此步。因为通过复制粘贴建立字幕,字幕的位置是保持不变的。但如果您是通过建立新的字幕来完成的操作,则需要调整两个字幕的位置数值,从而使他们在画面中完全重合。选中其中的一个字幕,打开其特效控制面板,记录下图红框中的数值,并在另外一个字幕的特效控制面板对应位置,把数值填入。

在转场滤镜中随便选择一个滤镜,把它拖动到视频轨道2上素材的最前端。笔者这里选择了Premiere转场Wipe组中的Pinwheel转场滤镜。

制作视频字幕 篇5

随着网络上视频内容的迅速增多,人们对于视频内容分类和检索的要求越来越高。视频名称短短的一行文本很难满足检索的要求,其所含的信息量也非常少,而视频字幕中则包含了非常丰富的语义信息,为视频检索提供了更多的信息。新闻视频字幕概括了新闻事件的内容,科技视频字幕包含了各项科研成果的关键技术名称,电视剧集和电影视频的字幕有助于视频片段检索和视频定位。可以说, 掌握了视频中的字幕,就相当于掌握了整段视频信息的索引。视频字幕检测是一个热门的研究领域, 检测视频中的文字区域并通过光学字符识别获取文本信息,将大大提升视频本身可供检索的信息量。机器学习等方法正广泛应用于视频字幕检测中,这就要求有大量高品质的测试样本,而实际操作中,手工获取测试样本操作繁琐且效率十分低下[1]。

本文设计的工具能够批量产生具有不同字体效果的嵌入字幕的视频截图,可为视频字幕检测程序提供大量 的测试数 据。该工具采 用了开源 库Open CV、Free Type和VLC,具有良好的可移植性。 该工具可以读取字幕文件,按字幕时间解码出视频帧,最后将字幕的文本内容绘制到视频帧图片中,字幕的字体、颜色、透明度都可以调节。

1软件工作流程

本视频字幕叠加工具的工作流程如图1所示。 首先,读取字体库文件夹内的全部字体文件,为字幕的绘制做准备。读取配置文件conf中的软件设置, 包括视频文件的路径、字幕文件的路径、字幕的颜色以及字体透明度等。按字幕文件路径读取字幕文件,将字幕分割为多个字幕块,每个字幕块包含字幕编号、起止时间和字幕文本三部分信息,依次对每个字幕块做处理。软件工作流程如图1所示。

然后,根据字幕块中的字幕开始时间,调用VLC找到该时间对应的视频帧并解码出图像。最后,调用Free Type库获取文字轮廓,并调用Open CV库中的函数cv Put Text将字幕的文本内容叠加到对应的视频帧上。Free Type可支持多种字体的显示。

1.1字幕读取

视频字幕主要分为内嵌字幕和外挂字幕两大类。内嵌字幕的像素是视频整体像素的一部分,不可分离; 外挂字幕则与视频文件分离,播放器在播放视频时叠加字幕内容。外挂字幕主要分为图形格式字幕和文本格式字幕两类。图形格式字幕将图片格式的文字按时间信息叠加到视频中,无法修改文字的字体、字号、显示效果,且体积较大,不便于使用。 人们日常使用的大多都是文本格式字幕[2]。主流的文本字幕格式有ssa、srt、sub等,其中srt字幕最为流行,因其制作简单规范,字幕文件很小,配合. style文件还可以携带字体特效而广受青睐。本文设计的工具针对外挂字幕的显示,目前支持无特效的srt字幕。

srt字幕文件的部分内容如图2所示,可以看到,字幕文件由多个字幕块组成,字幕块之间以空行分割。每个字幕块由字幕序号、时间信息、字幕文本三部分组成,以换行符分割。因此,读取字幕信息过程如下:

用C语言的文件操作格式化输入函数fscanf读取字幕块内的信息,将其保存在struct结构体subtitle_block中,该结构体的定义为:

此外,还需要将字幕时间转换为以毫秒为单位的形式,以备视频解码使用。

1.2VLC视频解码

VLC是Vidoe Lan Client的简称,是Video LAN项目中的一款开源的多媒体播放器和流媒体服务器。作为流媒体服务器,VLC支持跨平台、跨操作系统使用。作为媒体播放器,VLC支持FFmpeg支持的所有编码器和所有文件格式,对WMV、AVI、 MPG、H. 264等常见媒体格式都可以完美解码。基于模块化的设计,使其能够更加容易地包含新的文件格式编码器[3]。本文利用VLC库中的libvlc_video_take_snapshot函数来截取指定时间点的视频内容。对于每个字幕块,应当截取其显示的起止时间之内的所有视频帧。

通常情况下,字幕是在视频底部居中显示,为了实现这一效果,在调用VLC解码时可获取视频的宽度和高度,再根据使用的字体大小以及要显示的字幕内容的长短,计算出叠加字幕的位置。使用者也可以通过设定字幕条的左上角坐标来调整字幕的位置。

1.3利用OpenCV实现汉字绘制

Open CV是一个用于计算机视觉分析的开源库,在数字图 像处理方 面有着很 广泛的应 用。 Open CV的函数cv Put Text可将字幕文本的轮廓绘制入图像[4]。

函数cv Put Text可使用Open CV中CV_FONT_ HERSHEY_SCRIPT_SIMPLEX等七种字体风格。但是,cv Put Text在获取文本轮廓时,严格只接受一个字节编码的ASCII码字符。汉字编码与西文编码不同,我国汉字编码常使用中国国家标准的简体中文字符集GB码,是一种两个字节的编码,与ASCII码不兼容,Open CV也因此不支持中文。本文以两字节的Unicode编码为中介,完成GB码到ASCII码的转换。

1.4FreeType的文字轮廓提取

文字的字型特征一般保存在计算机的字库当中。目前使用最为广泛的字库当属苹果公司和微软公司联合提出的True Type字库。True Type是一系列描绘字体轮廓外形特征的函数指令的集合,其中包括了字型的构造。True Type采用几何学中的二次样条B样条曲线和直线来描绘字体的轮廓外形。 直接对于字体库处理比较困难,因此本文采用开源库Free Type字体引擎来访问True Type字库内的字体格式文件[5]。Free Type可以根据字符的编码,将其转变为高品质的位图信息,并通过Open CV在相应的位置绘制出来。

2实验结果

用一段时长为21分钟的视频进行测试,测试结果如图3 - 4所示。

如图3所示,本文设计的工具可正确读取字幕文件,并按照字幕时间截取对应的视频帧图像。如图4所示,该工具将字幕内容叠加到相应的视频帧图像中。叠加不同字体的字幕 显示效果 如图5所示。

3结束语

本文设计并实现了一种能够批量产生多种字体效果字幕的工具,该工具可以按字幕显示时间解码视频内容并截图,支持将多种字体的字幕文本绘制入图像,克服了Open CV不支持汉字编码的缺点。 能够批量产生视频字幕检测所需的测试数据,使用便捷、效率高。所用的开源库支持多平台多操作系统,移植性好。

摘要:文中设计了一种基于开源库OpenCV、FreeType和VLC的多种文字视频字幕叠加工具。该工具首先读取字幕文件中的时间信息和文本信息,然后按时间信息解码对应的视频帧,最后将字幕的文本内容绘制到视频帧中。克服了OpenCV只支持西文字符绘制、不支持中文字符的缺点,并支持多种字体的绘制。该工具可在视频截图上批量叠加不同字体的字幕,能够很便捷地生成大量字幕素材,用于视频字幕检测算法的设计或评估。

制作视频字幕 篇6

根据目前已有的一些比较正规的字幕组的翻译要求来看, 基本上要求译者完全删除标点符号。比如深影、人人、柚子木、伊甸园、龙腾。这些字幕组已经可以批量的翻译英美剧以及英语语言的短片, 对英语视频字幕翻译起领军性质的作用。其翻译规范要求也是值得参考借鉴的。不过, 这些规范也往往是根据视觉效果而定, 缺乏理论指导。下面, 我将对于标点的作用, 字幕翻译与文本翻译对比, 以及字幕翻译标点的处理几个方面谈谈字幕翻译中如何处理标点符号。

二、标点符号的作用

1990 年国家因为出版社发行《标点符号用法》说明: “标点符号是书面语中不可缺少的部分, 用来表示语气以及词语的性质和作用。1996 年, 国家对于标点符号的使用以及标点符号的作用进行了更详细的阐述: 标点符号是辅助文字记录余姚的符号, 是书面语的有机组成部分, 用来表示停顿语气以及词语的性质和作用。

从中不难看出, 标点的用于主要表现在书面语中, 在没有声音和画面的书面语, 标点辅助文字表情达意。从而反映出主人公或疑问, 或语噎的语气, 同时也帮助读者更深刻的感受到作者笔下人物的喜怒哀乐。比如鲁迅的作品《啊Q正传》第一章中, 赵太爷说: “你怎么会姓赵! ——你那里配姓赵! ”, 此处用感叹号, 放在语气强烈的反问句句尾, 表现出赵太爷对啊Q的强烈不满, 一个标点, 轻松地反映出了赵太爷心中的起伏, 点出了啊Q的不成器。

在书面语中, 标点符号还具有句读的作用。所谓句读, 凡经书成只语绝外, 谓之据, 语未绝而点分支, 以便讼咏, 谓之读。标点的重要功能就是断句。试想文章中没了标点, 我们还怎么阅读。因为文字的表现力和张力受限, 并不像视频表达信息方式灵活多变, 因此, 标点符号成为了文字的喉舌跟手脚, 让文字发出了声音, 让文字动了起来。进而得出结论, 标点固然重要, 不过视频字幕同较之书面语却是完全不同的表达载体。

三、字幕翻译与文本翻译对比

1. 形式上对比。字幕一般位于屏幕的正下方, 居中, 一般情况下, 屏幕为16∶ 9 或4∶ 3, 分辨率1280* 720, 字幕水平位置66, 38号黑体字, 在这样的前提下, 每行最高字效15 个。字幕每句按时间轴一轴计算, 一轴一般在2 ~ 5s之间。也就是说, 十五个字, 在短短几秒之内一闪而过。观众往往不会回看研读视频字幕, 因此力求译文精炼简洁, 表意明确, 形式上的限制要求字幕翻译者以最小化的语言表达最大化的内涵, 因而多余的点缀, 无论是语言上的还是标点上的都应该删除。而且字幕作为视频的一部分, 也该考虑其美观度。在视频中增加标点, 往往会导致冗余的效果。力求明了, 防止出现画蛇添足的情况。而文本的翻译不受时间和空间上的限制, 可以从美学和批评的角度尽情的舒展和延伸语言, 无论是阳春白雪还是下里巴人, 短句长译还是长句分译, 省译还是增译, 信达雅即可。

2. 目的上对比。字幕翻译的目的是辅助对原语理解能力不够的观众了解视频内容。既对已有音频进行可视化处理, 便于语言障碍和听力障碍的观众了解内容。作为视频, 本身就具有视觉和听觉的双重信息输入。字幕只是一种辅助的信息输入方式, 视频画面本身就可以传达大量的信息。而声音信息输入, 往往可以很清晰地让观众了解说话人的语音语调语气, 字幕翻译就是将声音信息输入转化成为文字。因此不必通过字幕翻译显示语气以及断句。使视频字幕翻译作为辅助信息即可, 若加上了标点, 会导致文字表达, 声音表达, 画面表达, 三种表达重叠, 使文字翻译表达中的标点成为累赘, 既影响画面美观, 又分散观众的注意力。

四、字幕翻译标点的处理

常用的标点符号共有16 种, 主要包括分点号和标点号两大类, 点号主要用作点段, 表说话时的停顿和预期, 因此在英语视频字幕翻译为汉语时应全部删去后用两个空格代替。点号包括: 句号、问号、叹号、逗号、顿号、分号、冒号。标号用于标注, 主要用于表明语句的性质和作用, 即引号、破折号、省略号、着重号、连接号、间隔号、书名号和专名号。建议留用省略号、破折号、连接号、间隔号。其他一律不用。为了保证翻译出的字幕标点的正确规范化使用, 各位译者应尽量不用标点, 少用标点, 在翻译过程中, 译者就应该注意语句语气的翻译, 通过增加语气助词, 反问结构, 词汇的细心选用, 配合视频内容表达出更加符合视频的字幕翻译译文。

五、结束语

英语视频字幕翻译中标点的使用, 是一直被忽略却又一直存在的问题。只有认真地对待翻译中的每一个细节, 用科学合理的方法分析英语视频字幕翻译中标点的使用方法才能真正做到推动行业进步和发展。

参考文献

[1]中华人民共和国国家标准标点符号用法.北京:国家技术监督局, 1995.

[2]林穗芳.“标点”的词源和概念 (上) ——兼论建立独立的标点学科的必要性.北京:人民出版社, 2007.

[3]张清宏.翻译目的论与影视字幕翻译.西安:西安欧亚学院学报, 2009.

上一篇:经尿道弹道碎石下一篇:备件库存