《FFmpeg Basics》中文版-23- 先进的技术点

作者: 张芳涛 | 来源:发表于2018-04-18 11:33 被阅读38次

写在前面

如果您对音视频技术感兴趣，可以订阅我的专题:音视频专辑
也可以关注我的简书账户：张芳涛，我后期会发布更多的音视频以及图像处理方面的文章。

正文

加入音频和视频文件

有几种加入媒体文件，它们在表格中描述：

类型	描述	针对音频	针对视频
级联	编码文件一个接一个; 第一个结束，第二个开始	Yes	Yes
合并	将所有音频流编码为一个，例如2个单声道到1个立体声	Yes	No
混合	将2个或更多音频通道编码为1，音量可以调节	Yes	No
多路复用 (mux)	将2个或更多文件编码为1，例如1个音频和1个视频文件，如果存在更多相同类型的流，则选择是在用户	Yes	Yes
覆盖/画中画 (PiP)	2个或更多视频一次显示在另一个旁边或一个在另一个之上	No	Yes

连接与shell命令

媒体文件连接的先决条件

特殊文件格式	连接只能是某些文件格式：音频- MP3(第2个文件的头将消失)，未压缩的像WAV, PCM，等视频- MPEG-1, MPEG-2 TS, DV
格式的一致性	所有连接的文件都是相同的格式，这意味着可以加入2个MP3文件，但1个带有1个WAV的MP3不能
流的一致性	所有连接文件: - 包含相同数量的每种类型的流。 - 音频流使用相同的编解码器，采样率和通道布局 - 视频流使用相同的分辨率
	为符合此要求，通常需要转换输入文件，使用-q 1或类似选项来保持初始质量，详细信息请参阅格式间转换

在Windows上，我们可以使用带有/B标志的复制命令来指示二进制模式，在文件之间必须是一个加号。连接N文件的复制命令的一般形式是:

copy /B file1+file2+...+fileN-1+fileN outputFile

例如，连接文件videoclip1。mpg和videoclip2。mpg到文件视频。mpg，我们可以使用以下命令:

copy /B videoclip1.mpg+videoclip2.mpg video.mpg

在Linux、Unix和OS X上，我们可以在表单中使用cat命令:cat file1 files2 > file3，因此我们可以修改前面的例子:

cat videoclip1.mpg videoclip2.mpg > video.mpg

链接concat协议

另一种选择是使用concat协议，先决条件类似于复制命令。例如，要使用该协议修改前面的示例，我们可以使用以下命令:

ffmpeg -i concat:"videoclip1.mpg|videoclip2.mpg" -c copy video.mpg

我的测试命令：

ffmpeg -i concat:"/Users/zhangfangtao/Desktop/test.mp4|/Users/zhangfangtao/Desktop/test2.mp4" -c copy /Users/zhangfangtao/Desktop/test3.mp4

显示效果：

生成了一个新的视频，不过我感觉这个视频和test1没有什么差别。

连接`concat`过滤器

用于音频和视频拼接的特殊过滤器是在表中描述的concat过滤器:

描述	连接音频和视频文件一个接一个。该过滤器适用于同步视频和音频流的片段(文件)，其中所有片段必须具有相同数量的每种类型的流，例如1个音频和1个视频，或2个音频和1个视频，等等
语法	concat=a=a_streams:v=v_streams:n=segments[:unsafe] 所有的参数都是可选的
	参数的描述
a	输出音频流的数量，默认值为0
n	段数，默认值为2
unsafe	安全模式激活，如果设置，连接将不会以不同格式的片段失败
v	输出视频流的数量，默认值为1

适当筛选结果的先决条件:

所有段必须从时间戳0开始。
相应的流必须在所有段中使用相同的参数，特别是视频大小。

建议是相同的帧速率，否则输出将使用可变帧速率。
Concat filter可以加入各种格式，有些例子是:

ffmpeg -i input1.avi -i input2.avi -filter_complex concat output.avi 
ffmpeg -i input1.avi -i input2.avi -filter_complex concat output.mp4
ffmpeg -i input1.avi -i input2.mp4 -filter_complex concat output.webm
ffmpeg -i input1.avi -i input2.mp4 -i input3.mkv -filter_complex ^ concat=n=3 output.flv
ffmpeg -i input1.avi -i input2.avi -i input3.avi -i input4.avi ^ -filter_complex concat=n=4 output.mp4
f -i 1.avi -vf movie=2.avi[a];[in][a]concat a.mp4

我的测试命令如下：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -i /Users/zhangfangtao/Desktop/test3.mp4 -filter_complex concat /Users/zhangfangtao/Desktop/test4.mp4

显示效果：
生成了一个视频，里面包含前两段的是视频内容，不过，有效时长只是第一段视频的长度。后面有种无效的感觉。。。。

其他类型的拼接技术

音频合并（多个流到1个多声道流） - 在数字音频一章中介绍
将几个音频文件混合到1 - 在数字音频一章中有描述
多路复用 - 在“FFmpeg基本介绍”一章中介绍了媒体流的选择
overlay-在overlay-画中画章节里面有具体的描述。

移除掉logo

一些视频包含公司标志，通常位于左上角，常见示例是录制电视节目。 FFmpeg包含2个特殊滤镜以去除徽标，而最终效果并不总是完美，不过在许多情况下这种移除logo的技术还是可以接受的。

delogo过滤器

描述	通过对周围像素的简单插值来隐藏一个电视台的标志。用户设置一个覆盖该徽标的矩形，它通常会消失(但在某些情况下，标识更明显)。过滤器接受参数作为表单“x:y:w:h:band”的字符串，或作为键=值对的列表，由“:”分隔
语法	delogo=x=0:y=0:w=width:h=height[:t=band:show={0,1}] []中的参数是可选的，显示为0或1
	参数的描述
x, y	标志的左上角的坐标
w, h	标志的宽度和高度
band or t	该标志矩形的模糊边缘厚度，默认值为4
show	定位的参数，默认值为0，如果设置为1，屏幕上的绿色矩形显示为帮助查找正确的x、y、w和h参数

例如，我们首先从下图所示的800x600像素大小视频的右上角移除一个标志，我们通过显示一个绿色矩形的显示选项来估计logo的位置:

ffmpeg -i eagles.mpg -vf delogo=x=700:y=0:w=100:h=50:t=3:show=1 nologo.mpg

现在我们可以精确地指定位置和标识的存在几乎是不可见的:

ffmpeg -i eagles.mpg -vf delogo=x=730:y=0:w=70:h=46:t=1 nologo.mpg

我的测试命令如下（没有t参数，我这边不识别这个，报错)：

ffmpeg -i /Users/zhangfangtao/Desktop/ornage.jpeg -vf "delogo=x=15:y=678:w=218:h=20:show=1" /Users/zhangfangtao/Desktop/ornage2.jpeg

显示效果(有没有看到一个绿色的框)：

有没有看到一个绿色的框

ffmpeg -i /Users/zhangfangtao/Desktop/ornage.jpeg -vf "delogo=x=10:y=700:w=300:h=35" /Users/zhangfangtao/Desktop/ornage3.jpeg

显示效果(水印没了)：

水印没了.jpeg

抖动视频部分的固定

没有三脚架或车辆拍摄的视频的一些部分通常包括抖动 - 水平和垂直移动的小变化，在某些情况下可以使用去抖滤波器进行修正：

描述	修正水平和垂直位移的小变化，当视频没有三脚架或移动车辆时有用
语法	deshake=x:y:w:h:rx:ry:edge:blocksize:contrast:search:filename 所有的参数是可选的
	参数的描述
x, y, w, h	矩形区域的坐标和大小，搜索运动向量，x和y是左上角的坐标，w是宽度，h是高度。这些参数与drawbox过滤器具有相同的含义，可用于可视化边界框的位置。当物体在框架内同时运动时，运动矢量搜索可能会混淆摄像机的运动，这是很有用的。如果x, y, w和h都被设为-1那么整个框架就被使用了。这允许在不指定运动向量搜索的边界框的情况下设置后续选项。默认-搜索整个框架。
rx, ry	在0 - 64像素范围内指定x和y方向的最大运动范围，默认值为16
edge	指定如何生成像素来填充框架边缘的空白，值为从0到3的整数: 0 -在空白位置填充零 1 -原始图像在空白位置 2 -在空白位置的挤压边值 3 -镜像边缘在空白位置，默认值
blocksize	指定用于运动搜索的块大小，其值为4 - 128像素，默认值为8
contrast	指定块的对比度阈值。只有超过指定对比度的块(最黑和最轻的像素之间的区别)才会被考虑。该值来自范围1 - 255，默认值为125
search	指定搜索策略: 0 =彻底搜索，默认值 1 =不彻底搜索
filename	如果包含，则将动作搜索的详细日志写入指定的文件

参数可以按顺序进入默认顺序或以任何顺序指定名称:

ffmpeg -i travel.avi -vf deshake fixed_travel.avi
ffmpeg -i travel.avi -vf deshake=contrast=160 fixed.avi
ffmpeg -i travel.avi -vf deshake=blocksize=4:filename=log.txt fixed.avi

我的测试命令：

ffmpeg -i /Users/zhangfangtao/Desktop/1527143197.mp4  -vf deshake /Users/zhangfangtao/Desktop/1527143198.mp4 
ffmpeg -i /Users/zhangfangtao/Desktop/1527143197.mp4  -vf deshake=contrast=160 /Users/zhangfangtao/Desktop/1527143199.mp4
ffmpeg -i /Users/zhangfangtao/Desktop/1527143197.mp4 -vf deshake=blocksize=4:filename=/Users/zhangfangtao/Desktop/log.txt /Users/zhangfangtao/Desktop/1527143200.mp4

显示效果：其实，我并没有看出来什么效果。。。可能我用手机拍的抖得太厉害了。。。
第三条指令打印出来的txt信息截图如下：

log.txt

将颜色框添加到视频

使用drawbox，我们可以在矩形区域找到精确的坐标，以在其中搜索运动矢量，它用于除雾过滤器。其他用途包括各种图表，方案等。

描述	在输入的选定区域绘制指定颜色和指定大小的框
语法	drawbox[=x:y:width:height:color:thickness]
	参数的描述
color, c	格式0xRRGGBB[AA]中的标准颜色名称或十六进制值
height, h	框的高度，默认值为0
thickness, t	边框边缘的宽度以像素为单位，默认值为4
width, w	框的宽度，默认值为0
x, y	方框的左上角坐标，默认值为0

例如，要在SVGA大小的输入上添加一个尺寸为600x400像素的黄色框，其大小为左侧150像素和顶部0像素，我们可以使用以下命令：

ffmpeg -i ship.avi -vf drawbox=x=150:w=600:h=400:c=yellow ship1.avi

我的测试命令：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf drawbox=x=150:w=600:h=400:c=yellow /Users/zhangfangtao/Desktop/test3.mp4

显示效果

检测帧数

如果您需要知道有多少帧包含您的视频文件，您可以使用以下命令：

ffmpeg -i input.mpg -f null /dev/null

显示输出的最后两行是:

frame= 250 fps=0.0 q=0.0 Lsize= 0kB time=00:00:10.00 bitrate= 0.0kbits/s
video:16kB audio:0kB subtitle:0 global headers:0kB muxing overhead -100.000000%

帧数为250，表示视频帧的总数，也可以从帧速率和持续时间计算，但结果并不总是准确。

我的测试命如下：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -f null /dev/null

显示效果如下：

检测广告，部分转换或损坏的编码

从电视，互联网等录制的较长视频可以包含带有广告，转场，不完整帧和其他不需要内容的短片。如果此部分包含黑色框架，则可以使用表中描述的黑色检测过滤器检测它们。

Description	检测几乎全黑的视频部分，并输出包含检测到的黑色间隔的开始，结束和持续时间的行，以秒为单位表示。如果日志级别设置为低于`AV_LOG_INFO`值，则不显示行
语法	blackdetect[=d=duration:pic_th=pbr_threshold:pix_th=px_threshold]

参数的描述（所有的参数都是可选的）

参数名称	单位	描述	默认值
black_min_duration, d	秒	正浮点数确定视频中黑色帧的最小持续时间	2.0
picture_black_ratio_th, pic_th	浮点数在0到1.0之间	例如，如果帧大小为400x300(总共12万像素)，12000像素不是黑色，那么这个比例是0.9	0.98
pixel_black_th, pix_th	浮点数在0到1.0之间	Treshold设置像素为黑色，它等于表达式: (absolute_threshold–luminance_minimum_value) luminance_range_size)	0.1

例如，要从源mptestsrc中检测黑帧，命令是(控制台输出如下):

ffmpeg -f lavfi -i mptestsrc -vf blackdetect -f sdl 'test'

我的测试命令：

ffmpeg -f lavfi -i mptestsrc -vf blackdetect -f sdl 'test'

*显示效果：

用黑帧过滤器进行检测

检测黑帧的另一个过滤器是表中描述的黑帧过滤器：

描述	检测几乎为黑色的帧，并输出包含: - 检测帧的帧数 - 黑色部分的百分比 - 如果已知则在文件中定位，否则为-1 - 时间戳
语法	blackframe[=amount:[treshold]] 所有的参数都是可选的
	参数
amount	在阈值下的像素百分比，默认值为98
threshold	下面是被认为是黑色的像素，默认值是32

过滤器blackdetect和blackframe类似，但每个显示不同的信息。图像上显示使用与黑检测滤镜相同的视频源的黑帧滤镜输出：

ffmpeg -f lavfi -i mptestsrc -vf blackframe -f sdl 'test'

我的测试命令如下：

ffmpeg -f lavfi -i mptestsrc -vf blackframe -f sdl 'test'

显示效果：

只选择指定的帧进行输出

特殊的多媒体过滤器可以选择音频并选择视频启用，以精确指定哪些帧将保留，哪些从输出中排除。

描述	选择输出帧，对每个输入帧评估表达式，如果表达式的值不为零，则选择帧，否则跳过帧
语法	select=expression expression默认值是1
	可用的参数
n	从0开始的过滤帧的连续编号
selected_n	所选帧的序号，从0开始
prev_selected_n	如果未定义，则最后一个选定帧的序列号为NAN
TB	输入时间戳的时基
pts	如果NAN未定义，那么经过滤波的视频帧的PTS（表示时间戳）以TB为单位表示
t	如果NAN未定义，则滤波的视频帧的PTS以秒表示
prev_pts	先前过滤的视频帧的PTS，如果未定义则为NAN
prev_selected_pts	如果NAN未定义，则最后一个先前过滤的视频帧的PTS
prev_selected_t	如果NAN未定义，则最后选择的最后一个视频帧的PTS
start_pts	如果NAN未定义，视频中第一个视频帧的PTS
start_t	如果NAN未定义，第一个视频帧的时间在视频中
pict_type (只局限在视频中)	过滤帧的类型，可以采用以下值之一： I ...帧内预测帧, P ... 前向预测帧, B ...双向预测帧, S ...交换帧,SI ...切换I帧，SP ...切换P帧，BI ...特殊帧内帧，不是关键帧（VC-1视频编解码器）
interlace_type (只局限在视频中)	帧间型，可采用下列值之一: PROGRESSIVE, TOPFIRST, BOTTOMFIRST
PROGRESSIVE	帧是渐进的(不是交错的)
TOPFIRST	帧是top-field-first
BOTTOMFIRST	帧是bottom-field-first
key	如果经过筛选的帧是一个关键帧，否则为0
pos	如果信息不可用(例如合成视频)，在过滤帧的文件中位置为-1
scene (仅局限于视频)	0和1之间的值表示一个新的场景;低值反映了当前帧引入新场景的低概率，而更高的值意味着当前帧更可能是一个
consumed_sample_n	在当前帧之前选择的样本数目
samples_n	当前帧中的样本数目
sample_rate	输入采样率

由于select表达式的默认值为1，因此选择过滤器使用的接下来的两个示例会产生相同的结果 - 所有帧将被选择为输出（值如果是0将不会选择任何内容）：

ffmpeg -i input.avi -vf select output.avi
ffmpeg -i input.avi -vf select=1 output.avi

我的测试命令如下：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf select /Users/zhangfangtao/Desktop/test3.mp4 
ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf select=1 /Users/zhangfangtao/Desktop/test3.mp4 
ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf select=0 /Users/zhangfangtao/Desktop/test3.mp4

实现效果，前两个命令生成的是和原来一样的视频，最后一个命令，只有音频信息，没有界面。

要选择20到25秒的部分，我们可以使用以下命令:

ffmpeg -i input.avi -vf select="gte(t\,20)*lte(t\,25)" output.avi

我的测试命令如下：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf select="gte\(t\,20\)*lte\(t\,25\)" /Users/zhangfangtao/Desktop/test3.mp4

实现效果：
时间的限制不是太准确，，，还是从头给我播放到了最后。。。

若要选择帧内仅为输出，我们可以使用以下命令:

ffmpeg -i input.avi -vf select="eq(pict_type\,I)" output.avi

我的测试命令如下：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf select="eq\(pict_type\,I\)" /Users/zhangfangtao/Desktop/test3.mp4

实现的结果：
视频长短没有变，但是视频的大小几乎减少了一半。而且视频少了很多细节。

通过改变纵横比来缩放输入

调整和伸缩视频章节描述了缩放视频帧的缩放过滤器。另一种方法是使用改变显示宽高比DAR和样本宽高比SAR的setdar和setsar滤波器，它们的关系用公式表示（关于宽高比的细节在词汇表中）：

DAR = width/height * SAR

描述	setdar过滤器设置显示纵横比和setsar的样本纵横比
语法	setdar[=r=aspect_ratio[:max=number]] setdar[=aspect_ratio[:number]]
	参数的描述
r, ratio	纵横比，值可以是浮点数或表达式，默认值为0
max	在将纵横比设为一个有理数时，表示分子和分母的最大整数值，默认值为100

示例如何使用setdar和setsar过滤器:

ffplay -i input.avi -vf setdar=r=16/9
ffplay -i input.avi -vf setdar=16/9
ffplay -i input.avi -vf setsar=r=1.234
ffplay -i input.avi -vf setsar=1.234

我的测试命令如下：

ffplay -i /Users/zhangfangtao/Desktop/test.mp4 -vf setdar=r=16/9
ffplay -i /Users/zhangfangtao/Desktop/test.mp4 -vf setdar=16/9
ffplay -i /Users/zhangfangtao/Desktop/test.mp4 -vf setsar=r=1.234
ffplay -i /Users/zhangfangtao/Desktop/test.mp4 -vf setsar=1.234

显示效果如下：

屏幕抓取

为了将显示输出记录到视频文件中，例如创建一个教程，我们可以使用安装了UScreenCapture直接显示源过滤器的dshow输入设备，下面是下载地址。
http://www.umediaserver.net/bin/UScreenCapture.zip
为了抓取全屏内容，我们可以使用以下命令:

ffmpeg -f dshow -i video="UScreenCapture" -t 60 screen.mp4

如果我们想抓取一个特定的屏幕区域。我们必须使用regedit Windows工具来修改某些注册表项，相信信息在downloaded UScreenCapture.zip文件里面的README文件里面。

因为我用的MAC电脑，所以我的录屏命令如下：

ffmpeg -f avfoundation -r 30  -i "1:0"  -t 20 /Users/zhangfangtao/Desktop/test2.mp4

显示效果如下：

视频帧的详细信息

为了显示每个视频帧的信息，我们可以使用表格中描述的showinfo过滤器:

描述	显示包含有关每个输入视频帧信息的行，数据采用键：值对的形式。该过滤器没有参数，应与`-report`选项一起使用
语法	-vf showinfo
	显示参数的描述
n	输入框的序号，从0开始
pts	输入框的表示时间戳，表示为若干时间基单元;时间基单元依赖于过滤器输入板
pts_time	输入框的表示时间戳，表示为若干秒
pos	输入流中帧的位置，如果该信息不可用或没有意义(例如在合成视频中)
fmt	像素格式名称
sar	输入帧的采样宽高比，以分子/分母的形式表示
s	输入框的大小，以宽*长的形式表示
i	隔行扫描模式：P表示渐进式，T表示前场第一，B表示后场第一
iskey	如果该帧是关键帧，则为1，否则为0
type	输入帧的图像类型：I代表I帧，P代表P帧，B代表B帧，？对于未知类型（更多的信息见AVPictureType枚举的文档）
checksum	输入帧的所有平面的Adler-32校验和（十六进制）
plane_checksum	输入帧的每个平面的Adler-32校验和（十六进制），表示形式为[c0 c1 c2 c3]

例如，下一个命令会生成下面打印的信息，其中包括前三行：

ffmpeg -report -f lavfi -i testsrc -vf showinfo -t 10 showinfo.mpg

n:0 pts:0 pts_time:0 pos:-1 fmt:rgb24 sar:1/1 s:320x240 i:P iskey:1 type:I checksum:88C4D19A plane_checksum:[88C4D19A]
n:1 pts:1 pts_time:0.04 pos:-1 fmt:rgb24 sar:1/1 s:320x240 i:P iskey:1 type:I checksum:C4740AD1 plane_checksum:[C4740AD1]
n:2 pts:2 pts_time:0.08 pos:-1 fmt:rgb24 sar:1/1 s:320x240 i:P iskey:1 type:I checksum:B6DD3DEB plane_checksum:[B6DD3DEB]

我的测试命令如下：

ffmpeg -report -f lavfi -i testsrc -vf showinfo -t 10 /Users/zhangfangtao/Desktop/test.mp4

显示效果：

音频频谱

为了使音频频谱可视化，我们可以使用表中描述的示波器滤波器：

描述	将音频输入转换为视频输出
语法	showspectrum[=s=widthxheight[:slide=number]]
	参数的描述
size, s	输出视频大小，默认值为640x480
slide	设置频谱是否沿窗口滑动，默认值为0

例如，下面的图片显示了该命令创建的声谱：

ffmpeg -i audio.mp3 -vf showspectrum audio_spectrum.mp4

我的测试命令如下：

ffmpeg -i /Users/zhangfangtao/Desktop/DYZDJ.mp3 -lavfi showspectrum /Users/zhangfangtao/Desktop/test3.mp4

效果图

音频波形可视化

描述	将输入音频转换为包含音频波表示的视频
语法	showwaves[=n=number[:r=rate[:s=video_size]]]
	参数的描述
n	打印在同一列上的样本数量越大，数值越大会降低帧速率，因此不能与速率参数结合使用
rate, r	帧速率，默认值为25，不能与n参数组合使用
size, s	视频大小，默认值是640x480

来自音频输入的波形可以通过表格中描述的showwaves滤波器进行可视化：

描述	将输入音频转换为包含音频波表示的视频
语法	showwaves[=n=number[:r=rate[:s=video_size]]]
	参数的描述
n	打印在同一列上的样本数量越大，数值越大会降低帧速率，因此不能与速率参数结合使用
rate, r	帧速率，默认值为25，不能与n参数组合使用
size, s	视频大小，默认值是640x480

例如，要将music.mp3文件中的波形可视化为waves.mp4文件，我们可以使用以下命令：

ffmpeg -i music.mp3 -vf showwaves waves.mp4

我的测试命令：

ffmpeg -i /Users/zhangfangtao/Desktop/NWDSL.mp3  -lavfi showwaves /Users/zhangfangtao/Desktop/test3.mp4

显示效果如图：

语音合成

没有Windows环境，下面的没测试，不过AVFoundation做这个相当简单，想了解AVFounadtion怎么实现的点击这里

通过包含libflite外部库，人声可以与来自Flite（Festival Lite）（一种小型可嵌入TTS（文本到语音）引擎）的flite音频源合成。它由美国卡内基梅隆大学CMU Speech Group开发。 Flite完全用C语言编写，重新实现了音乐节体系结构的核心部分，以实现为每个系统设计的声音之间的兼容性。爱丁堡大学的节日语音合成系统是构建语音合成系统的框架。有关Flite的更多详细信息，请访问http://www.speech.cs.cmu.edu/flite

描述	由于其大尺寸，使用未包含在官方Windows二进制文件中的libflite库来合成具有选定语音类型的人类语音
语法	flite="text"[:v=voice[:n=n_samples]] flite=textfile=filename[:v=voice[:n=n_samples]]
	参数的描述
list_voices	如果设置为1，则显示可用语音列表
n, nb_samples	每帧最大采样数，默认值为512
text	演讲的源文本
textfile	包含文本的文件名
v, voice	可用的声音：女 - slt，男 - awb，kal，kal16，rms; 默认语音为kal，其采样率（频率）为8000 Hz，其他语音使用16000 Hz

由于flite库增加了10 MB以上的ffmpeg.exe文件，因此它不在官方二进制文件中，而Windows二进制文件可以从http://ffmpeg.tv/flite.php下载（Linux和OS X用户可以编译它们）。要显示可用语音列表，我们可以使用以下命令：

ffmpeg -f lavfi -i flite=list_voices=1

要让计算机使用女性声音从Message.txt文件中读取文本，该命令为：

ffplay -f lavfi -i flite=textfile=Message.txt:v=slt

例如，要将文字“Happy New Year to all”保存到wish.wav文件中，我们可以使用以下命令：

ffmpeg -f lavfi -i flite=text="Happy New Year to all":v=kal16 wish.wav

如果我们想减慢讲话速度以获得更好的听力，我们可以使用以下命令：

ffmpeg -f lavfi -i flite=textfile=text.txt -af atempo=0.5 speech.mp3

一次将输出保存为多种格式

虽然从第一章中解释的命令语法可以清楚看出，但我们可以通过一个命令将处理结果保存为多种格式，例如我们可以将flite语音引擎的输出保存为MP3，WAV和WMA 格式在一个命令中：

ffmpeg -f lavfi -i flite=textfile=speech.txt speech.mp3 speech.wav speech.wma

我们还可以结合音频和视频格式，如果我们从视频输入格式指定音频格式，则只包含音频流，下一个示例中的文件clip.mp3只包含音频流：

ffmpeg -i clip.avi clip.flv clip.mov clip.mp3 clip.mp4 clip.webm

额外的媒体输入到filtergraph

默认情况下，在任何具有-i选项的过滤器之前指定输入文件，并且第一个输入在带有[in]链接标签的过滤器图中可用。如果我们想要过滤额外的文件，我们可以使用amovie来源作为视频文件的音频和电影来源，它们在表格中描述：

描述	从媒体（电影）容器读取音频和/或视频流。必需参数是媒体文件的文件名，可选键=值对由冒号分隔
语法	movie=video_name[:options] amovie=audio_name[:options]
	Available key = 值选项参数中的值对
f, format_name	视频容器或输入设备的格式，如果未指定，则从扩展名确定或者探测
loop	按顺序读取数据流的次数，如果为-1，则选择最佳视频（具有amovie的音频）数据流
sp, seek_point	以秒为单位查找点，如果设置，则输入从给定时间开始
s, streams	- 要选择的流，用+符号指定多个流，顺序很重要 - 特殊名称dv（电影）和da（amovie）指定默认（最佳）视频/音频流 - 第一章介绍了如何指定特定流的语法
si, stream_index	要读取的流的索引，如果为-1，则选择最佳流，这是默认值（不建议使用，s参数为首选）

例如，要在输入视频上显示徽标，我们可以使用以下命令：

ffmpeg -i video.mpg -vf movie=logo.png[a];[in][a]overlay video1.mp4

我的测试命令：

ffmpeg -i /Users/zhangfangtao/Desktop/test.mp4 -vf "movie=/Users/zhangfangtao/Desktop/fruit.jpg[a];[in][a]overlay" /Users/zhangfangtao/Desktop/test3.mp4

*显示效果(logo太大了，把视频盖住了)：

例如，sp（seek_point）选项设置为5时，徽标将从开始5秒后显示：

ffmpeg -i video.mpg -vf movie=logo.png:sp=5[a];[in][a]overlay video1.mp4

我的测试命令：

 ffmpeg -i /Users/zhangfangtao/Desktop/001.mp4 -vf "movie=/Users/zhangfangtao/Desktop/fruit.jpg:sp=0[a];[in][a]overlay" /Users/zhangfangtao/Desktop/test3.mp4

报错：

《FFmpeg Basics》中文版-23- 先进的技术点

写在前面

正文

加入音频和视频文件

连接与shell命令

链接concat协议

连接`concat`过滤器

其他类型的拼接技术

移除掉logo

delogo过滤器

抖动视频部分的固定

将颜色框添加到视频

检测帧数

检测广告，部分转换或损坏的编码

用黑帧过滤器进行检测

只选择指定的帧进行输出

通过改变纵横比来缩放输入

屏幕抓取

视频帧的详细信息

音频频谱

音频波形可视化

语音合成

一次将输出保存为多种格式

额外的媒体输入到filtergraph

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

FFmpeg

音视频专辑

iOS音视频开发

iOS-FFmpeg音视频开发

视频播放器和音视频基础知识

移动端音视频开发

《FFmpeg Basics》中文版-23- 先进的技术点

写在前面

正文

加入音频和视频文件

连接与shell命令

链接concat协议

连接concat过滤器

其他类型的拼接技术

移除掉logo

delogo过滤器

抖动视频部分的固定

将颜色框添加到视频

检测帧数

检测广告，部分转换或损坏的编码

用黑帧过滤器进行检测

只选择指定的帧进行输出

通过改变纵横比来缩放输入

屏幕抓取

视频帧的详细信息

音频频谱

音频波形可视化

语音合成

一次将输出保存为多种格式

额外的媒体输入到filtergraph

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

FFmpeg

音视频专辑

iOS音视频开发

iOS-FFmpeg音视频开发

视频播放器和音视频基础知识

移动端音视频开发

连接`concat`过滤器