文章首发于微信公众号 《有三学Al》
【深度学习图像项目实战-从入门到上线1】怎样学会科学的调研并启动一个项目
0 导读
每一个项目的第一步就是立项,立项需要进行充分的调研才能确定是否值得启动一个项目。调研主要要做好两个方向:1,算法调研,它主要是确定可行的技术路线。更具体的说,需要清楚想做的事情是否已经到达落地的水准,也就是可行性的验证。2,市场调研,它主要确定的是,所选中的方案是否有市场需求,是否已经有成熟的竞争对手和市场。
下面分别从这两个方向进行讲述,我们以图像风格化为例,所谓图像风格化,学术名词是image style transfer,研究起源于这一篇论文A neural algorithm of artistic style[1],3年前我的公众号《与有三学AI》也做过报导,大家有兴趣可以去看,
https://mp.weixin.qq.com/s/lA6q8kzSHUQ7eyi5uTgenA (二维码自动识别)
它是采用神经网络的方法,分别学习到一幅图像的纹理和风格,从而实现从一幅图像风格到另一幅图像的迁移,如下,将图2的风格,应用到图1上。
当然,现在已经有了很多新的应用,尤其是基于人脸的非常多,详细的介绍和技术原理,大家可以去参考我以前开设的AI摄影基础课程。其中详细地讲述了摄影中各方面的图像知识。
http://gitbook.cn/m/mazi/comp/column?columnId=5a6011fbbd5ff2623773394c (二维码自动识别)
下面言归正传,回到风格化研究的调研。
1哪些地方开始调研?
1.1 市场调研
在做算法调研之前,先要做市场调研。市场调研需要涵盖主流的产品形态,包括 app,普通的网页应用以及小程序;所面对的目标用户(年龄层次,地域分布),现有的市场份额,以及潜在的竞争对手等也需要了解。
这一块没有多少可说的,平时多关注关注新闻,相关朋友圈的分享,相关公众号即可,比如当年非常火的prisma,作为从业人员想忽视也不容易的。
然后到ios平台和安卓平台去搜搜关键词,看看各大公司是否已经跟上推出类似产品。
我们一调研就知道,国内几大图像算法公司,腾讯的天天P图,美图科技的美图秀秀,Camera360的MIX滤镜都有相关产品,其他小产品也不少。
我们分别拿一张人脸和风景图做测试。
试试美图黑科技中绘画机器人
天天P图中的各类风格。
MIX中艺术滤镜。
当然,现在已经存在非常多类似的app了,初步的调研结果显示,基于图片的风格化技术已经成熟,而且产品面世也已经不止两年了,我们偶尔会在朋友圈里看到类似的分享,当然具体的用户比例,可能需要我们自己去做一些调研问卷,投票之类的。
不过,还没有看到比较好的基于视频的调研结果,所以这可能是一个突破点。
最后我们要总结一下调研的结果:
建议从以下几个方向:
技术成熟度
受众
产品使用频率
竞争对手
1.2 算法调研
1.2.1 国内外前沿学术研究
可以找一些好的博士硕士论文,相关综述,看看总结和方向。再找学术界和工业界的相关比赛,以及数据集。
1.2.1.1 中文调研
(1) 首先调研综述类文章,查看cnki相关关键词的博士硕士论文,以及优秀中文期刊的综述。
还是以图像风格化为例,到中国知网平台,
中国知网www.cnki.net
搜索结果如下:
根据下载量与被引用因子,可以初步判断文章的质量,同时发表时间也需要作为参考。
(2) 百度学术调研
虽然百度学术与Google学术相差甚远,但是也可以作为辅助。
这其中可以调研到发表时间,来源期刊,同时可以获取到引用格式,这在写作学术论文和调研报告中也会非常有用。
1.2.1.2 英文调研
中文调研应该作为一个入门的了解,而英文文献的调研,才是了解最前沿技术的正确方法,必须使用好Google学术以及Google通用搜索引擎。同时,由于现在很多的论文在接收和正式发表之前,都已经发在了arprint平台上,所以为了获取最新的研究结果,这个也是必须的。
(1) Google与Google学术。
Google学术擅长于寻找正式发表的学术论文,而Google通用搜索引擎则可以广泛浏览相关内容,都需要去仔细筛选。
另外,Google和百度都提供了一个api调研关键词的热度趋势
https://trends.google.com/trends/trends.google.com
https://zhishu.baidu.com/#/zhuanlan.zhihu.com
(2) Arxiv
学术界最新的研究成果往往是先发表在这里,甚至可能领先正式出版机构一年以上,所以这也是需要去认真调研的。机器学习相关的在computer science栏目下。
在调研学术论文的时候,优先看综述,然后重点关注知名的研究机构,引用量大的论文。
比如这个方向,就能找到一篇综述文章Neural Style Transfer: A Review【2】,若干经典文章,比如开启这个方向的【1】,首次将其实时化的李飞飞组的研究【3】等。
通过阅读综述文章和一系列经典文章和前沿文章之后,就能对该方向的技术路线等有了很明确的认知。
当然如果有机会参与一些比较牛逼的团队或者身边有相关人脉,则更有可能获得最新的研究成果,那也是极好的。
1.3 行业媒体调研
在机器学习领域,现在有很多的优秀自媒体,他们也会经常总结一些前沿的研究,所以这也是一个很好的调研渠道。
笔者下面做一些推荐。
(1) 机器之心,新智元,AI科技评论,AI科技大本营,都是人工智能媒体与产业服务平台,注重总结学术界的最新研究与工业界的最新动向,干货很多。
(2) 深度学习大讲堂,Paperweekly,国内CV界的前沿研究推送,学术为主,解读前沿论文。
(3) 大数据文摘,内容不限于AI与机器学习,所有与大数据相关东西,所以也会显得更加全而杂乱。
(4) 36氪,虎啸网等,注重商业报告,尤其强调行业趋势,创业的朋友肯定是需要经常关注。
(5) 知乎微博,虽然现在知乎内容越来越多整体质量下滑严重,但是仍然是国内尤其是技术精英喜欢逛的地方。虽然微博娱乐泛滥,但是也不能完全否定它上面也有一些还不错的自媒体,像每天坚持截取论文研究结果的“爱可可爱生活”,以及各大新闻媒体,新浪科技,大佬的微博动向,比如雷军每次都会介绍自家小米的产品。
当然厚脸皮推荐一下自己在鼓捣的技术公众号《与有三学AI》以及知乎专栏《深度学习模型训练经验与代码剖析》,水平有限未形成规模,欢迎大家加入。
https://zhuanlan.zhihu.com/c_151876233 (二维码自动识别)
1.4 github
Github的重要性就不用多说了吧,鉴于它已经成为了国内最大的技术人员交友平台,所以在这里调研技术再适合不够。
以image style transfer为例,一找就找到一个高质量的资源。
https://github.com/ycjing/Neural-Style-Transfer-Papersgithub.com
带有相当完整的论文list与开源代码,再精读这些资源之后,想不了解都难了。
而且,等正式开始干活之后,这些资源很有可能就会成为起点。
2,怎样写好调研报告。
上面既然已经完成了调研,那么要交出去给别人看的时候,就一定要写好调研报告。下面我们就要作出一些总结,主要从以下几个方向入手,还是以图像风格化为例。
2.1 用户调研总结
潜在用户
AI技术爱好者,这一类人喜欢尝试新鲜技术。
摄影爱好者,喜欢研究各类滤镜。
女性,对于美颜和人脸风格化有需求的广大女性。
使用地点,时间点和频次
朋友圈等社交平台。属于日常低频需求,朋友圈偶见转发,可能集中在特定节日。比如5-4青年节天天P图推出的民国风格。
用户需求
求新与切合时间点,喜欢不断尝试新的滤镜,喜欢在特定时间段集中爆发尝试与转发。
使用平台
移动端app和网页应用。
总结:图像风格化实际上是一个低频非刚需,它与美颜有着本质的区别,因为后者只是对图像的微调,而前者则是一个新的创作。因此,如果做这一类产品,结合特定时间点做趣味性强的短期爆款制造营销事件比特意开发一个app会更加符合一个新的产品定位。
2.2 竞争对手调研总结
美图秀秀与天天P图等国内app
对手特点,技术一流,产品全面且受众广,总是能在特殊时间点制造营销爆点,正面PK技术实力和产品设计都面临很大的考验,失败风险大。
小蚁AI艺术等小程序
产品简单,效果相比主流app较差,有视频风格化。
总结:针对大公司技术实力强但是不敢轻易尝试非成熟技术,而小公司技术实力弱但是产品可以快速迭代的特点,我们可以以短小精美的前端界面+最新技术探索的方式,甚至尝试非主流擦边球的形态来突然推出爆款。
2.3 技术调研总结
静态图片风格化
技术路线已经比较成熟且风格化效果较好,相关app已经大量出现,门槛较低,有经验的工程师一个月内实现一个demo上线没问题。
视频风格化
计算代价较高相关竞品很少,需要具备一流研发能力的团队。
最终总结:磨刀不误砍柴工,在正式想好做一个项目之前,最好先做好上面的3步调研,免得闭门造车。
【1】Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style[J]. arXiv preprint arXiv:1508.06576, 2015.
【2】Jing Y, Yang Y, Feng Z, et al. Neural style transfer: A review[J]. arXiv preprint arXiv:1705.04058, 2017.
【3】Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]//European Conference on Computer Vision. Springer, Cham, 2016: 694-711.
更多请移步
1,我的gitchat达人课
2,AI技术公众号,《与有三学AI》
3,以及摄影号,《有三工作室》
网友评论