所有物体识别和图像处理,都是提取特征(颜色,纹理和尺寸),还有一些我们看不到特征,根据这里特征进行类别区分和位置。
需求分析
- 物价上商品识别以及数量统计
- 区分同一品种物品的不同规格
框架选择
- 基于 SSD 、YOLO , Faster RNN 或者 tensorflow 来实现
- 收集一些相关 paper 作为参考的解决方案
困难分析
也就是造成检测效果(精度)不好原因可能是
- 物品间的遮挡,也就是物品摆放不规则,有物品显示不全
- 不同环境,也就是灯光、视角以及背景不同
- 同一品种不同规格物品区分
解决方案
主要思想还是参考成功案例,毕竟这不是什么新技术,不过要想做的好也是一件很难的事。即使一些大厂语音助手有时候很难跟我们完成流畅的对话
目标检测
- 图片预处理
- 图像收集以及标识工作
- 降噪
- 可以考虑对图像进行降维保留主要特征
- 基础网络
- 调节 YOLO 或 tensorflow 的参数,替换基础网络结构来提升其识别度
- 通过其他手段
- 对于 YOLO 和 tensorflow 识别结果进行二次过滤
- 上标名称表示数字规格等辅助信息识别 (品牌,文字)
- 利用 YOLO 和 tensorflow 识别物体候选框,使用 SIFT 提取特征点生成特征向量,利用词袋模型来计算这些相似度进行进一步分类
图像转文本
现在对抗神经网络(GAN), 读取图片生成文本可以利用来实现物价。
网友评论