如何评价一个"AI 搜索引擎"是好是坏?
如何判断一个 AI 搜索引擎比传统搜索引擎 “更好”?
我能想到的指标有:
- 正确性。返回给用户的内容是对的,不能胡编
- 人类理解速度。如果 AI 搜索引擎返回的内容比传统搜索引擎能让人更快理解,那我们可以说“AI 搜索引擎比传统搜索引擎更好”
至于“请求响应速度”之类的指标?不重要。
所以,我们可以设计一些“基准测试”:选一些我不懂的概念/知识,看看哪种工具能更快教会我,而且教的是对的。
Q: 那“相关性”指标呢?
A: 个人觉得, “相关性”指标不适合拿来测评 AI 搜索引擎
测试1. How to implement a state machine in C++?
让工具教教我怎么在c++里写状态机
phind.com
phind.com 是一个 AI 搜索引擎,我询问 phind.com ,它帮我列出了4种写法,很清晰。粘贴到记事本里,一共102行字(包括代码占用的行数)
image.png
搜到的文章废话太多。
比如第一篇,前面一大段都是废话。正文字数特别多,我粘贴到记事本里发现一共801行字(是 phind.com 返回结果的8倍)
image.png
评价测试1
phind.com 起到了 summary的作用,而google到的文章信息密度低,要阅读的文字行数是 phind.com结果的8倍。
phind.com 获胜。
测试2. C++中,拷贝std::optional<std::vector>
时,会把 vector 完整的“深拷贝”一份么?
即: 拷贝 optional 变量时,会把肚子里的东西深拷贝么?
phind.com
这次直接问 phind.com ,看懂了。写代码验证了一下,答对了。
image.png
(其实上面的答案是重新生成的,原始答案是下面这个,截图时候有弹窗,不小心挡住了)
image.png
-
搜索 "deep copy std::optional<std::vector>",没命中
image.png -
搜索 "does std::optional deep copy"。第一条答案意义不明,阅读第一个答案浪费了我的时间。
第二条答案可以解答问题。总的来说,相比于 phind.com 的回答,我需要阅读更多的文字,包括一些无关文字。
image.png
评价测试2
phind.com 获胜
测试3. What is "Value categories" in C++
我不懂 C++ 里的 Value categories 是什么意思,让工具们来教教我
搜索结果如下:
image.png
看不懂。以搜到的 cppreference 内容为例,看懵了:
image.png
chatgpt 翻译
翻译成中文,还是看不懂
image.png
让 chatgpt 帮我解释
感觉解释的更好,但是说实话,看不懂
image.png
phind.com 搜索+chatgpt翻译
phind.com 是一个 AI 搜索引擎,搜到的内容是英文的。我把搜到的内容使用 chatgpt 翻译成中文。
看不懂。
image.png
google 搜视频
到此我还是不明白,决定搜视频。
搜到一个视频 https://www.youtube.com/watch?v=XS2JddPq7GQ
听了一会儿,讲得不错,能让我听懂,但是时间太长了,先扔进收藏夹、以后再看。
google 搜视频+视频提效工具
TODO
辅助使用summary生成器、字幕翻译,看看能不能提效
测试4. what is perfect forwarding in c++
搜书: google talk-to-books
https://books.google.com/talktobooks/
看起来不错
image.png
但是没法查看书籍详情,点击会跳到这里来:
image.png
phind.com
解释的还行?我好像知道这概念是啥了,但看完还是困惑"为什么要设计这东西?这和 std::move
有啥区别?"
继续看phind.com给的链接列表,看第二个链接的文章终于看懂了,明白了这东西是啥、解决啥问题
image.png
第一篇文章太长。也许能让我看懂吧,但我没耐心看完
image.png
手动搜书
作为对比,我打开了本地的 C++ Primer Plus,搜 "perfect forward" 啥也搜不到:
image.png
TODO
- 多测试一些案例,做统计
- 统计一下 phind.com 正确率
- 搜书,排查下 google books 看不了的问题
- 搜视频时,能实现"搜索视频内说过的话"么?
- 总结下工具使用的最佳实践:什么场景该用什么工具?
网友评论