美文网首页
Benchmark for AI search engine

Benchmark for AI search engine

作者: 周群力 | 来源:发表于2023-03-05 23:08 被阅读0次

如何评价一个"AI 搜索引擎"是好是坏?
如何判断一个 AI 搜索引擎比传统搜索引擎 “更好”?

我能想到的指标有:

  • 正确性。返回给用户的内容是对的,不能胡编
  • 人类理解速度。如果 AI 搜索引擎返回的内容比传统搜索引擎能让人更快理解,那我们可以说“AI 搜索引擎比传统搜索引擎更好”

至于“请求响应速度”之类的指标?不重要。

所以,我们可以设计一些“基准测试”:选一些我不懂的概念/知识,看看哪种工具能更快教会我,而且教的是对的。

Q: 那“相关性”指标呢?
A: 个人觉得, “相关性”指标不适合拿来测评 AI 搜索引擎

测试1. How to implement a state machine in C++?

让工具教教我怎么在c++里写状态机

phind.com

phind.com 是一个 AI 搜索引擎,我询问 phind.com ,它帮我列出了4种写法,很清晰。粘贴到记事本里,一共102行字(包括代码占用的行数)


image.png

google

搜到的文章废话太多。

image.png
比如第一篇,前面一大段都是废话。正文字数特别多,我粘贴到记事本里发现一共801行字(是 phind.com 返回结果的8倍
image.png

评价测试1

phind.com 起到了 summary的作用,而google到的文章信息密度低,要阅读的文字行数是 phind.com结果的8倍。
phind.com 获胜。

测试2. C++中,拷贝std::optional<std::vector> 时,会把 vector 完整的“深拷贝”一份么?

即: 拷贝 optional 变量时,会把肚子里的东西深拷贝么?

phind.com

这次直接问 phind.com ,看懂了。写代码验证了一下,答对了。


image.png

(其实上面的答案是重新生成的,原始答案是下面这个,截图时候有弹窗,不小心挡住了)


image.png

google

  1. 搜索 "deep copy std::optional<std::vector>",没命中


    image.png
  2. 搜索 "does std::optional deep copy"。第一条答案意义不明,阅读第一个答案浪费了我的时间。
    第二条答案可以解答问题。总的来说,相比于 phind.com 的回答,我需要阅读更多的文字,包括一些无关文字。


    image.png

评价测试2

phind.com 获胜

测试3. What is "Value categories" in C++

我不懂 C++ 里的 Value categories 是什么意思,让工具们来教教我

google

搜索结果如下:


image.png

看不懂。以搜到的 cppreference 内容为例,看懵了:


image.png

chatgpt 翻译

翻译成中文,还是看不懂


image.png

让 chatgpt 帮我解释

感觉解释的更好,但是说实话,看不懂


image.png

phind.com 搜索+chatgpt翻译

phind.com 是一个 AI 搜索引擎,搜到的内容是英文的。我把搜到的内容使用 chatgpt 翻译成中文。
看不懂。


image.png

google 搜视频

到此我还是不明白,决定搜视频。
搜到一个视频 https://www.youtube.com/watch?v=XS2JddPq7GQ
听了一会儿,讲得不错,能让我听懂,但是时间太长了,先扔进收藏夹、以后再看。

google 搜视频+视频提效工具

TODO
辅助使用summary生成器、字幕翻译,看看能不能提效

测试4. what is perfect forwarding in c++

搜书: google talk-to-books

https://books.google.com/talktobooks/

看起来不错


image.png

但是没法查看书籍详情,点击会跳到这里来:


image.png

phind.com

解释的还行?我好像知道这概念是啥了,但看完还是困惑"为什么要设计这东西?这和 std::move 有啥区别?"

image.png

继续看phind.com给的链接列表,看第二个链接的文章终于看懂了,明白了这东西是啥、解决啥问题


image.png

google

第一篇文章太长。也许能让我看懂吧,但我没耐心看完


image.png

手动搜书

作为对比,我打开了本地的 C++ Primer Plus,搜 "perfect forward" 啥也搜不到:


image.png

TODO

  • 多测试一些案例,做统计
  • 统计一下 phind.com 正确率
  • 搜书,排查下 google books 看不了的问题
  • 搜视频时,能实现"搜索视频内说过的话"么?
  • 总结下工具使用的最佳实践:什么场景该用什么工具?

相关文章

网友评论

      本文标题:Benchmark for AI search engine

      本文链接:https://www.haomeiwen.com/subject/nwguldtx.html