美文网首页
观后小结:技术演讲 - WebCrawling and Meta

观后小结:技术演讲 - WebCrawling and Meta

作者: 做个懂科学的憨人 | 来源:发表于2013-05-19 21:09 被阅读111次

    演讲内容摘要:

    Web crawling is a hard problem and the web is messy. There is no shortage of semantic web standards -- basically, everyone has one. How do you make sense of the noise of our web of billions of pages?

    This talk presents two key technologies that can be used: Scrapy, an open source & scalable web crawling framework, and Mr. Schemato, a new, open source semantic web validator and distiller.

    演讲视频在 vimeo 上,幻灯片可以看 Speaker Deck 上的,或者浏览器直接打开这儿。幻灯片是用 reSTS5 制作的,源码在 github 上。

    演讲者是 Andrew Montalenti, co-founder/CTO of Parse.ly

    个人观后小结:

    • 他对三个页面抓取相关的动词之间区别的理解:Crawling, Spidering, Scraping
    • Parse.ly 有大于 1TB 的生产数据是放在内存中的
    • 开发和测试环境使用 Scrapy Cloud,生产环境使用 Rackspace Cloud
    • 现场演示如何基于 Scrapy 定制爬虫
    • 演示了他们是怎么使用 Scrapy Cloud
    • 介绍了他们的开源项目:Schemato - the unified validator for the next generation of metadata

    作者:czhang

    原文链接:http://jianshu.io/p/CFP7Gx

    相关文章

      网友评论

          本文标题:观后小结:技术演讲 - WebCrawling and Meta

          本文链接:https://www.haomeiwen.com/subject/mjqxtttx.html