赵静2014141093041
**读书笔记:**
1元数据是对信息的陈述,元数据是对某个潜在信息对象做出的陈述。
2元数据的模式指一个规则集,规定允许进行哪些类型的主谓宾以及如何做出这样的陈述。例如日期的形式必须为年/月/日,规定了你应当提供什么数据以及应以什么样的形式提供数据。
3元素就是这个信息,这个实体的各个方面,元素的值是分配给某个元素的值,例如姓名-赵静,姓名就是元素,赵静就是元素的值。
4语法编码:规定如何表达或编制某种具体数据类型,单独的元数据元素有自己特定的语法编码体系,国际标准ISO 8601
5受控词汇表提供了可最终付诸应用的一个有限字符串集。例如LCSH,能将主题目标串联起来,形成所谓的细分。轮渡——华盛顿州——西雅图——1889年,用这种组合形式确定信息的陈述。还可以重新排列主题标目,从而运用潜在有限的术语集合来构建出几乎无限墨术语。
6规范文档提供一个有限的字符串集合,采用受控词汇表时,这个字符串的引用“马克.吐温”时唯一可接受的术语。
7叙词表,元素之间结构构成,包含使用这些术语命名的实体之间的关系。LSCH通过广义术语和狭义术语来说明层级关系,哪个词包含的范围更大,实体更多。USE FOR 关系说明某一特定术语是首选术语,如果你使用A,B是首选用于,而不是其他C或者D。
8元数据会失控,互联网成为不可控词汇表生长的热土。不可控词汇表允许使用任何术语。
9元数据记录:“一对一原则”,即一个资源只能有一条记录。
10元数据可能存在于两个位置:内部与外部。记录存在其代指的资源之中或者独立于该资源。
11唯一识别符可以用于唯一地识别某个实体,避免与其他实体混淆。一般来说,名字与地址是唯一的识别符。
**企业管理元数据:**
经过这些年的发展,国内外厂商在元数据管理能力的建设上有了一定的经验积累,企业级元数据管理正吸引着越来越多的厂商关注,有望成为未来元数据管理的主流方向,提出了企业级元数据管理需要具备的基本能力,并简要分析了未来企业级元数据管理体系架构的技术趋势。
企业级元数据管理将成为企业信息管理的核心
��-�����t
robots
http://www.tmall.com/robots.txt
User-agent: *
Disallow: /
针对所有的爬虫,并且所有内容都不允许爬
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
针对所有的爬虫,不允许爬取上面两个html,
Disallow: /?*表示不允许爬取以?开头的url
EtaoSpider
HuihuiSpider
GwdangSpider
WochachaSpider
这四个机器人所有内容都不允许爬取
https://www.amazon.cn/robots.txt
User-agent: *所有爬虫都适用
Disallow: /buycar
Disallow: /cart
Disallow: /checkout
Disallow: /class
Disallow: /com
Disallow: /common
Disallow: /css
Disallow: /dll
Disallow: /doc
Disallow: /dp/e-mail-friend/
Disallow: /dp/manual-submit/
Disallow: /dp/product-availability/
Disallow: /dp/rate-this-item/
Disallow: /dp/shipping/
Disallow: /dp/twister-update/
Disallow: /gp/aws/ssop
Disallow: /gp/cart
Disallow: /gp/css/homepage.html
Disallow: /gp/customer-reviews/common/du
Disallow: /gp/flex
Disallow: /gp/gfix
Disallow: /gp/history
Disallow: /gp/item-dispatch
Disallow: /gp/music/clipserve
Disallow: /gp/music/wma-pop-up
Disallow: /gp/offer-listing
Disallow: /gp/product/e-mail-friend
Disallow: /gp/product/product-availability
Disallow: /gp/product/rate-this-item
Disallow: /gp/recsradio
Disallow: /gp/slredirect
Disallow: /gp/twitter/
Disallow: /gp/vote
Disallow: /gp/voting/
Disallow: /gp/yourstore
Disallow: /inc
Disallow: /js
Disallow: /lib
Disallow: /mn/bookLookInsideApp
Disallow: /mn/checkInitApp
Disallow: /mn/checkoutAlertMsgApp
Disallow: /mn/checkoutredirectApp
Disallow: /mn/giftCardApp
Disallow: /mn/loginApplication
Disallow: /mn/loyaltyApp
Disallow: /mn/orderAddrApp
Disallow: /mn/orderCfmApp
Disallow: /mn/orderDetailApp
Disallow: /mn/orderFailApp
Disallow: /mn/orderHistoryApp
Disallow: /mn/orderModifyApp
Disallow: /mn/orderSummaryApp
Disallow: /mn/paymentRedriveApp
Disallow: /mn/recommendReviewApp
Disallow: /mn/releaseReviewApp
Disallow: /mn/reviewVoteApplication
Disallow: /mn/selectPaymentMethodApp
Disallow: /mn/selectShippingOpptionApplication
Disallow: /mn/shipmentTraceApp
Disallow: /mn/shoppingCartApplication
Disallow: /mn/tellFriend
Disallow: /mn/thankYouApplication
Disallow: /mn/virtualAccountApp
Disallow: /mn/yourAccountApp
Disallow: /paper
Disallow: /xml
Disallow: /youraccount
Disallow: /ap/signin
Disallow: /gp/registry/wishlist/
Disallow: /wishlist/
Allow: /wishlist/universal*
Allow: /wishlist/vendor-button*
Allow: /wishlist/get-button*
Disallow: /gp/wishlist/
Allow: /gp/wishlist/universal*
Allow: /gp/wishlist/vendor-button*
Allow: /gp/wishlist/ipad-install*
Disallow: /registry/wishlist/
Disallow: /gp/help/contact-us/general-questions.html*?type&email&skip=true
Disallow: /gp/help/customer/accessibility?ie=UTF8&initialIssue=forgotpw&skip=true
Disallow: /gp/registry/search.html
Disallow: /gp/orc/rml/
Disallow: /gp/digital/fiona/manage
Disallow: /gp/entity-alert/external
Disallow: /gp/customer-reviews/dynamic/sims-box
Disallow: /review/dynamic/sims-box
Disallow: /gp/redirect.html
Disallow: /gp/customer-media/upload/
Disallow: /gp/customer-media/actions/delete/
Disallow: /gp/customer-media/actions/edit-caption/
Disallow: /gp/dmusic/
Disallow: /registry
Disallow: /*/wishlist
Disallow: /gp/registry
Disallow: /gp/aag
Disallow: /gp/socialmedia/giveaways
Disallow: /gp/aw/so.html
Disallow: /gp/pdp/profile/
Disallow: /gp/help/customer/display.html*nodeId=200843370
Disallow: /gp/help/customer/display.html*nodeId=200877580
Disallow: /gp/help/customer/display.html*nodeId=200877590
Disallow: /gp/help/customer/display.html*nodeId=200879080
Disallow: /gp/help/customer/display.html*nodeId=200879100
Disallow: /gp/help/customer/display.html*nodeId=200879120
Disallow: /gp/help/customer/display.html*nodeId=200879160
Disallow: /gp/help/customer/display.html*nodeId=200879140
Disallow: /gp/help/customer/display.html*nodeId=200877610
Disallow: /gp/help/customer/display.html*nodeId=200878960
Disallow: /gp/help/customer/display.html*nodeId=200878980
Disallow: /gp/help/customer/display.html*nodeId=200879000
Disallow: /gp/help/customer/display.html*nodeId=200879040
Disallow: /gp/help/customer/display.html*nodeId=200879020
Disallow: /gp/help/customer/display.html*nodeId=200877630
Disallow: /gp/help/customer/display.html*nodeId=200879200
Disallow: /gp/help/customer/display.html*nodeId=200879220
Disallow: /gp/help/customer/display.html*nodeId=200879240
Disallow: /gp/help/customer/display.html*nodeId=200879280
Disallow: /gp/help/customer/display.html*nodeId=200879260
Disallow: /gp/help/customer/display.html*nodeId=200877650
Disallow: /gp/help/customer/display.html*nodeId=200879320
Disallow: /gp/help/customer/display.html*nodeId=200879340
Disallow: /gp/help/customer/display.html*nodeId=200879360
Disallow: /gp/help/customer/display.html*nodeId=200879400
Disallow: /gp/help/customer/display.html*nodeId=200879380
Disallow: /gp/help/customer/display.html*nodeId=200877560
Disallow: /gp/help/customer/display.html*nodeId=200843460
Disallow: /gp/help/customer/display.html*nodeId=200843440
Disallow: /gp/help/customer/display.html*nodeId=200899270
Disallow: /gp/help/customer/display.html*nodeId=200879440
Disallow: /gp/help/customer/display.html*nodeId=200899330
Disallow: /gp/help/customer/display.html*nodeId=200899350
Disallow: /gp/help/customer/display.html*nodeId=200899390
Disallow: /gp/help/customer/display.html*nodeId=200899410
Disallow: /gp/help/customer/display.html*nodeId=200899430
Disallow: /gp/help/customer/display.html*nodeId=200899220
Disallow: /gp/help/customer/display.html*nodeId=200899450
Disallow: /gp/help/customer/display.html*nodeId=200899670
Disallow: /gp/help/customer/display.html*nodeId=200899530
Disallow: /gp/help/customer/display.html*nodeId=200899470
Disallow: /gp/help/customer/display.html*nodeId=200899550
Disallow: /gp/help/customer/display.html*nodeId=200899570
Disallow: /gp/help/customer/display.html*nodeId=200899510
Disallow: /gp/help/customer/display.html*nodeId=200899610
Disallow: /gp/help/customer/display.html*nodeId=200899630
Disallow: /gp/help/customer/display.html*nodeId=200899650
Disallow: /gp/help/customer/display.html*nodeId=200879180
Disallow: /gp/help/customer/display.html*nodeId=200879060
Disallow: /gp/help/customer/display.html*nodeId=200879300
Disallow: /gp/help/customer/display.html*nodeId=200879420
Disallow: /gp/help/customer/display.html*nodeId=200899290
Disallow: /gp/help/customer/display.html*nodeId=200899310
Disallow: /gp/help/customer/display.html*nodeId=200843380
Disallow: /gp/help/customer/display.html*nodeId=200843420
Disallow: /gp/help/customer/display.html*nodeId=200899230
Disallow: /gp/help/customer/display.html*nodeId=200899250
Disallow: /gp/help/customer/display.html*nodeId=200899370
Disallow: /reviews/iframe
Disallow: /gp/help/reports/infringement/jquery/handle-notice-submit.html
Disallow: /gp/help/customer/handler/handle-email-submit.html
scrapy实验报告
赵静 信管 2014141093041
阿里云 IP:120.24.46.77 系统用户名: root
第一步:连接服务器
第二步:激活并且进入虚拟环境
第三步:本地编写spider代码并上传
抓取html
此时文件为py文件,并且把它放入name下的spiders文件夹下面
scrapy crawl slx_quotes
find / -name slx-quotes-1.html
生成html文件
第四步:Scrapy爬取多页Json数据
本地编写Spiders文件
crapy crawl slx_quotes_spider -o zj_777777.json
生成json文件抓取四川大学公共管理学院动态新闻及详情页
赵静 信管
因为我们小组重新重置了阿里云,所以需要重新配置环境,
开始抓取
抓取的spider如下:
spider1
我选择从more那一页进行抓取,即
可以看到url
抓取这一页的每个新闻的url,再进一步抓取详情页的标题、时间、内容、图片等信息。
当spider 1 时,可以正确的爬取标题、时间、内容,结果如下:
把抓取图片的代码加入,抓取图片的url
spider2
当spider2 时,就是把图片抓取加进去时,并不能抓取图片的url
综上:成功实现抓取标题、时间、内容,未成功地抓取图片url.
mmseg4j分词报告
一、创建java环境,下载JDK并且运行
二、下载中文分词包mmseg4j,并且下载相应的压缩文件
三、运行windows cmd
四、检查java环境
java -version
五、运行mmseg4j-core-1.10.0.jar
分词内容为:
2017年4月27日到29日,案例中心杯首届“中国研究生公共管理案例大赛”在浙江大学紫金港校区举行,我院MPA代表队荣获大赛二等奖。本次参赛队伍由全国MPA教指委委员、公共管理学院院长姜晓萍教授带队,代表队由我院2016级MPA学生王丹华、周雄超、周玥伶和申洋组成,指导教师为郭金云。选取的案例为《信用保卫战:以“全程服务”化解地方政府“骗婚式”招商之尬》,在参赛的143所院校的671支队伍中经过激烈角逐脱颖而出进入大赛16强,并荣获二等奖。在现场展示环节,我院代表队充分展示了川大人的品质和风采,获得现场师生和兄弟院校的一致好评。
分词结果为:
六、利用Complex方法进行分词
分词结果为:
课上实验报告
1启动solr
使用我们自己的云服务器http://120.24.46.77:8983/solr/#/
root@iZwz917cdsoqcbr42li3daZ:~# cd /opt/solr-6.3.0
root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0# cd server
root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0/server# chmod 777 logs
root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0/server# cd ..
root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0# bin/solr start -e techproducts
根据老师给的ppt完成strat solr
2查看techproducts目录
包括:
overview
analysis
dataimport
documents
files
ping(2ms)
plugins /stats
query
replication
schema
segments info
索引数据的文件位置是
下载到本地index
数据导入
solr 的目录
(1)bin:是脚本的启动目录
(2)contrib:第三方包存放的目录
(3)dev-tools:跟开发工具相关的包
(4)dist:编译打包后存放目录,即构建后的输出产物存放的目录
(5)docs:solr文档的存放目录
(6)example:示范例子的存放目录,这里展示了DIH,即数据导入处理的例子
(7)licenses:权限相关的
(8)lucene:solr基于Lucene开发,本身是lucene代码的目录,但是构建后都为空,相关东西已经到jar包中
(9)server:即solr搜索引擎框架,基于jetty web服务器开发的。包含jetty服务器的配置。(这个目录就类似于一个包含了tomcat服务器,里面有一个基于solr的web工程)
查找
网友评论