python+mongodb简单操作记录

作者: swensun | 来源:发表于2017-12-27 00:57 被阅读36次

python+mongodb简单操作记录
Spring-data-mongodb关于多层嵌套数组的操作；
Redis简单操作记录
oracle 简单操作记录
记录一次简单的性能优化
Python3.8 对MySQL的操作
一.数据仓库、BI以及维度建模
六、MongoDB中的操作符
Android常用工具类封装---保存数据：SharedPref
PV操作

最近写爬虫用到的是mongodb数据库，部署在阿里云的服务器，下面简单记录一下用到的操作，已被后用。（关于mongodb的安装配置参考其他资料，后续补充）

基本操作：


def find_data():
    print("init mongo")
    client = MongoClient(ip)
    db = client[database]
    db.authenticate(user, pwd)
    c = db[collection]
    # c.create_index("movieid", unique=True)
    #  其余操作  
    client.close()

插入：

可以使用insert_one或者insert_many插入多条数据，但是我插入的数据经常会有重复，因此想到两种解决方法。
以豆瓣电影的一条记录来说：

image.png
首先建立唯一索引：c.create_index("movieid", unique=True)

利用try catch来保证唯一插入，try catch也可用于其他异常处理

try:
   insert_one   #说明有相同记录
except e:
   print(e)

upsert命令：

collection.update_one({"movieid": movieid}, {"$set": item}, upsert=True)

上述用于更新一条记录，不存在则插入。{"$set": item}, 全部更新，也可选择部分更新。

查找find操作

results = c.find().count()用于记录，find中可以加条件。

mark = "wish_count"
results = c.find({"subtype": "tv", mark: {"$gte": 10000, "$lte": 30000}}, {"_id": 0, "title": 1, "rate": 1, mark: 1}).sort([("rate", -1), (mark, -1)])

这条语句的意思是；根据subtype=“tv”， mark在10000~30000之间进行查找，结果中不显示_id 字段（find的第二个参数，0不显示，1显示），显示title和rate字段。
结果按照rate， mark的顺序降序排列（1为升序）。

results = c.find({"title": {"$regex": "大明"}})
类似like操作，查找title包含大明的集合。
results = c.find({"casts": {"$in": ["1", "2"]}})
查找集合中演员列表存在1， 2字段的集合。

组合操作：

    pipeline = [
        {"$match": {"subtype": "tv"}},
        {"$unwind": "$casts"},
        {"$group": {"_id": "$casts", "count": {"$sum": 1}, "avg": {"$avg": "$rate"}}},
        {"$sort": {"avg": -1}},
        # {"$match": {"count": {"$gte": 3, "$lte": 4}}}
        {"$match": {"_id": "鹿晗"}}
    ]
    results = c.aggregate(pipeline)

组合操作：
第一个match和find的第一个参数一样，用于组合前筛选。
unwind：展开，用于该字段是列表时，展开进行组合操作，不是列表可省略。
group：_id是必须字段，count， avg自定义字段， sum， avg分别是求和，求平均操作。
sort关键字不在叙述。
后面match用于组合后筛选， gte是大于等于，lte是小于等于字段。