网易云音乐评论爬取。

发表: 2019-03-26 浏览: 3143

Python 爬虫其他

作者：小F
公众号：法纳斯特

近日，民谣歌手花粥被爆出涉嫌抄袭。

具体的我就不细说了，音乐圈的抄袭风波也是喜闻乐见。

比如，李袁杰的「离人愁」，展展与罗罗的「沙漠骆驼」还有陈柯宇的「生僻字」。

本次通过爬取网易云音乐的评论，即目前热歌榜第一名「出山」的评论。

来看看，在没被指出抄袭时，歌曲的评论画风是如何。

被指出抄袭后，又是怎样的一个画风。

/ 01 / 网页分析

网上关于爬取网易云音乐评论的方法，大多数都是讲如何构建参数去破解。

事实上不用那么复杂，直接调用接口就可以。

而且网易云音乐对评论也做了限制，只放出了2万条的评论数据。

前后各一万，即评论的前500页和后500页。

最后一页为10079，减500页应该是9579，然后你会发现9575页和9579页的数据是一模一样的。

同样，501页和502页的数据也是一模一样的。

所以何必想着去构造参数，直接调用网易云音乐的评论API就是了，用户信息也是一个道理。

# 网易云音乐评论API,其中1313354324为音乐ID,limit为页面结果限制数,最大可设为100,offset为页面偏移量
http://music.163.com/api/v1/resource/comments/R_SO_4_1313354324?limit=20&offset=0

# 用户信息API
https://music.163.com/api/v1/user/detail/{用户ID}

这里就以花粥的「出山」为例，具体情况如下。

第一页妥妥的差评。这两天「出山」的评论区热闹非凡。

大部分的评论都是希望能尊重原创，然后下架花粥的歌。

当然，也有不少给花粥洗白的水军在评论区游荡...

/ 02 / 评论获取

具体代码如下。

import json
import time
import requests

headers = {
        'Host': 'music.163.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}


def get_comments(page):
    """
    获取评论信息
    """
    url = 'http://music.163.com/api/v1/resource/comments/R_SO_4_1313354324?limit=20&offset=' + str(page)
    response = requests.get(url=url, headers=headers)
    # 将字符串转为json格式
    result = json.loads(response.text)
    items = result['comments']
    for item in items:

        # 用户名
        user_name = item['user']['nickname'].replace(',', '，')
        # 用户ID
        user_id = str(item['user']['userId'])
        # 获取用户信息
        user_message = get_user(user_id)
        # 用户年龄
        user_age = str(user_message['age'])
        # 用户性别
        user_gender = str(user_message['gender'])
        # 用户所在地区
        user_city = str(user_message['city'])
        # 个人介绍
        user_introduce = user_message['sign'].strip().replace('
', '').replace(',', '，')
        # 评论内容
        comment = item['content'].strip().replace('
', '').replace(',', '，')
        # 评论ID
        comment_id = str(item['commentId'])
        # 评论点赞数
        praise = str(item['likedCount'])
        # 评论时间
        date = time.localtime(int(str(item['time'])[:10]))
        date = time.strftime("%Y-%m-%d %H:%M:%S", date)
        print(user_name, user_id, user_age, user_gender, user_city, user_introduce, comment, comment_id, praise, date)

        with open('music_comments.csv', 'a', encoding='utf-8-sig') as f:
            f.write(user_name + ',' + user_id + ',' + user_age + ',' + user_gender + ',' + user_city + ',' + user_introduce + ',' + comment + ',' + comment_id + ',' + praise + ',' + date + '
')
        f.close()


def get_user(user_id):
    """
    获取用户注册时间
    """
    data = {}
    url = 'https://music.163.com/api/v1/user/detail/' + str(user_id)
    response = requests.get(url=url, headers=headers)
    # 将字符串转为json格式
    js = json.loads(response.text)
    if js['code'] == 200:
        # 性别
        data['gender'] = js['profile']['gender']
        # 年龄
        if int(js['profile']['birthday']) < 0:
            data['age'] = 0
        else:
            data['age'] = (2018 - 1970) - (int(js['profile']['birthday']) // (1000 * 365 * 24 * 3600))
        if int(data['age']) < 0:
            data['age'] = 0
        # 城市
        data['city'] = js['profile']['city']
        # 个人介绍
        data['sign'] = js['profile']['signature']
    else:
        data['gender'] = '无'
        data['age'] = '无'
        data['city'] = '无'
        data['sign'] = '无'
    return data


def main():
    # 前500页
    # for i in range(210000, 230000, 20):
    # 后500页
    for i in range(0, 25000, 20):
        print('
---------------第 ' + str(i // 20 + 1) + ' 页---------------')
        get_comments(i)


if __name__ == '__main__':
    main()