1
推荐
1892
阅读

用Python实现贝叶斯定理

作者:邓旭东HIT链接:https://zhuanlan.zhihu.com/p/27012448来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。写作说明上一期我们讲了贝叶斯分类器,其中有很多的概率基础知识和贝叶斯定理。但是讲解的很没有重点,前半部分讲的是贝叶斯基础知识,最后很突兀的插进来一个文本分析-贝叶...

发表了文章 • 2017-05-20 11:57 • 0 条评论

1
推荐
4722
阅读

抓取单博主的所有微博及其评论

这是个简单又复杂的爬虫。抓取逻辑很简单,但任务实现会略微繁琐。但只要思路清楚,还是很简单的。对象-路易威登微博网址:http://m.weibo.cn/u/1836003984 红色部分是微博账号的id 爬取思路1、我们先写一个微博的所有评论,看网址规律是什么样子,有没有一些奇怪的参数,这些参数要到哪里获取?2、依次类推,发现爬所有...

发表了文章 • 2017-05-13 20:13 • 0 条评论

0
推荐
1613
阅读

selenium驱动器配置详解

我先声明下,所有的路径我都没有搞系统环境路径,这东西挺麻烦的,我也懒得搞。毕竟,现在要解决0和1问题,至于1还是1+,那就留给大家自己再去探索吧,嘿嘿。闲话扯多了,现在进入正题。上图文selenium+ChromeDriver现在写作的电脑是window10,chrome版本58。因此我下载了chromedriver2.29。所有chromedriver下载地址http...

发表了文章 • 2017-05-13 20:01 • 0 条评论

0
推荐
1369
阅读

如何在windows下,安装python3的scrapy包

【原文链接(英文)】How to install Scrapy 3.1.1rc3 for Python3 on Windows and use it in Pycharm不能再windows平台上为python3安装Scrapy库真的真的很蛋疼。这是是我发现的能在python3中运行scarpy的方法。安装方法如下:一、首先我推荐你先安装Conda,这是一个包管理器,当然也可以创建虚拟环境(总而言之,Conda=...

发表了文章 • 2017-03-15 13:28 • 0 条评论

0
推荐
1926
阅读

Python3写的一个抓取法大BBS论坛的爬虫

之前写了一个抓取BBS论坛所有帖子标题名的爬虫,不过该论坛已经把我封了,还是自己太年轻经验少,没有设置sleep time# -*- coding=utf-8 -*- from bs4 import BeautifulSoup import urllib.request import urllib import re #获取板块的链接 def get_Bankuan_link(url): link_list = [] #用来收集板块的链接 ...

发表了文章 • 2017-03-15 13:17 • 0 条评论

0
推荐
1319
阅读

python3爬取数据保存为csv问题

爬取Comparison of text editors网页中第一个table,代码如下。可是打开保存文件,发现csv如图所示                                         与自己设想的第一行是抬头名,记录信息是一行一行的。不一样啊...

发表了文章 • 2017-03-15 13:13 • 0 条评论

1
推荐
1363
阅读

如何计算两个文档的相似度(二)

【转自我爱自然语言】如何计算两个文档的相似度(二) | 我爱自然语言处理上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。二、gensim的安装和使用1、安装gensim依赖N...

发表了文章 • 2017-03-15 12:46 • 0 条评论

1
推荐
1604
阅读

用python计算两个文档的相似度(一)

[转自我爱自然语言]如何计算两个文档的相似度(一) | 我爱自然语言处理一、相关的知识点及参考资料这篇文章不会写很长,但是涉及的知识点蛮多,所以首先会在这里介绍相关的知识点,了解的同学可以一笑而过,不了解的同学最好能做一些预习,这对于你了解topic model以及gensim更有好处。如果以后时间允许,我可能会基于...

发表了文章 • 2017-03-15 12:42 • 0 条评论

0
推荐
1446
阅读

学习永远不晚,只需做到更好

今天早上看到的这幅图,很有感慨,我是25岁开始学的编程,比一般的计算机专业18岁就开始,一开始学编程时候,也经常纠结“**岁开始学编程,会不会很晚?”。所以我也可以以自己的例子向大家传递“学习永远不迟,只需做得更好”精神,特将本人学习python的历程经验分享与大家听。​ ​我是09年读的本科,考了三次研究生,15年才...

发表了文章 • 2017-03-15 12:31 • 1 条评论

0
推荐
1517
阅读

十分钟让你变得会聊天?

原来我对着女生很难开口,而且开聊没几分钟就停下来了。始终改不掉这个缺陷,直到我遇上ta,跟ta学了十分钟,就变的很会聊天,很会接话。聊天记录截图如下:哈哈,ta就是python语言。api_key是图灵机器人的api,请大家自行注册获取。api_key是图灵机器人的api,请大家自行注册获取。 from wxpy import * api_key = '***...

发表了文章 • 2017-03-15 12:30 • 0 条评论

2
推荐
1177
阅读

学python这么久,越发觉得基础知识的重要性

很多人入手python的动机是想运行爬虫收集自己想要的数据,来做学术或其他用途。但人都有惰性,觉得直接从网上copy一段现成的脚本,放到自己电脑上运行,这多省事啊,很爽很痛快。其实,这真是给自己埋坑。先不说,你搜寻符合你需求的代码所消耗的搜寻时间和精力是很大的。再者,即使搜到与你需求类似的脚本,放到你电脑...

发表了文章 • 2017-03-15 09:57 • 0 条评论

0
推荐
1995
阅读

[转]wxpy: 用 Python 玩微信

用来干啥一些常见的场景控制路由器、智能家居等具有开放接口的玩意儿跑脚本时自动把日志发送到你的微信加群主为好友,自动拉进群中充当各种信息查询转发消息逗人玩总而言之,可用来实现各种微信个人号的自动化操作#轻松安装 使用 Python 3.x pip3 install -U wxpy #导入模块 from wxpy import * # 初始化机器人,扫码登...

发表了文章 • 2017-03-15 09:55 • 0 条评论

0
推荐
1550
阅读

爬取一BBS论坛所有帖子名

爬取中国政法大学的 法大BBS,之前的IP被封掉了。今天我改了下代码,加入了休息时间,降低访问的频率。首先要爬该BBS里所有的标题,那么首先应该知道是哪个版块的,版块的链接是什么,这些链接的特点有什么规律吗,还有保存起来。打开浏览器,按住F12键,查看DOM节点,发现版块名,链接都是处于“dt”标签中,而且查看...

发表了文章 • 2017-03-15 09:47 • 0 条评论

0
推荐
1660
阅读

RoboBrowser:轻量级爬虫、自动化测试库

这句话是RoboBrowser官方给出的简短介绍,意思“爬东西就跟去邻居串门一样,特别简单友好”简单来说robobrowser是一个浏览器,没有界面的浏览器(Selenium也是一个浏览器,不过运行时你会看到电脑界面上启动了一个浏览器)。它调用了python的requests和Beautifulsoup库,如果你之前用过这两个库(写爬虫居家生活必备的库,...

发表了文章 • 2017-03-15 09:39 • 0 条评论

0
推荐
1609
阅读

[转]如何在ubuntu上安装pycharm

Method 1: Install PyCharm in Ubuntu using umakeUbuntu provide a wonderful command line tool, umake for developers. umake lets you easily install a number of development tools in Ubuntu such as Android Studio, Visual Studio Code, Ubuntu SDK, Eclipse, Arudino Software Distribution etc. PyCharm is a...

发表了文章 • 2017-03-15 09:37 • 0 条评论