3
推荐
4547
阅读
Python数据科学:全栈技术详解1-个人贷款违约预测模型
Ben,多本数据科学畅销书作家,先后在亚信、德勤、百度等企业从事电信、金融行业数据挖掘工作。配套学习教程:数据科学实战:Python篇 https://edu.hellobi.com/course/270教科书中一般提供了建模使用的宽表,我们学习的是建立一个逻辑回归模型作预测。但是当我们面临许多张原始客户或帐户数据表时,很可能手足无措...
1
推荐
2226
阅读
Python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——数据库设计
作者:AlanLau Python爱好者社区专栏作者简书专栏:https://www.jianshu.com/u/6da6a9668142csdn博客:https://blog.csdn.net/alanconstantinelau在弄任何一个数据之前,肯定是要先设计数据库的。这里打算将《冰与火之歌》(以下称《冰火》)的文本数据先存入到数据库中,后续在使用python读取数据来...
2
推荐
2137
阅读
数据挖掘实战2:利用KMeans聚类进行航空公司客户价值分析
作者:无小意 Python爱好者社区专栏作者个人博客地址:无小意知乎主页:无小意丶公众号: 数据路(shuju_lu)本文代码数据获取方式:关注公众号“Python爱好者社区”,回复:挖掘实战 前文传送门:数据挖掘实战1:利用LM神经网络算法进行电力窃漏电用户自动识别本文是《Python数据分析与挖掘实战》一书...
0
推荐
2369
阅读
数据挖掘实战1:利用LM神经网络算法进行电力窃漏电用户自动识别
作者:无小意 Python爱好者社区专栏作者个人博客地址:无小意知乎主页:无小意丶公众号: 数据路(shuju_lu)本文代码数据获取方式:关注公众号“Python爱好者社区”,回复:挖掘实战本文是《Python数据分析与挖掘实战》一书的实战部分,在整理分析后的复现。本篇文章是本书第六章的实战:电力窃漏电用户自动...
3
推荐
3926
阅读
构建lending club的申请评分卡模型
作者:凌岸 终身学习者@数据分析&数据挖掘^Python爱好者社区专栏作者知乎专栏:https://www.zhihu.com/people/yuan-fang-20-16建模不能脱离商业环境和业务诉求。有时候数学上的最佳答案并不是商业上最佳选择。——范若愚《大数据时代的商业建模》建模之前的几个假设:研究对象未来的行为模式与...
1
推荐
2381
阅读
手把手|20行Python代码教你批量将PDF文件转为Word格式(包教包会)
作者:菜鸟分析个人介绍:一个痴迷于Python语言的业余程序猿,未来的理想是能够与一群痴迷于Python语言的程序猿改变世界知乎专栏: https://zhuanlan.zhihu.com/c_149865214专栏介绍:恋习Python|因痴恋Python而起,因学习Python而聚,与大家一起疯狂练习Python代码在日常工作或学习中,经常会遇到这样的无奈:“小任,你...
0
推荐
1828
阅读
搭建属于自己的代理ip池
作者:sergiojune个人公众号:日常学python专注python爬虫,数据可视化,数据分析,python前端技术前文传送门:今天说说反爬虫与反反爬虫继上一篇说了反爬虫之后,我说今天这篇文章会搭建一个属于自己的代理ip池,所以,为了不食言,就写了这篇文章,那好废话不多说,进入正题目标网站爬取代理ip,这也需要找网页,这就...
2
推荐
1709
阅读
Python也能聊微信
作者:强哥,现供职于一家大型全球电子商务网站,多年Python程序员,热爱数据,热爱AI,希望能与更多同业人交流。个人公众号:Python与数据分析最近研究微信API,发现个非常好用的python库:wxpy。wxpy基于itchat,使用了 Web 微信的通讯协议,实现了微信登录、收发消息、搜索好友、数据统计等功能。这里我们就来介绍一...
3
推荐
1449
阅读
Python模拟登陆 —— 征服验证码 10 知乎(倒立文字验证码)
作者:SeanCheney來源:简书 # 登录知乎,通过保存验证图片方式
import urllib.request
import urllib.parse
import time
import http.cookiejar
webUrl = "https://www.zhihu.com/login/email"#不能写https://www.zhihu.com/#signin因为不支持重定向
webheader = {
# 'Accept': 'text/html, application/xht...
3
推荐
1976
阅读
Python模拟登陆 —— 征服验证码 9 微博weibo.com
作者:SeanCheney來源:简书 抓包分析可以使用Http Analyzer,Filders,但是看起来很复杂,还是使用火狐好(chrome远远没有火狐好用)。首先,在输入用户名后,会进行预登录,网址为:http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=ZW5nbGFuZHNl...
1
推荐
2230
阅读
Python模拟登陆 —— 征服验证码 8 微信网页版
作者:SeanCheney來源:简书 微信网页版使用了UUID含义是通用唯一识别码来保证二维码的唯一性。先用一个伪造的appid获得uuid。params = {
'appid': 'wx782c26e4c19acffb',
'fun': 'new',
'lang': 'zh_CN',
'_': int(time.time()),
}
不伪造的话,会有400错误,拿不到uuid。二...
1
推荐
1676
阅读
Python模拟登陆 —— 征服验证码 7 京东
作者:SeanCheney來源:简书 京东的登录表单设置了许多隐藏字段,如下所示:所以都要获取下来。同样也是输错三次之后出现authcode。验证码import requests
from bs4 import BeautifulSoup
import time
try:
input = raw_input
except:
pass
class JDlogin(object):
def __init__(self,un,pw):
...
0
推荐
2057
阅读
Python模拟登陆 —— 征服验证码 6 126邮箱
作者:SeanCheney链接:https://www.jianshu.com/p/8328a7f33e6f來源:简书登录之后,打印侧边栏。登录界面import requests
import re
# 构造 Request headers
agent = 'Mozilla/5.0 (Windows NT 5.1; rv:33.0) Gecko/20100101 Firefox/33.0'
headers = {
'User-Agent': agent
}
session = requests.session()
...
1
推荐
3634
阅读
Python模拟登陆 —— 征服验证码 5 拉钩
作者:SeanCheney链接:https://www.jianshu.com/p/b6bf0d1385d6來源:简书拉钩使用了动态token,但是在源代码中又写出来了。。。密码采用了md5双重加密登录界面动态tokenimport os
import time
import json
import sys
import subprocess
import requests
import hashlib
from BeautifulSoup import BeautifulSoup
try...
0
推荐
1467
阅读
Python模拟登陆 —— 征服验证码 4 果壳
作者:SeanCheney链接:https://www.jianshu.com/p/bb34f085a5ce來源:简书果壳的特殊之处是有隐藏的随机token令牌,登录界面查看源代码:隐藏的令牌import sys
import os.path
import http.cookiejar
import requests
from bs4 import BeautifulSoup
login_url = ("http://www.guokr.com/sso/"
"?suppre...