Python爱好者社区

公众号:Python爱好者社区;人生苦短,我用Python。分享Python相关的技术文章、工具资源、精选课程、视频教程、热点资讯、学习资料等。每天自动更新和推送。

6
推荐
10870
阅读

《利用Python进行数据分析·第2版》第1章 准备工作

作者:SeanCheney   來源:简书第1章 准备工作第2章 Python语法基础,IPython和Jupyter Notebooks第3章 Python的数据结构、函数和文件第4章 NumPy基础:数组和矢量计算第5章 pandas入门第6章 数据加载、存储与文件格式第7章 数据清洗和准备第8章 数据规整:聚合、合并和重塑第9章 绘图和可视化第10章 数据聚合...

发表了文章 • 2018-02-28 14:08 • 1 条评论

1
推荐
3651
阅读

Python模拟登陆 —— 征服验证码 5 拉钩

作者:SeanCheney链接:https://www.jianshu.com/p/b6bf0d1385d6來源:简书拉钩使用了动态token,但是在源代码中又写出来了。。。密码采用了md5双重加密登录界面动态tokenimport os import time import json import sys import subprocess import requests import hashlib from BeautifulSoup import BeautifulSoup try...

发表了文章 • 2018-02-28 13:51 • 0 条评论

0
推荐
1485
阅读

Python模拟登陆 —— 征服验证码 4 果壳

作者:SeanCheney链接:https://www.jianshu.com/p/bb34f085a5ce來源:简书果壳的特殊之处是有隐藏的随机token令牌,登录界面查看源代码:隐藏的令牌import sys import os.path import http.cookiejar import requests from bs4 import BeautifulSoup login_url = ("http://www.guokr.com/sso/" "?suppre...

发表了文章 • 2018-02-28 13:49 • 0 条评论

0
推荐
1446
阅读

Python模拟登陆 —— 征服验证码 3 CSDN

作者:SeanCheney链接:https://www.jianshu.com/p/703575e11b10來源:简书CSDN使用了spring的webflow<input type="hidden" name="lt" value="LT-58187-6D0O7tpTNBVqzLTbyULoyeLt9fMZd1" /> 这个隐藏参数可以理解成每个需要登录的用户都有一个流水号。只有有了webflow发放的有效的流水号,用户才可以说明是已经进...

发表了文章 • 2018-02-28 13:47 • 0 条评论

2
推荐
1588
阅读

Python模拟登陆 —— 征服验证码 2 B站

作者:SeanCheney链接:https://www.jianshu.com/p/2a2c9df414f1來源:简书B站的登录密码用了rsa加密(两个大质数的乘积很难进行逆向分解,所以可以用这个乘积来做公钥)。所以运行py文件之前,使用镜像,先用pip安装rsa库:pip install rsa -i https://pypi.tuna.tsinghua.edu.cn/simple/ 运行:import requests import...

发表了文章 • 2018-02-28 13:43 • 0 条评论

5
推荐
2231
阅读

Python模拟登陆 —— 征服验证码 1 豆瓣

作者:SeanCheney链接:https://www.jianshu.com/p/8c0d554756e2來源:简书captcha是Completely Automated Public Turing Test to Tell Computers and Humans Apart ,全自动区分计算机和人类的图灵测试)的简称。登陆失败若干次之后,豆瓣登录页面才会出现验证码。所以为了确保py文件运行正确,要先故意输错几次,出现验...

发表了文章 • 2018-02-28 13:42 • 0 条评论

6
推荐
1794
阅读

不会机器学习,你照样可以预测用户流失!

作者:苏格兰折耳喵个人公众号:运营喵是怎样炼成的什么是用户流失率?我们为什么需要关注用户流失率?简单来说,用户流失率是指用户的流失数量与全部使用/消费产品(或服务)用户的数量的比例,是用户流失的定量表述,以及判断用户流失的主要指标,直接反映了产品的市场接受程度如何,以及运营工作的好坏。一般来说,这...

发表了文章 • 2018-02-28 11:07 • 0 条评论

0
推荐
1126
阅读

Python类中的方法是如何工作的

作者:刘志军,6年+Python使用经验, 高级开发工程师,目前在互联网医疗行业从事Web系统构架工作个人公众号:Python之禅(微信ID:vttalk)在OO(面向对象)编程中,类中的方法有多种形式:实例方法、静态方法、类方法、甚至还可以有抽象方法,本文来说说实例方法在Python中是如何工作的,后面再来谈其他方法。先来定义一...

发表了文章 • 2018-02-28 10:09 • 0 条评论

0
推荐
1295
阅读

for循环是怎么工作的

作者:刘志军,6年+Python使用经验, 高级开发工程师,目前在互联网医疗行业从事Web系统构架工作个人公众号:Python之禅(微信ID:vttalk)for...in 是Python程序员使用最多的语句,for 循环用于迭代容器对象中的元素,这些对象可以是列表、元组、字典、集合、文件,甚至可以是自定义类或者函数,例如:作用于列表&...

发表了文章 • 2018-02-28 10:04 • 0 条评论

2
推荐
9808
阅读

kaggle比赛--罗斯曼商店销售预测,xgboost回归

作者:zhaikun   风控建模屌丝一枚,现居于北京个人微信公众号:Python数据分析与评分卡建模本文数据获取:关注Python爱好者社区微信公众号,回复商店。一直做分类模型,很少做回归模型,今天看了kaggle大神的一个代码,然后用我自己理解的方法改进了一下,在这里分享一下思路和部分代码这是1个商店连锁店老板...

发表了文章 • 2018-02-28 09:57 • 0 条评论

3
推荐
1323
阅读

给Python新手的一道面试题:如何正确读写文件

作者:刘志军,6年+Python使用经验, 高级开发工程师,目前在互联网医疗行业从事Web系统构架工作个人公众号:Python之禅(微信ID:vttalk)这是我司前段时间招人笔试中一道比较简单题,面向初中级程序员,不过很少有人能回答完整的,问题本身不难,主要还是考察动手能力和基本代码功,准备找工作的先收藏留着以后用得着...

发表了文章 • 2018-02-28 09:35 • 0 条评论

0
推荐
1870
阅读

Python的Flask框架开发RESTful API

作者:我为峰2014链接:https://www.jianshu.com/p/ed1f819a7b58來源:简书web框架选择Django,流行但是笨重,还麻烦,人生苦短,肯定不选web.py,轻量,但据说作者仙逝无人维护,好吧,先passtornado,据说倡导自己造轮子,虽然是facebook开源的吧,但听到这个,就算了吧flask,轻量,流行,可以自己定义安装flaskpip i...

发表了文章 • 2018-02-27 16:37 • 0 条评论

0
推荐
2171
阅读

Python数据挖掘与分析----Pandas常用知识

作者:我为峰2014链接:https://www.jianshu.com/p/cc6611d0426b來源:简书前言Pandas基于两种数据类型:series与dataframe。一个series是一个一维的数据类型,其中每一个元素都有一个标签。series类似于Numpy中元素带标签的数组。其中,标签可以是数字或者字符串。一个dataframe是一个二维的表结构。Pandas的dataframe...

发表了文章 • 2018-02-27 16:35 • 0 条评论

0
推荐
1646
阅读

Python网络爬虫---scrapy的选择器Xpath

作者:我为峰2014链接:https://www.jianshu.com/p/59ac8a2a19a6來源:简书Xpath简介一般来说,使用id、name、class等属性就能对节点进行定位就能解决绝大部分解析需求,但有时候遇到以下情况,使用Xpath就更方便:没有id、name、class等标签的属性或者文本特征不显著标签嵌套层次太复杂Xpath是XML Path的简介,基于XML...

发表了文章 • 2018-02-27 16:32 • 0 条评论

0
推荐
2012
阅读

Python网络爬虫---scrapy通用爬虫及反爬技巧

作者:我为峰2014链接:https://www.jianshu.com/p/cb24389a0fc0來源:简书一、通用爬虫通用爬虫一般有以下通用特性:爬取大量(一般来说是无限)的网站而不是特定的一些网站。不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的。相反,其会限制爬取的时间及数量。在逻辑上十分简单(相较于具有很多提取规...

发表了文章 • 2018-02-27 16:30 • 0 条评论