seng的博客

从事BI、大数据、数据分析工作

2
推荐
3166
阅读

《Python网络数据采集》读后总结--第1、2章第一个网络爬虫和HTML解析

前几天看到有介绍《Python网络数据采集》这本书,本来想买的,不过亚马逊上还没看到出货。就找了本英文版的先看了,英文版名字是:Web Scraping with Python这几天先把第一部分(1-2章)看完了,先做一个总结。这2章主要讲第一个网络爬虫和HTML解析。具体内容还是需要去看书,我这里主要提一个内容及示例索引。在序言里...

发表了文章 • 2016-04-03 23:51 • 3 条评论

1
推荐
3902
阅读

转一篇文档 《OBIEE的性能分析:分析影响报表性能的各个因素》

从oracle  community 转过来,我觉得很赞,很多事情都说清楚了,大家先看看,等我有空,把重点的转成中文。OBIEE Performance Analytics: Analysing the Impact of Suboptimal Report Design created by rmoff on Feb 3, 2016 4:51 PM, last modified by Bob Rhubart-Oracle on Mar 30, 2016 2:27 PM ...

发表了文章 • 2016-04-02 23:46 • 0 条评论

3
推荐
2667
阅读

介绍一本书《Python网络数据采集》

最近看到了这本书《Python网络数据采集》,看目录内容不错,使用Python3介绍了做爬虫的各项技能。书中的示例https://github.com/REMitchell/python-scraping英文版网上可以找到,可以看这个的介绍http://forum.memect.com/blog/thread/py-2015-12-27-3874407413550762/我会看一下后,给大家做进一步介绍。

发表了文章 • 2016-03-30 22:56 • 5 条评论

1
推荐
3308
阅读

使用Python Scrapy抓取京东商城上商品评论part3(所有商品所有评论)

到目前为止只是读取一个商品的评论,最终是需要获取所有某个商品的评论。计划使用2个爬虫完成这个功能a.第一个爬虫获取商品所有列表b.修改上个博客提到的如何获取一个商品的评论,增加获取所有商品的评论1.如何定位html页面中的唯一元素前2次的探索有一个问题没解决,怎么定位html页面中的唯一元素,总结了一个查看方法...

发表了文章 • 2016-03-30 15:30 • 1 条评论

2
推荐
4043
阅读

使用Python Scrapy抓取京东商城上商品评论part2(单商品所有评论)

前文介绍了一下,使用Python Scrapy抓取京东商城上商品评论的主要过程,见这个链接,上次还有2个问题还没解决1.多页评论的读取2多商品的读取这次先解决单商品所有评论的问题。0.创建一个测试的spiderscrapy genspider jdcomment01spider club.jd.com scrapy list --查看一下1.一些缺的数据信息探索--人名comment0 = resp...

发表了文章 • 2016-03-27 23:58 • 3 条评论

2
推荐
2408
阅读

参加2016-03-25甲骨文大数据及商业分析创新研讨会有感

今天下午参加了甲骨文大数据及商业分析创新研讨会, 大数据内容说的不多,主要是OBIEE 12c的内容,还有德勤和IBM实施的介绍,还请了华润万家的人来介绍。这次请来的我觉得还是说得不错的,都有点内容。OBIEE 12c看Open World2015的内容就可以了, 不过也有2点新内容,都是蛮实用的功能。1.Data visual analysis要出桌面...

发表了文章 • 2016-03-25 22:07 • 4 条评论

3
推荐
4745
阅读

使用Python Scrapy抓取京东商城上商品评论

最近一直在了解Python方面内容,看到数据小雄博客里说到:利用八爪鱼采集器对京东商城上商品评论采集我就想怎么实现,就尝试了一下Scrapy这个工具Scrapy目前正式发布的版本是1.0.5,不支持Python 3,但1.1版本就可以支持了,这个需要注意下。我使用的环境是1.0.5版,系统运行在是在Ubuntu Desktop 14.04,使用pyenv 2.7.11...

发表了文章 • 2016-03-23 16:57 • 2 条评论

1
推荐
7033
阅读

配置IPython Notebook提供非本地访问

装完IPython Notebook,系统默认只有本机能用,我就在想怎么能够提供一个大家一起访问的环境。查了一下,官方文档上具体的方法,可以看官方文档Running a public notebook server,里面介绍了通过配置SSL+password 提供全局访问,经测试成功。但由于我想指定某些网段访问,目前还没有找到在配置文件(jupyter_notebook_c...

发表了文章 • 2016-03-20 23:18 • 0 条评论

2
推荐
7185
阅读

Ubuntu、CentOS下安装pyenv、IPython( Notebook)和科学计算包的过程总结

前面几次分别介绍了Ubuntu Desktop 14.04下pyenv(包括virtualenv)环境的搭建、IPython环境的搭建,内容见使用pyenv安装多个Python版本IPython和IPython Notebook的安装和简单应用具体的过程由于穿插了错误信息或问题处理过程以及验证内容,安装步骤比较乱,重新总结了一下,同时增加了CentOS6.5下的不同点,共大家参考...

发表了文章 • 2016-03-14 22:51 • 2 条评论

1
推荐
2133
阅读

BIEE 11g访问日志的配置

原文写于我的新浪博客(2014-03-18):http://blog.sina.com.cn/s/blog_76923bd80101jm42.html发现可能有人会用到就转了过来。BIEE可以记录用户访问的查询语句极其使用时间,这对报表的性能分析及问题及早发现很有帮助。BIEE 10g配置Usage Tracking是直接修改 NQSConfig.INI,BIEE11g为了统一控制是在em里面同一修改的,...

发表了文章 • 2016-03-14 22:15 • 0 条评论

3
推荐
6284
阅读

IPython和IPython Notebook的安装和简单应用

IPython是一个python shell的扩展,强调了IPython可交互性和探索性计算 。官网(http://IPython.org/)上的介绍如下The goal of IPython is to create a comprehensive environment for interactive and exploratory computing. To support this goal, IPython has three main components:    An enhanced...

发表了文章 • 2016-03-11 17:59 • 0 条评论

3
推荐
5303
阅读

使用pyenv安装多个Python版本

pyenv是一个便于使用多版本Python环境的工具pyenv使用shell脚本编写的,只需要下载就可以使用了,不需要root用户,这个我比较喜欢。具体介绍看网址:https://github.com/yyuu/pyenv我具体介绍一下安装步骤0.系统准备   我使用Ubuntu Desktop 14.04,    默认git没装,需要安装一下   sudo ...

发表了文章 • 2016-03-08 14:33 • 0 条评论

1
推荐
2369
阅读

Python的virtualenv虚拟环境安装

我的操作系统版本是Ubuntu Desktop 14.04系统自带的python版本是2.7.60.可以考虑先装一些lib, virtualenv用不到,但是pyenv可能用到sudo apt-get install libbz2-dev sudo apt-get install libssl-dev sudo apt-get install libreadline6 libreadline6-dev1.安装pip默认系统没有安装pip,具体安装可以参考https://pip.pyp...

发表了文章 • 2016-03-04 18:02 • 1 条评论

3
推荐
2231
阅读

Seng的Python学习开始了

最近估计会用到Python的内容比较多,以前我只是看过一些,现在在工作上需要使用到更多方面的内容。近期我会将了解的内容记录在Blog上。Python内容参考网站:Python官网https://www.python.org/doc/PyPI - the Python Package Indexhttps://pypi.python.org/pypiMost Popular Python CookBooks on GitHubhttp://www.gibrem...

发表了文章 • 2016-03-04 00:08 • 3 条评论

1
推荐
2432
阅读

2010年前OBIEE101的网站合集

OBIEE101地址是http://obiee101.blogspot.com/, 国内可能不能访问附件是2010年前OBIEE101的网站合集, 内容是BIEE 10g。最近在整理文档,找出来了,虽然这个版本很老了,但是基础东西还是没变,推荐。

发表了文章 • 2016-03-01 18:06 • 3 条评论