仿制一个教程上的嗅百抓取 但是他的正则表达式坑了 我就顺手补上了 大家看着用吧
#-*-coding:utf8-*-
import urllib
import urllib2
import re
page = 1
url = 'http://www.qiushiba...
SLY
7年前 (2016-02-28) 3380℃ 1评论
0喜欢
这两天学习python爬虫刚好引力波被发现,而发现并处理的LIGO组织采用的是python来分析引力波数据,这两天也想琢磨琢磨。
结果是numpy也装了 gwpy也装了 可是最后运行出现缺少glue.lal 真他喵的是日了狗 当然也不是没有办法 ligo组织给了他们一个githu...
SLY
7年前 (2016-02-20) 2839℃ 0评论
1喜欢
学的无聊了 顺便休息一会 代码已经传到github
代码如下
# -*- coding: utf-8 -*-
import sys, urllib, urllib2, json ,re ,random
a, b = raw_input('输入2个数字用逗號间隔:').spl...
SLY
7年前 (2016-02-18) 3368℃ 0评论
1喜欢
学爬虫呢,除了抓取大量数据然后分析出漂亮的可视化报表装逼以外,抓取自己某个关注人的所有微博是一件很棒的事情。如果有工具就可以分析以前ta的关注 爱好 喜怒哀乐,还是蛮有意思的。
这个爬虫实现的功能是:
输入要爬取的微博用户的user_id,获得该用户的所有微博。
文字内容保存到...
SLY
7年前 (2016-02-16) 4313℃ 1评论
1喜欢
温馨提示:python 2.7和3.5两个版本差异还是比较大,对新手而言,选python 2.7版本意味着初学代码简洁一些,但是很多很新的python3特性用不了,选3版本意味着很多网上的教程你复制到自己的编译器上蹦出很多bug 比如print输出比如urllib 很烦。因此个人...
SLY
7年前 (2016-02-14) 2860℃ 0评论
0喜欢
最近自己学习python,想那个网站练练手。
开源中国有个源码是抓取wangpansou的间接抓取百度云资源
修改之处有两个
1.txt.txt的保存地址由linux root改为根目录,否则在windows运行出错
2.更改正则表达式,发现原作者粗浅认为抓取的连接只有一种 ...
SLY
7年前 (2016-02-06) 5083℃ 0评论
0喜欢