博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python抓取新浪首页的小例子
阅读量:6225 次
发布时间:2019-06-21

本文共 845 字,大约阅读时间需要 2 分钟。

参考

廖雪峰的python教程:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386832653051fd44e44e4f9e4ed08f3e5a5ab550358d000

代码:

1 #!/usr/bin/python 2  3 # import module 4 import socket 5 import io 6  7 # create TCP object 8 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 9 # connect sina10 s.connect(('www.sina.com.cn', 80))11 # send request12 s.send('GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')13 # receive data14 buffer = []15 while True:16     # every time receive 1k data17     d = s.recv(1024)18     if d:19         buffer.append(d)20     else:21         break22 data = ''.join(buffer)23 # close socket24 header, html = data.split('\r\n\r\n', 1)25 print header26 # write receive data to file27 with open('sina.html', 'wb') as f:28     f.write(html)

主要功能是模拟浏览器访问网页服务器,并从网页服务器获取返回信息

转载地址:http://ntyna.baihongyu.com/

你可能感兴趣的文章
Facebook宣布支持在Android上使用Tor访问
查看>>
即便背靠微信,微信企业号累积 2000 万用户也用了近两年时间
查看>>
MuleSoft发布新的Anypoint Platform,用户可操控API
查看>>
牙疼怎么快速止痛,三招解决牙痛立竿见影
查看>>
大数据云计算悄然改变服务器市场格局 英特尔霸主地位受IBM、ARM威胁
查看>>
英利宣布退出欧盟限价限协议
查看>>
深圳运用大数据推动"智慧司法"
查看>>
Windows 10免费升级服务终成历史 说说我们和它的恩怨
查看>>
苹果为何在中国一南一北设两个研发中心?五重考量
查看>>
Three UK遭黑客入侵 600万用户的个人信息存在被窃危险
查看>>
自动驾驶应有传感器冗余
查看>>
超融合产业需要这种“情怀”
查看>>
11-3URLTestDemo实例操作完成URL单元测试
查看>>
使用大数据,就像在沙子里淘金
查看>>
敏捷测试理论以及实践(4)
查看>>
Windows 10新版15058推送:RS2准正式、无水印
查看>>
"勒索病毒"推高国内比特币价格 最高已超17000元
查看>>
一个页面标题和过滤输出的解决方案(上)
查看>>
你得小心BYOD这10个陷阱!
查看>>
CRM系统能给企业带来什么样的价值?
查看>>