Python爬虫环境搭建

#初始化依赖包
sudo apt-get install -y zlib1g-dev libbz2-dev libssl-dev libncurses5-dev libsqlite3-dev libreadline-dev tk-dev libgdbm-dev libdb-dev libpcap-dev xz-utils libexpat1-dev liblzma-dev libffi-dev libc6-dev

#安装python
sudo apt-get install -y python3

#属于第三方库 朋友话筒 不会自带 需要手动安装
pip3 install requests

#这是一个自动化测试工具 可以驱动浏览器执行特定的动作 现版本已经 不支持PhantomJS(无界面式浏览器)
pip3 install selenium

这是一个阻塞式请求的HTTP请求库

pip3 install aiohttp

#lxml是Python的一个解析库支持xml html解析 支持xpath
pip3 install lxml

#Beautiful Soup 是python的一个xml html解析库
pip3 install beautifulsoup4

#安装完成测试Demo
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)

#这是一个网页解析工具
pip3 install pyquery

#这是一个图形验证码的OCR识别库
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

#安装python链接mysql工具
pip3 install pymysql

#python链接MongoDB的工具
pip3 install pymongo

#安装pyhon链接redis数据库的工具
pip3 install redis

#安装RedisDump 用于Redis数据导出 导入 基于Ruby实现

#安装Ruby
sudo apt-get install ruby-full

#安装RedisDump
gem install redis-dump

#验证命令
redis-dump
redis-load

#安装Web库

#Flask 轻量级Web服务程序
pip3 install flask

#Tornado 支持异步的Web框架
pip3 install tornado

#安装app爬去相关库
×××××××安装各种证书××××××××××
#Charles 一个网络抓包工具跨平台 收费 可使用三十天 之后每次试用不超过三十分钟
https://www.charlesproxy.com/latest-release/download.do
https://blog.csdn.net/time_future/article/details/82935375

#mitmproxy一个支持http https 的抓包程序 控制台式的操作
pip3 install mitmproxy

#appium移动端的自动化测试工具
https://pan.baidu.com/s/1jGvAISu#list/path=%2F

#安装爬虫框架

#pyspider 国人 binux编写的强大网络爬虫框架 带webui 脚本编辑器 任务控制器 项目管理器 结果处理器(吹爆)基于javascript 需要安装Phantomjs(以上)
pip3 install pyspider
    #err 报错Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-wz733wu8/pycurl/
       #解决方法安装PyCurl库
            sudo apt-get install libcurl4-gnutls-dev
            sudo apt-get install libghc-gnutls-dev
       #最后通过pip进行安装:
       pip3 install pycurl
    #err 报错ValueError: Invalid configuration:
                  - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
        #解决
        pip uninstall wsgidav
        python -m pip install wsgidav==2.4.1
#Scrapy强大的爬虫框架 依赖的库比较多
    #安装依赖库
    sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
    pip3 install Scrapy
    #验证安装
    scrapy
#Scrapy_Splash 在Scrapy中支持js渲染的工具
    安装过程
    先安装Docker
    然后执行
    docker run -p 8050:8050 scrapinghub/splash
    守护姿态运行 关掉窗口依然运行
    docker run -d -p 8050:8050 scrapinghub/splash
    安装phthon库
    pip3 install scrapy-splash
#scrapy-Redis 分布式扩展模块 实现Scrapy分布式爬虫搭建
    pip3 install scrapy-redis
    //*****注意 这个一定要使用root权限 不然会报一个 “段错误 (核心已转储)”  这个错 第一次见到 哈hahah ******\\
#部署相关库安装
    //分布式爬虫 docker集群
#Scrapyd 是一个部署和运行Scrapy的工具 可以将写好的Scrapy项目上传到云主机
    pip3 install scrapyd
    然后需要配置一个文件 /etc/scrapyd/scrapyd.conf
#Scraprd-Clinent 打包部署
    pip3 install scrapyd-client
#Scrapyd API 对Scraypd的封装
    pip3 install python-scrapyd-api
#Scrapyrt 为scrapy提供了一个调度的http接口
    pip3 install scrapyrt

#Gerapy scrapy分布式管理模块
     pip3 install gerapy

     //**************** 安装环境end *****************
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇