缘由 我们有一个产品牵扯到核查数据,在核查数据过程中会发现有一些违规网站,这一些违规网站我们要进行截图保留证据。如果是人工截图就非常麻烦,需要截图之后上传到系统,增加了大家的工作量,我们就想着试着程序自动化截图解决方案 由于我们爬虫都使用的python selenium 调用的chrome无头浏览器,所以我们依然选择了selenium调用chrome进行截图。截图核心代码如下,非常简单###核心代码如下
driver.get( url )
#初始化一个屏幕大小
driver.set_window_size(1400, 900)
##通过脚本获取页面宽和高,设置窗口大小
width = driver.execute_script("return document.documentElement.scrollWidth"
缘由 目前由于工作需要,我们需要爬虫(本人严重申明:商业爬虫属于违规行为,请各位技术同事不要有意无意的做违规的事情)获取网页一些东西,但是大家都知道目前有很多网站都是用前后端分离的,使用curl请求是没办法获取到页面信息的,所以我们就基于目前我们相对擅长的技术点选择了 “Selenium”。刚好自己又会一点Python。所以这样我们的技术方案就可以执行下去了。Selenium介绍 Selenium 是支持 web 浏览器自动化的一系列工具和库的综合项目。从我个人浅显的理解:提供了扩展来模拟用户与浏览器的交互。有如下特点支持主流的大部分浏览器:ie、ff、safari、opera、chrome支持多平台:windows、linux、MAC 支持主流语言的操作库:Python、Java、C#、Ruby、Jav
起源 最近发下很多人在我的python课程下面提问,关于执行python3.7 安装某些扩展有如下报错ModuleNotFoundError: No module named ‘_ctypes’出现原因 Python3中有个内置模块叫ctypes,它是Python3的外部函数库模块,它提供兼容C语言的数据类型,并通过它调用Linux系统下的共享库(Shared library),此模块需要使用CentOS7系统中外部函数库(Foreign function library)的开发链接库(头文件和链接库)。由于在CentOS7系统中没有安装外部函数库(libffi)的开发链接库软件包,所以在安装pip的时候就报了"ModuleNotFoundError:
问题最近使用flask jsonify 进行序列号的过程发现 如果是decimal类型 就会出错,错误如下typeerror object of type 'decimal' is not json serializable jsonify解决方案根据 https://github.com/pallets/flask/issues/835 的解决方案如下pip install simplejson
我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。由伯乐在线持续更新。Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发者的帮助会更大。这也是我们发起这个开源项目的初衷。环境管理管理 Python 版本和环境的工具p:非常简单的交互式 python 版本管理工具。官网pyenv:简单的 Python 版本管理工具。官网Vex:可以在虚拟环境中执行命令。官网virtualenv:创建独立 Python 环境的工具。官网virtualenvwrapper:virtualenv 的一组扩展。官网包管理管理包和依赖的工具。pip:Python 包和依赖关系管理工具。官网pi
本人也是Python爱好者,众所周知,Python扩展多,每次为了测试,安装各种各样的扩展,这样导致本地的Python环境非常混乱,就有人想到搞个隔离环境 和 本地环境没有关系,随时可以删除这个隔离环境,在创建,这就是Python虚拟环境Virtualenv(是不是感觉和虚拟操作系统有点相似 Virtualbox )下面直接上操作步骤安装Virtualenv$ sudo apt-get install python-dev #python开发包
$ wget https://pypi.python.org/packages/source/v/virtualenv/virtualenv-13.1.2.tar.gz#md5=b989598f068d64b32dead530eb25589a
$ tar -xvf virtualenv-13.1.2.tar.gz
$ cd&n
“我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目,并挑选出最受欢迎和最活跃的项目。”1. Scikit-learnwww.github.com/scikit-learn/scikit-learn Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy2.Pylearn2www.github.com/lisa-lab/pylearn2 Pylearn是一个让机器学习研究简单化的基于Theano的库程序。3.NuPICwww.github.com/numenta/nupic NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法