缘由 我们有一个产品牵扯到核查数据,在核查数据过程中会发现有一些违规网站,这一些违规网站我们要进行截图保留证据。如果是人工截图就非常麻烦,需要截图之后上传到系统,增加了大家的工作量,我们就想着试着程序自动化截图解决方案 由于我们爬虫都使用的python selenium 调用的chrome无头浏览器,所以我们依然选择了selenium调用chrome进行截图。截图核心代码如下,非常简单###核心代码如下
driver.get( url )
#初始化一个屏幕大小
driver.set_window_size(1400, 900)
##通过脚本获取页面宽和高,设置窗口大小
width = driver.execute_script("return document.documentElement.scrollWidth"
缘由 目前由于工作需要,我们需要爬虫(本人严重申明:商业爬虫属于违规行为,请各位技术同事不要有意无意的做违规的事情)获取网页一些东西,但是大家都知道目前有很多网站都是用前后端分离的,使用curl请求是没办法获取到页面信息的,所以我们就基于目前我们相对擅长的技术点选择了 “Selenium”。刚好自己又会一点Python。所以这样我们的技术方案就可以执行下去了。Selenium介绍 Selenium 是支持 web 浏览器自动化的一系列工具和库的综合项目。从我个人浅显的理解:提供了扩展来模拟用户与浏览器的交互。有如下特点支持主流的大部分浏览器:ie、ff、safari、opera、chrome支持多平台:windows、linux、MAC 支持主流语言的操作库:Python、Java、C#、Ruby、Jav
“我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目,并挑选出最受欢迎和最活跃的项目。”1. Scikit-learnwww.github.com/scikit-learn/scikit-learn Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy2.Pylearn2www.github.com/lisa-lab/pylearn2 Pylearn是一个让机器学习研究简单化的基于Theano的库程序。3.NuPICwww.github.com/numenta/nupic NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法