Scrapy使用笔记-如何写爬虫脚本进行网页文本挖掘采集需要的数据

因为课题需求,需要从网站上挖掘一些有用的数据以构建模型。网站虽然提供整合的数据库,但每条数据只给了网址链接,自己从中找具体的数据内容。 网页文本挖掘其实并不是什么新鲜事儿,记得高中的时候就尝试通过“寻找规律法”从网页中获取自己想要的数据,当初还用的是Visual Basic。到了大学,学了一段时间的PHP,并没有用此自己做网页,倒是从中学习了如何用PHP采集...

Read More

用于特征选择的F-Score打分及其Python实现

F-Score(非模型评价打分,区别与 F1_score )是一种衡量特征在两类之间分辨能力的方法,通过此方法可以实现最有效的特征选择。最初是由台湾国立大学的Yi-Wei Chen提出的(参考《Combining SVMs with Various Feature Selection Strategies》),公式如下: 其中i代表第i个特征,即每一个特...

Read More

ZSgameV1.0-初试pygame,面向对象的python游戏设计

最近无意中看到http://blog.jobbole.com/46308/ (中文翻译版本) 这是一个pygame“教学”游戏,自己也想试试看游戏的制作,于是边学边做。本游戏暂时取名ZSgame,ZS即Zealseeker的缩写。 游戏的制作基本就是仿照原文章中的方式,连资源都是用它的。贵在学习嘛。唯一的不同是,原游戏的写法是个纯面向过程的写法,比较好理解,...

Read More

Loopback 入门教程-安装与使用

Lookback 已经发展到第四代,此博客的安装方法及使用方法可能已不再适用。1. 安装Strongloop参考 http://loopback.io/ $ npm install -g strongloop 注意:先要安装npm(https://www.npmjs.com/) 以及node.js( https://nodejs.org ) ,安装需要sud...

Read More

读《富足》有感

在湖北一家公司实习,公司有每个员工看彼得·戴曼迪斯的《富足》,虽然我并非真正的员工,不过也好奇拿来看看,总觉得要留下点什么,就写了读后感。网上已经有很多好的书评,写的都很到位,自己也不过是写写随笔。http://book.douban.com/subject/25849758刚看到这个标题的时候,我还以为这是一篇给予正能量,抑或者是指导我们如何才能走向致富的...

Read More

初试创业遇障碍,坚持还是放弃?

整天在实验室里敲打的着键盘,看着文献,时而用软件做做实验似乎略显单调,总想着做一番“伟大”的事情可以改变自己的人生。无论是教育部还是学校都鼓励大学生/研究生进行创新创业,在枯草的生活中我也想通过这样的机会锻炼自己甚至可以以此成就一番事业。 可世事都不可能一帆风顺,我的创业想法刚起步甚至还未踏出第一步,就碰到了壁垒——研究生导师的反对。导师开始是对创业的想法进...

Read More

Python实现入门级遗传算法

关于遗传算法,网上已经有很多相关的入门级介绍了,这里稍微推荐几个: http://blog.csdn.net/v_JULY_v/article/details/6132775,该博主在算法上写了不少博文,讲解的都比较易懂且有一定的深度 http://blog.csdn.net/b2b160/article/details/4680853/,用的例子和上面那个...

Read More

用Python/BeautifulSoup/pyInstall实现股市/基金自定义查看软件制作

最近投资基金,平时会用百度查看某个基金的估值,但是发现每次都要在百度中输入基金代号很麻烦,而且只能看到目前该基金的指数以及涨跌情况,而作为一个小额的投资者,我比较关心的是我买的基金今天赚/亏了多少钱,所以利用Python程序批量获得当前的基金指数,并且经过简单的计算即可知道自己赚/亏了多少。 脚本内容虽然小,但是可以用它练习一下一些常用工具的使用,主要是用B...

Read More

用Jython调用CDK(Chemistry Development Kit)显示分子并高亮子结构

CDK是一个非常优秀的开发工具,几乎综合了化学信息学中所有常用的功能。但是这个工具似乎受众并不是太多,而且教程很少。可能的原因是毕竟它是个开源开发工具,化学工作者们可能对基于这工具的软件产品更有兴趣,因为他们不喜欢开发,喜欢打包的程序。 花了几天的功夫,终于会了几个基本的功能以及概念。在研究的过程中,我也问过别人,有什么方法可以避免沉浸在API中的“方...

Read More

Python 中用List与Dict代替树,由AtomSignature到Smiles的转换脚本

CDK(Chemistry Develop Kit)中有一个功能就是由分子转化成原子信息(AtomSignaure,下文简称AS),其实就是以树的方式描述原子之间的关系。可是这样得到的原子信息没有办法直接利用(至少我不知道有什么软件或者脚本可以实现,网上并没有查到)。于是今天花了一天的时间,自己用手用Python实现了从AS到SMIELS的转换。 想要转换...

Read More

为什么样本方差除以n-1

方差的概念很容易理解,高中时候就已经讲过但是当我们进行抽样调查时,我们老师却告诉我们,公式要变成我们称S为样本方差(有些材料叫修正样本方差)。此时大家一定会有疑惑,为什么要除以n-1而不是n呢?很简单的一点一定可以想到,那就是,由于抽样调查时我们试图用抽样的样本来代替总体,但肯定不完全一样,所以样本方差和总体方差肯定是不同的。不过,由于抽样具有代表性,所以我...

Read More

Jensen-Shannon Divergence (JSD)距离计算方法及其Python实现

Jensen-Shannon Divergence (JSD)是Kullback-Leibler divergence(KLD)的一个变种,转换方式如下: JSD(P||Q) = 1/2*(D(P||M)+D(Q||M)) $$JSD(P\parallel Q)= \frac{1}{2}D(P\parallel M) + \frac{1}{2}D(Q\p...

Read More

Apriori Algorithm介绍及Python实现

如果商店里有5种商品Items = [I1, I2, I3, I4, I5],现在记录了9条商品的购买记录 事件编号 商品列表 事件编号 商品列表 T100 I1, I2, I5 T600 I2, I3 T200 I2, I4 T700 I1, I3 T300 I2, I3 T800 I1, I2, I3, I5 T400 I1, ...

Read More

沉下心来去研究

还有不到两个星期就要开学,进入我的研究生-博士生生涯,我知道这意味着我要痛苦足足五年。许多身边的朋友都很吃惊为什么我会选择要读硕博,上海人普遍觉得,找份工作,找个对象,购房买车结婚生子是最幸福的日子,博士是个让人望而生畏的名字,同龄的小姑娘根本不敢找一个博士生做男友,因为她们等不了五年。我读博士的原因自己也说不清楚,兴许是所波逐流,同寝的6个室友不是读研就是...

Read More

Numpy中关于array的笔记和矩阵排序遇到的问题及其解决方法

笔者比较喜欢python,看到文献中作者作者用R语言以及matlab语言处理数据,便想用Python也同样实现。在翻译过程中,发现R语言在矩阵处理中确实非常方便。当然,R语言能做的,原则上Python也都能完成,况且有Numpy的帮助后,矩阵的一些运算都变得非常轻松。下面是笔者在翻译过程中用到的一些方法,便记录了下来。不过笔者还有一个问题没有找到好的解决方式...

Read More

Apache环境中Biopython-BLAST碰到的问题及解决方案

做药物研发数据库系统网站时,想要添加本地BLAST功能。用biopython中的blast接口(需要本地安装blast+)。由于编辑过windows系统的环境变量,在命令行直接输入“blastp -db xxx -outfmt 5 …”就可以直接输出序列比对结果。biopython实际上就是用了这个命令。我用的是Python环境,Django框架做的网站,在...

Read More

浅谈图与图论

大二参加了个创新项目,才发现原来图还有学问,竟然还有一门课程叫图论。在师兄的推荐下,借了本图论引导大致看看,开始便被那个经典的柯尼斯堡七桥问题所吸引,柯尼斯堡城市中有两个被水完全包围的小岛,该区域一共有七座桥。有人问欧拉能不能从一个起点经过这七座桥各一次后返回到这个起点。一般认为是这个经典的问题产生了图论。 这里的图,和中学时期的几何图是一个概念(Graph...

Read More

开博第一篇,不记下来真的会忘了

虽然好几回告诫自己,白天做的东西要尽可能记下来,否则过一段时间自己会忘的。但是,由于平时主要在“学习”,也就是看论文、学软件、算法等,所以觉得自己实际上做的事情很少,也很散,就懒得记笔记。或者仅仅是按自己的一些想法记点东西,却不系统整理。 日积月累,毕业课题到现在已经2个多月了,数据已收集完毕,网站也做成。不知不觉那些繁琐的事情我都搞定了。本觉得做网站、收集...

Read More