2015/03/19

其他:

晚上看36kr的时候,注册了一个米牛账号,去年7,8月上线,用的思路是微操盘的思路,基本就是借钱炒股,到目前为止已经出借了13亿,最大的一个感慨就是13年中的思考,其实自己很想去做这么一件事的,按道理来说比米牛还要早1年多,这个事情从技术上来看,并不是特别难的事情,业务也不是特别复杂,前面几个入场的人形成口碑就是这个行业的壁垒,归更到底还是执行力不行,做的太慢了;

股票

股票今天收十字星,继续破万亿的交易量,预计明天收小阴线;

其他
事情一定要做到极致,要尽到自己努力,不要自己后悔;

跑python遇到的一些问题:

ImportError: /root/local/python27/lib/python2.7/site-packages/lxml/etree.so: undefined symbol: xmlBufLength
1. 之前好不容易编译好了lxml的环境,然后把服务器和解析全部搭好,今天搭webkit服务器的时候,突然发现之前的编译突然就有问题,一直报etree.so依赖的xmllength找不到,用了ldd去跟踪:
ldd /root/local/python27/lib/python2.7/site-packages/lxml/etree.so

一堆报找不到版本的问题:

/root/liyunfei/webserver/tckit2/lib/libxml2.so.2: no version information available

研究了一下,发现是依赖的库版本不对,这几天搞webkit的时候,把版本库的依赖加到前面去了,而webkit那边依赖的版本更高,就直接挂了,

这件事直接的教训就是做环境第一先看看环境有没有变化;

 

 

 

2015/03/17

股票:

今日大盘继续延续之前走势,以中阳1.55%结束,并放量,非常好的的走势,而且看起来会继续涨,预计明天继续小阳线;

真是忧伤的一塌糊涂,踏空n久,哭的一塌糊涂;

2015/03/16

股票

踏空了400点,怎么感觉和错过了的样子差不多;

今日大盘2个点的阳线,图片矩形区域,放量,实在是有点伤心,卖了30w的空,原因是矩形区域的上端;

淡定;

预计明天小阳线

深度学习

之前做过一些策略应用的事情,所以对一些策略的常识会有所了解,深度学习是最近两年比较火的技术和方法,所以抱着了解的心情去看了看,然而其实到现在也不太了解,但是这个已经拖了比较久的时间了,怕过段时间,忘记的更多,先暂时用我理解的方式去记录一下,将来在这个基础上,如果有之前理解出错的地方,再来重新整理;

机器学习,我所理解的,就是利用计算机强大的计算能力,去模拟人思考的一个过程,举个例子:人怎么判断另外一个人是男是女,无非就是先看看脸,再看看衣服,听听声音,看看走路的姿态,然后综合起来给出一个判断,而实际上,人在看或者听的时候,就是把脸或者衣服等等,拆分成一个个小小的特征(如眼睛颜色、肤色、是否涂了唇膏、衣服的颜色等等),在大脑里进行超快的计算,然后最后得到一个权重,从这个权重可以判断男、女、不知道性别这三个选项,(当然人思考的过程不可能这么简单,很多时候还会有直觉这个选项,但是不管怎么说,先按这种直觉上可以理解的方式来进行好了),机器学习无非就是用计算机来模拟这个过程,将这些特征用数值的方式进行表示,用各种方程来进行拟合,尽可能的拟合出一条和之前各个点距离最近的曲线(线性或者非线性),用这个曲线来代表人判断的一个过程;

因为一般拟合的方法都是几十年前由大牛想出来的,这么多年来也少有人提出更新颖的想法或者改进的方法,这个暂且不去讨论;从而导致影响结果最大的,就是选特征了,所以一般做策略的同学就聚焦在选特征上,导致策略就是一项拼体力的活,一半是标注,一半是选特征;

深度学习在我的理解上,就是解决选特征的事情,他把选特征这个事情交给计算机来做,只要给出最基本的元数据就可以了,计算机利用强大的计算能力,自行将元数据进行各种组合,然后进行自迭代,自行增删特征,最后选出合适的特征,这个过程交给计算机来做,一方面能降低人的工作量,另外一方面之前的选特征主要取决于策略同学的经验或者甚至是灵感,其实只要计算机性能好,穷举是最好的算法。。。然后下一步可以做的,无非就是在这个基础上,引入各种数据结构,剪枝啥的,提升性能

所以这个问题就是在于怎么描述元特征的问题,使得他们方便的进行各种组合,所以之前的深度学习基本上都是采用最经典的东西来进行试验,就是图片,因为规格统一,容易描述,文字类的好像还比较少,比如google的猫,百度内部我所了解的也是在图像上;

更深的算法,就没有看了,应该是低维度的数据抽象成高维度的数据,然后高维度的数据再进行快速计算,反哺给低维度的,将来有空的时候,会用深度学习去做一个项目,做完了应该就全懂了,现在这样效率比较慢。。就不看了

2015/03/13

股票:

大盘收小十字星,涨0.7%,成交量缩量,周线上阳包阴,成交量缩量,还是区间内运动,保持之前观点,矩形区域内运动;

现在收在矩形区域的上部,周线也是二次探顶,2900点妥妥的;

期货:

乱搞又是300刀亏损,真的需要顺势呀;

分析平台架构

数据仓库简介

数据仓库分为三个阶段:首先就是将海量的数据通过清洗、抽取,生成元数据进行存储;然后对元数据进行处理,根据我们的业务需要,生成想要的低级或者高级属性,通过检索系统对外提供查询(实时或者离线);最后进行数据可视化;

这是我所理解的数据仓库的三块内容,基础数据建设、检索端、数据可视化,相对独立,不过一些业务逻辑可能会同时存在于基础数据建设和检索端里面;

比如一个新的业务来了,首先是需求分析可行性和投入产出比;然后看如何去生成我们想要的数据,这些数据可能是来自之前的基础数据,也有可能需要重新统计生成新的数据;生成好数据之后,再根据需求看做实时还是离线,是用文件存储、还是mysql或redis;前端再根据具体业务需求,选择合适的数据展现方式;

数据可视化、检索、数据统计清洗、其他(如生成报表等)

拿查词的pv来做个例子:

1. 首先我们要去选择拿哪份日志做处理,日志拿出来之后,要做反作弊过滤,然后做数据清洗,生成我们想要的字段,如:地域、query、PV,这样会生成一份3个字段的文件,每天、每小时产出一份;

2. 检索端:

2.1 实时查询:

这份文件每天是很大很大的,因为是亿级别的检索量,所以需要做一个KV系统来存储和支持查询,单除了需要支持kv查询,还需要支持分时间段分地域的查询,所以又不是完全的kv查询,而且要保证性能,还需要是分布式的;

2.2 离线查询:

两种查询方式,一种是利用实时查询,另外一种是利用原始数据

2.2.1 方案1:

简单的生产者消费者模式,用户提一个任务,相关的数据信息插入到数据库的任务队列中;线下一个系统,每隔一段时间去查询数据库,更新已经完成的任务列表,同时将没有完成的任务拿下来,和之前没有完成的任务列表合并,开新进程,去做任务,每完成一个任务,更新线下的任务列表;

2.2.2 方案2:

每个任务都启动一个hadoop统计任务,根据需求和对应的日志进行提取和合并,这种方案一般在数据量比较大的情况下会使用;

3. 数据可视化

以前基本上是自己写的,现在用echarts,后端自己写ui去查数据库或者查redis

4. 其他

包括一些生成报表邮件的系统,基本上都在数据统计里面,会生成一些自动发邮件的任务

总结

分析平台我简单的认为就是1.提供最简单的核心数据供分析人员使用,2.提供稍微高级的辅助功能

因为数据分析这个事情的发散性很高,相关的同学也具有一定的编程功底,所以完全自动化的产品我觉得没必要;同时市场上也有挺多自动化的工具,虽然我反对闭门造车,但是具体的数据分析产品我认为需要根据具体的业务运用去做,臃肿或者时效性比较慢的产品,生存下来还是挺难的;

2015/03/12

股票:
今日和昨日计算不符合,大盘在银行的拉动下,涨了1.78个点,不过还是持矩形区域波动的观点,持股的话,可以选之前120日线或者250日线的规则进行选择,按防守的策略进行操作;
预计明日:收十字星,0.5%个点内,但是现在偏矩形区域的上端,待定;

期货:
暂时不论