摩根士丹利的“码农”之路
2016-12-12
崔子琦

对于一名本科生,什么是最好的实习?

在我看来,可以将自己所擅长和感兴趣的技能应用到实践中,不断提高;让自己的的想法和灵感生根发芽,甚至落地成为系统或产品;能接触到一手的行业动态,能和一群技能过硬、眼界开阔的人共事;最好还能满足一下中二少年内心深处的理想,为人类社会的进步贡献绵薄之力。能够遇到这样的实习,何其有幸。

我能够获得这样的实习机会,多亏了金融系靠谱的老师和学长。有学长的推荐,我的简历才不至于埋没于HR的邮箱,我得以直接和用人部门的领导说上话,把自己擅长的一点点技能写成代码直接展示给他们,而不是埋在简历满满的套路之中等着HR去发掘。

摩根士丹利华鑫基金是一家典型的公募基金公司,其量化投资部门负责这家公司最出名的“大摩多因子”基金的管理。据传“大摩多因子”前几年战绩骄人,最近却有点力不从心,量化部门似乎想从大数据、文本挖掘这两个当下的风口寻找突破。我的工作,就是和同事一起建立一个以金融新闻、社交语料为主要内容的数据库,并基于此运用文本挖掘的各种手段为模型开发因子。

建立这样一个数据库涉及方方面面的工作。要存储过去数年甚至十几年多个主流媒体的新闻,数据量可达数千万之巨。但由于条件所限,没有高性能大空间的服务器加持,在这样的数据量之下,一个简单的查询都可能耗费数分钟的时间,如何提升程序效率这样一个在我之前的编程经历中几乎没考虑过的问题竟然成了当前项目最大的障碍。

爬虫抓取新闻涉及的网站多,时间跨度广,网站中可能会出现各种奇葩状况。一些国内网站编码混乱、代码不规范的情况时有发生,而一个网站在某个时间点突然换掉了网页样式更是会让整个程序陷入瘫痪,如何让程序自适应并且自动处理浩瀚的互联网世界中难以预料到的各种状况,且在没有人工干预的情况下长时间运行也成了我花费大量精力解决的问题。

开发过程中,类似要解决的问题层出不穷,我渐渐发现,想仗着在课堂上学到的一点花拳绣腿去大千世界中迎战千变万化的敌人注定被打得落花流水。在这样屡战屡败屡败屡战的过程中,自己的武功能够以前所未有的速度成长。和每天都能点亮新技能的快乐相比,挤一挤地铁,少睡几个小时受的罪真的没什么。更何况还能为未来的就业和升学带来加分,这波买卖真的很值。

工作之余,我时常会流露出中二少年的本性,开一开脑洞想想自己写这么多代码更深刻的意义。互联网作为人类有史以来最大的知识库,里边几乎储存了整个人类文明。将这些知识和数据结构化参数化一定是人类发展的必经之路,而我今天所做的一些不正是这伟大工程的一份子吗?

关注我们