SAS资源资讯网年度评点 2012年
为了让更多的人了解SAS,我先简单地介绍下SAS。SAS软件是目前国际上标准的统计分析软件,是1976年成立的美国SAS公司(研究所)的产品。SAS公司是全球最大的软件公司之一,是私人公司,经常被评为全美最受欢迎的公司。SAS软件主要是靠SAS语言驱动完成数据分析和管理工作的。SAS语言是一门基于C语言(优化过的)的高级编程语言,其本身是一门小群体语言,关注的人群较少。而在中国,知道和学习SAS语言的不太多,精通SAS语言的人则更少。
前天(2012年1月13日)SAS杨旭(SAS公司员工)发布了一条微博:“经过努力,SAS公司的老大们原则上将对中国高校提供免费正版SAS软件,目前正在考虑提供的软件是EG,EM和JMP。至于软件的提供方式,目前还没确定下来,请大家耐心等候啊。”。其实在2010年4 月就有消息说SAS公司将在2011年秋季免费给大学生提供SAS软件,不过到现在还没有看到实施的细则,也就是说现在都2012年了,还没被执行,我们真的需要“耐心等待”。
图1 ,1976-2010年SAS公司营收曲线
(图片数据来源于SAS公司官方网站,数据为2012年1月更新。)
导读: 与其说是统计学习那些事,不如说是非统计专业博士毕业的那些事。这篇文章不光内容比较好玩,可读性强,还有很大的参考价值,因此推荐广大SASor读一读,在以后的工作和科研中会用得到的。
香港科技大学 电子与计算机工程系 eeyang
在港科大拿到 PhD,做的是 Bioinformatics 方面的东西。Bioinformatics 这个领域很乱,从业者水平参差不齐,但随着相关技术(比如 Microarray, Genotyping)的进步,这个领域一直风风光光。 因为我本科是学计算机电子技术方面的,对这些技术本身并没有多大的兴趣,支持我一路走过来的一个重要原因是我感受到统计学习(Statistical learning)的魅力。正如本科时代看过的一本网络小说《悟空传》所写的:“你不觉得天边的晚霞很美吗?只有看着她,我才能坚持向西走。”
离校前闲来无事,觉得应该把自己的一些感受写下来,和更多的爱好者分享。
先介绍一下我是如何发现这个领域的。我本科学自动化,大四时接触到一点智能控制的东西,比如模糊系统,神经网络。研究生阶段除了做点小硬件和小软件,主要的时间花在研究模糊系统上。一个偶然的机会,发现了王立新老师的《模糊系统与模糊控制教材》。我至今依然认为这是有关模糊系统的最好的书,逻辑性非常强。它解答了我当年的很多困惑,然而真正令我心潮澎湃的是这本书的序言,读起来有一种“飞”的感觉。后来我终于有机会来到港科大,成为立新老师的 PhD 学生,时长一年半(因为立新老师离开港科大投身产业界了)。立新老师对我的指导很少,总结起来可能就一句话:“你应该去看一下Breiman 和 Friedman 的文章。”立新老师在我心目中的位置是高高在上的,于是我就忠实地执行了他的话。那一年半的时间里,我几乎把他们的文章看了好几遍。开始不怎么懂,后来才慢慢懂了,甚至有些痴迷。于是,我把与他们经常合作的一些学者的大部分文章也拿来看了,当时很傻很天真,就是瞎看,后来才知道他们的鼎鼎大名,Hastie, Tibshirani, Efron等。文章看得差不多了,就反复看他们的那本书“The Elements of Statistical learning”(以下简称ESL)。说实话,不容易看明白,也没有人指导,我只好把文章和书一起反复看,就这样来来回回折腾。比如为看懂 Efron 的“Least angle regression”,我一个人前前后后折腾了一年时间(个人资质太差)。
当时国内还有人翻译了这本书(2006 年),把名字翻译为“统计学习基础”。我的神啦,这也叫“基础”!还要不要人学啊!难道绝世武功真的要练三五十年?其实正确的翻译应该叫“精要”。在我看来,这本书所记载的是绝世武功的要义,强调的是整体的理解,联系和把握,绝世武功的细节在他们的文章里。
Rick Aster, 也许知道这个名字的人不多,不过,如果说他是《Professional SAS Programming Shortcuts:Over 1,000 ways to improve your SAS programs》(2005年第二版)的作者,恐怕大家都知道了。这本书是本好书,大家都在论坛里面求了很久了都没求到,本博以前有专门文章介绍过。好好看这本书一段时间后,我的感觉是非常全面实用、经典书籍,但是新功能部分介绍不足。05年已经是SAS9.0了,但是对当时的SAS9.0的新功能介绍缺乏,更不用说现在SAS9.1,9.2,9.3版的放出了(Rick后来在个人主页上就这点做出了说明)。
这篇文章的主题就是说说为什么大家求不到这本书?
Rick Aster在linkedin的自我介绍是一名经济学家,在一家银行工作。 其实他写了不止这一本书,从1994年开始起写了很多关于SAS 编程的书籍,包括
今年10月到12年初有四次SASor同城聚会,按时间先后顺序分布在帝都北京,魔都上海,茶都成都,花都广州。
主要是因为大家在网上经常交流,ID之间非常熟悉,但是现实中从未谋面,如果大家能面对面真人兽,交流效果会更好。
国内类似活动不多,北上广等城市断断续续的举行一些小规模的见面和交流会,我曾经参加过一两次,能碰到论坛上熟悉ID的真人版,非常难得,如果时间和地点方便,值得一去,有大牛哦 !!!
目前的不完全安排如下,随时更新,以便大家跟进:
一,广州(取消)
召集人:winslow
时间:2012年1月7日到1月27日的某一天。
地点: 如果有朋友帮忙安排一下,那就更好了。
活动内容:限于圈内交流,不带盈利目的。
可以是经验交流,也可以是统计模型的专题,还可以是银行的信用风险,如PD / EAD / LGD / stress testing 的统计方法。 如果有需要,winslow可以做一两场与CONSUMER CREDIT RISK 相关的统计或SAS的讲座。
参加人员:
数据分析人员的需求
斜率接近无穷大,如果下一步就是拐点了,但是不知道什么时候到(也就是保持时间)。这个时候应该是增长最快的时候,过了拐点,增速将减慢,一直减慢,直到平稳期,即增加等于减少;过了平稳期,就是衰减期,即增加小于减少,总数开始下降。哈哈,我说的是微生物生长模型,有点类似。正处于对数增长期,发展最迅猛的时候,斜率接近于无穷大。 //@卡毛羡慕嫉妒恨:幂函数增长嘛 //@中国数据管理协会:20年积攒的数据终于开始发挥作用了! //@sxlion:前途啊 钱途啊//@刘思喆: 近二十年来数据分析人员的需求变化情况,来自于LinkedIn http://t.cn/adBBI0 [09/22/2011 00:51:43]
据个人多年的SAS学习经历,下面推荐10个SAS程序员必看的中文网站:
1,Google.hk 强悍的技术搜素引擎 http://www.google.com.hk/
2,SAS资源资讯列表 SAS综合信息博客 http://saslist.net/
3,SAS中文论坛 人气SAS论坛 http://mysas.net/forum
4,人大经济论坛 SAS版 人气SAS论坛 http://bbs.pinggu.org/forum-68-1.html
5, (更多…)
导读:本文作者hssnow现为中南大学统计系大四本科生,刚刚结束了在一家国际知名药厂做SAS程序员的实习,下面是他与SAS的故事,与大家分享。一共两篇,本文是第二篇,第一篇是学习篇 。
寻找实习
整个寻找实习的过程算是有点曲折吧。大三下学期想在长沙本地找个SAS相关实习,可后来发现这是有多么的不现实,长沙基本没有用SAS的企业。这样,就只能准备暑期去外面找了,SAS相关的工作机会基本在北上广,我的目标是北京或上海。
中南大学,不太出名,而且地处长沙。一阵搜索网投之后,收到的回复基本是:“我们暂不考虑本科”,“我们目前只考虑本地学生”,“你XX时间过来面试吧,我们暂不提供电话面试”,基本是诸如此类的答复。学校这边的期末考试也没结束,在没有一定可能性的情况下我也真的没办法直接跑去北京或上海,有点郁闷。终于,淘宝那边有个机会,电面了30分钟多,呵呵,最后接到通知,还是相比研究生竞争力不足,不过后来交流,那边也给了我些指导和建议,非常感谢。
而后,求助于jth(胡江堂)有没有什么SAS相关的机会,随后得到消息他们公司Sanofi Pasteur Biometry China(赛诺菲巴斯德—中国生物统计及数据管理中心)那正好有需求,可以给我个机会。然后发了简历,过来几天部门经理(Mr Tian)打来了面试电话。