msgbartop
List for SAS fans and programmer
msgbarbottom

12 1月 14 SAS与R优缺点讨论:从工业界到学界

SAS与R的优缺点讨论:从工业界到学界

翻译 by JosephYX  校对 by sxlion  原文链接

导读:尽管这个话题已经讨论过很多次,但是这个翻译是比较系统的总结了一下两个软件的优缺点,值得一看。PS: 此话题已老,推荐新人看,另见以前一篇SAS评论引发的思考 by sxlion

摘要

尽管在工业界还是被 SAS 所统治,但是 R 在学术界却得到广泛的应用,因为其免费、开源的属性使得用户们可以编写和分享他们自己的应用。然而,许多正在获得数据分析相关学位的学生们由于缺乏 SAS 经验的情况而在找工作的路上困难重重,与此同时,他们要面对从学校熟悉的 R向 SAS 转型的痛苦。理想情况是,你需要知道所有可能的编程语言,工作的时候使用与工作情况最匹配的那个,当然这个基本上是痴人说梦。我们的目的就是展示这两种差异巨大的语言各自优点,并且共同发挥他们的优势,我们同时还要指出那些不使用 SAS 好多年的、现在正在使用 R语言的人们的一些误解和偏见,因为他们已经很少关注 SAS 的发展和进步了。

 前言

我们选取 SAS 和 R 的原因是因为他们是目前在统计领域中最有统治地位的两个编程语言。 现在我们注意到一个不好的现象,就是在学术界重度使用R的用户认为R在被SAS霸占的工业界有具有相当优势的,然而熟练掌握这两个软件对于想在数据分析领域取得小有成就的年轻人来说很关键。教授误解加上对某个软件的偏好往往对学生有着不利的引导,因此需要在这里指出:教授们,别偷懒了,对某种语言的主观偏好将会影响学生的钱途。

SAS经常有一些更新(有点慢,sxlion注),非SAS程序员由于没有技术跟进往往并不知情。SAS绘图模块就是一个快速发展并成长的例子,然而许多人并不注意到这些升级以至于他们仍然固执的使用 R画图。SAS另一个不广为人知的例子是SAS可以轻松自定义函数,这正是 R 的强项。这个SAS过程步(PROC)有全面的语法检查、翔实的文档和技术支持;然而一个新的使用者很可能不知道这些工具可用,或者根本不知道它们的存在。另外,SAS 还拥有卓越的培训课程,网络及用户组分享资源,不同相关主题的大量书籍。知道并合理的使用这些技术以及工具 有助于减少使用 SAS的畏惧之心。

 相关问题讨论

本文就在我们学院碰到的一些共同误解的地方,在此对比列出两种语言的优缺点。当然还有更多的争论在进行中,但是本文汇中我们将选取最为普遍的来进行讨论。我们希望能够消除误解,并且尽可能地为那些不能及时跟进R或SAS的分析人士提供新的信息。

统计方法的新进展

SAS

  • Ÿ  优点:SAS 的软件及算法都是经过检验的,SAS 有技术支持去快速解决用户的需求。 如果需要的话,SAS  会尝试在已存在的步骤中嵌入新的方法,例如增加一个选项或者新增一个语句(statement),因此用户不需要学习另外一个过程步。SAS也 会发布最新通讯来详细说明软件的更新。
  • Ÿ   缺点:更新升级较慢。

R

  • 优点:用户可以快速实施新方法,或者寻找已经存在的软件包。很容易学习和理解新方法,因为学生们可以看到代码中的函数。
  • 缺点:R 文档的更新都是通过用户进行的,所以新的方法并没有被很好调试和检验。 开发者们散布于各地,而并没有在一起来进行团队合作的开发。

在这个问题上,SAS 和 R 的优缺点是互补的。对于 R,有人认为它的代码是开放的,可以看到 R 是如何工作的,这对于拥有相关背景的人是比较容易理解的。然而对于 SAS,它的过程步是预装的,文件中对不同的语句(Statement)及选项( Option) 存储了大量的数学公式。如果用户真的想看到底层程序,这个也是很容易实现的。对两种语言的使用着者来说,不管是学生还是其它用户,只是运行代码的话对于两种语言是没有什么不同的。你运行SAS,不需要知道它在干什么,类似的是,你运行R时,也不需要知道它在后台调用的函数。你所做的就是按章操作而已。

 画图 (更多…)

05 12月 13 SAS DATA步之全解密

SAS DATA步之全解密

Swati Agarwal,OPTUM,Eden Prairie,MN

空谷幽兰  翻译  sxlion 校对  原文链接

译言:SAS DATA步对于SAS入门学习者来说是个难以理解的东西,因为SAS封装了一些过程,这种封装对于有语言基础的人来说反而是一个障碍。本文非常详细的解释了SAS 数据的编译、执行过程,对于了解SAS的基本运行有很大帮助。不管SAS老鸟,新鸟,相信你都会有收获,因为这篇文章是难得的如此系统 !

摘要

每个SAS数据步(SAS Data step,以后写成简写“DATA步”)在整个SAS程序中编译和执行过程中。大量DATA步的处理过程都是非明示的(即隐藏不可见)。例如,尽管程序中没有使用循环控制语句不包含循环,但DATA步都像一个自封装的小程序以一种非明示的循环形式执行。

这篇文章探讨了一些非明示的DATA处理过程怎么控制你的DATA步实际运行的。

需要提前说明的概念:

  •   程序数据向量(Logical Program Data Vector简写成PDV,台湾地区翻译成“程式资料向量”)
  •   SAS自动变量名及其使用
  •   理解data步的内部处理过程
  •   代码编译期间发生的事情
  •   程序执行期间实际发生了什么
  •   如何获取和存储变量属性

你或许在程序中写过大量的DATA步:一些能运行,一些则运行不了。有时候你知道为什么;有时你不知道为什么,甚至你冥思苦想而百思不得其解。如果碰到过这些问题,那么这篇文章很适合你。

Data步设计的非常好,但是有些另类。如果你想写出很漂亮的代码,就很有必要知道DATA步的工作原理。读完这篇文章以后,“哦,哦,… 原来如此!”,一个即使使用SAS多年的老鸟,也会发出这样的感叹。 from http://saslist.net

引言

DATA步是建SAS数据集的主要方法之一。要想成为一个优秀的SAS程序员很有必要理解DATA步的各个环节,主要是因为一些涉及数据处理和创建数据集的任务可能只能通过DATA步才能解决(这些任务不能通过SAS过程步(SAS procedures,以后简写成“SAS过程步”)解决、或者使用SAS过程步太过复杂而难以使用)。

了解DATA步的生命周期非常重要,它分为编译和执行两个阶段。同时学习PDV也非常重要。PDV贯穿SAS的编译和执行两个阶段,而且能决定了信息在DATA步中的存储及变化。

编译阶段包括:

  •   编译SAS语句,包括检查语法
  •  创建一个输入缓存区(input buffer)(如果需要读入原始数据文件)、一个PDV和描述性信息

执行阶段包括:

  •   计算Data步迭代的次数(从Data语句开始)
  •   将PDV中的所有变量设成缺失值并初始化自动变量
  •   读取输入观测(从原始文件或SAS数据集)
  •   执行附加的处理或计算语句
  •  将一条数据记录写入输出数据集并返回到DATA步语句

PDV贯穿编译和执行阶段:

  •  PDV是内存中的一个临时逻辑区域,SAS建立数据集时,每条观察值只有一次机会用到PDV。
  •  包含所有变量的当前值
  •  包含两个自动变量:_N_和_ERROR_

(更多…)

21 6月 13 大数据之核心技术 by SAS刘政

近期SAS公司研发总经理刘政先生在2013年6月14日中美创新系列活动之2013大数据创新峰会所做的演讲,主题为:“大数据之核心技术”  内容精彩、图片惊艳,全文pdf见文后链接。 

 

大数据 SAS公司 核心技术

大数据 SAS公司 核心技术

 

大数据 SAS公司 核心技术

大数据 SAS公司 核心技术

 

大数据 SAS公司 核心技术

大数据 SAS公司 核心技术

(更多…)

30 1月 13 2013评点——怎么才能成为数据分析专家

2013已至,春节将至,本博距上次更新已经有两个月了。一个不成熟的观点一直在酝酿,到现在为止,还不大成熟。不过有些事情,现在不写,以后恐怕就也没有机会写了。

大数据,皇帝新装

这几天,终于可以闲下来了,翻翻了给俺家闺女准备的童话读物——《安徒生童话》,于是重新温故了下小时候读过的《皇帝的新装》。读完感觉:经典就是经典,这个世界有时候就是那么简单的重复着,故事老套,几百年都可以不变,情节都可以一样。 记得2000年左右上大学那会,一句“21世纪,是生物学的世纪” ,害得多少莘莘学子挤破脑袋去抢报生物专业。四年后,要么毕业去卖假药,比如“鳖精”、“红桃k”,“太阳神”等等;要么一条道读到黑——从硕士,博士,圣斗士,到烈士。现在不知多少“受害学子”在追问是谁不负责任的乱说 (注:这里不是埋汰学生物的人,这些都是学生物的同学跟我的吐槽)。类似的“21世纪是XX的世纪”可多了,什么“计算机的世纪”,“互联网的世纪”,“厨师的世纪”,最近还出了个“大数据的时代”。不扯远了, 还是谈谈童话吧, 皇帝爱衣服, 要新装;大臣爱皇帝,要皇帝开心;百姓爱大臣,要维护大臣;骗子爱金子,要卖衣服给皇帝。 于是生意就这么成交了,大家都开心了。本来新装游行都是这么顺利地,成功地进行,也是值得庆祝的。最讨厌的是安徒生, 偏偏安排个小朋友,说了那么一句不和谐的话,搞得这则童话变笑话,一直流传到现在。 想想,大数据,不就是这么回事么。 这个世界需要创新(未考证), 政府们需要业绩(真的), 科学家们需要拿课题(真的),厂家们需要卖硬件/软件(千真万确!!!,看看SAS的HPA和SAP的HANA硬件需求)。就这样,新的一场新装游行开始了,奥巴马的“新能源”不吸引人了,赶紧上新货——“大数据”,哄选民很重要。于是政府点头,科学家们牵头开会, 硬件软件厂商搭台,各方互动开始,大家有兴趣,可以看看我2012年收集的微博资讯——会议信息。 http://saslist.net

务实吧,准专家们! (更多…)

30 11月 12 SAS公司发展史 by 刘政

导读:本文节选自SAS中国公司总经理刘政先生于2012年底受邀到全国各大高校所做的学术报告ppt,这部分介绍SAS公司历史及科技发展史,对SAS公司感兴趣的同学可以看看。

 

 

(更多…)

28 11月 12 SAS高性能数据分析 by 刘政

导读:本文节选自SAS中国公司总经理刘政先生于2012年底受邀到全国各大高校所做的学术报告ppt,报告共分为两个部分:1,SAS公司历史及简介;2,大数据与SAS高性能数据分析。为了突出重点,本站于2012年11月28日选择第2部分发布。

 

(更多…)

14 11月 12 SAS公司历史全知道一

SAS公司历史全知道一

by sxlion 

2011年美国最大的计算机专业杂志PCMAG杂志列出了科技界领袖的专属富豪榜中,SAS公司联合创始人兼CEO James Goodnight(硬翻译成“晚安”) 以69亿美元位居富豪榜第八。 如果不是因为使用SAS软件的原因,我相信大多数人不知道Goodnight这个人,他绝对够低调。另外,他也是美国北卡罗来纳州首富。

在上个世纪,SPSS,BMDP和SAS被称为国际三大统计软件,后来BMDP被 SPSS收购,SPSS今年又被IBM收购。SPSS收了BMDP以后就晾一边,晾没了,如今连域名bmdp.com处于待售状态。SPSS前老板老聂Norman Nie把SPSS卖给IBM后,自己捣腾个做R商业版本的公司Revolution R,看来老聂把BMDP和SPSS整垮了,还不甘心。不过看不出Revolution有什么前途,如今只剩下晚安老头孤独求败了。 from: http://saslist.net

图1.  Goodnight和他收藏的岩石、矿石、化石和陨石

        (更多…)

19 10月 12 SAS资讯 from 新浪微博 – 2012-10-03

SAS资源资讯  第 26 期 微博汇
 
秋天这么美,你还在电脑前面跑SAS吗?
  最新资讯
  1. 转发微博//@中国统计网: 【新闻:IBM宣布收购英国数据分析公司Butterfly】9月25日消息,据国外媒体报道,IBM收购了英国软件公司Butterfly Software。这个收购交易的金融条款没有披露。Butterfly是一家私营数据分析与迁移软件公司,总部位于英格兰的梅登黑德。全文:http://t.cn/zlLf4vv  [09/25/2012 10:52:23]
  2. //@SAS杨旭: 介绍很详细。 //@粄1394:Dremel主要特点:它是一个大规模系统,是MR交互式查询能力不足的补充,其数据模型是嵌套(nested)的,数据是用列式存储的,结合了Web搜索 和并行DBMS的技术。//@yankay: Google Dremel 原理 – 如何能3秒分析1PB http://t.cn/zWEC68v [09/18/2012 21:51:58]
SAS招聘
  1. SASor 招聘//@Kevin猎头: 数据分析师(杭州、上海)1)5~10年数据相关工作的从业经验,至少3年及以上商业智能分析工作的从业经验;2)熟悉#数据挖掘#的常用算法; 3)熟悉常用商业分析工具,如SAS、spss、 matlab;4)熟悉常用报表开发工具,如BO、COGNUS、BIEE等;5)熟悉PL/SQL,了解主流数据库oracle、 mysql;欢迎推荐! [09/26/2012 15:59:07]
  2. SASor 招聘 (更多…)

17 10月 12 SASor界吐槽若干

没事就爱在微博上搜“SAS”关键词,据不完全统计,发现与SAS有关的95%微博都是SASor对SAS的各种吐槽。精选其中一部分,分享各种欢乐 ! SASlist.net

纯文字版

1, 学SAS才发现,智商是硬伤。

点评:我看别人学SAS,也有同样的发现。 by oloolo

 

2,  一天一夜,只为下个SAS。。。  by 寒月里

点评:你值得拥有!  You  deserve it !

 

3,  sas课实在太难,大家都拿着手机对着屏幕拍照,希望能捕捉到老师写的代码,此起彼伏的咔嚓咔嚓声,让我有种置身发布会现场的错觉。 by 暴君小邹

点评:SAS耍的就是大牌。 http://SASlist.net

 

4, 这里是SAS课,台上老师突然问:“现在是2013年对吧?” “…….”  数統的都是些神。 by 朱珣碧是强大的变形金刚微博达人

点评:你的老师肯定是用的盗版软件! http://SASlist.net

 

5, 妹的SAS,我电脑和你有仇!为毛同一个安装文件,同一道程序,就我的不行! 是我太爱你了嘛?!!  by chenyA玲

点评: 论坛月经贴,微博日经贴。 http://SASlist.net

 

配图版 (更多…)

18 9月 12 SAS资讯 from 新浪微博 – 2012-09-03

SAS资源资讯  第 25 期 微博汇
SAS软件将逐步对国内高校免费
别犹豫了,赶紧让你们的系主任申请吧!!!
最新资讯
  1. Big news: 2012年8月,SAS公司对中国部分大学开放免费使用SAS软件,第一批免费使用的高校是北大和人大。出处:http://t.cn/zWj9AMd 目前进展情况是:北大,人大已经安装使用,上财正在申请中。[08/13/2012 00:07:31]
  2. //@innovate511: 不愧是大数据技术霸主//@云计算_行业七彩云://@马伟民_:转发微博//@雷锋网: 【Google Dremel让大数据不再“恐怖”】Hadoop是“大数据”时代的核心,但它需几分钟或几个小时才能执行完任务,而Google新开发的Dremel技术则是专门为即时查询而生,它能同时执行多个查询操作,且时间极短,可以说Dremel的出现让大数据变得“渺小”了起来。http://t.cn/zWnfz1o 也将开辟一个新时代。 [08/26/2012 12:01:56]
  3. 数据分析人员的未来角色。//@数据分析精选: 谷歌的首席经济学家Hal Varian多次强调,下一个十年将出现一类新的专业人才:数据科学家。数据可视化工程师是其中一种,他们既懂得数据分析的科学,又精通构图的艺术,集讲故事的能力和艺术家的特质于一身,是大数据时代的导航员。这样的人才,去哪里找?如何培养? (更多…)