msgbartop
List for SAS fans and programmer
msgbarbottom

15 5月 11 SAS资讯 from 新浪微博-2011-05-15


整理从5月1日到5月15日的新浪微博上有关SAS和数据分析挖掘的资讯资料。这段时间讨论的话题都非常让人感兴趣,本期的亮点在:1,电子商务公司发展迅猛,很多公司开始招数据分析员,这对广大数据分析人员是好消息;2,一篇SAS评论引起的大讨论 ; 3,有很多漂亮的图表展示,值得一学。

包括下面五部分:

第一部分  最新的消息,如行业发展、招聘、会议、悬赏竞赛,不要错过哦

第二部分  SAS大讨论如行业信息,软件安装,基础知识 和数据挖掘遇到的问题讨论

第三部分 各种漂亮的图表展示形式欣赏  和较差图表的评点—— 当然,这是我个人的观点,大家可以讨论的

第四部分  基础统计分析知识、,数学理论应用和数学文化 —— 基础知识越扎实,以后才能在数据分析道路走能更远

第五部分  微博知识、文化、机遇、商业化杂谈 —— 微博作为一个有前途的新兴事物,看看大家都谈些什么

大家可以加我的新浪微博来同步获得这些信息。

(更多…)

原创文章: ”SAS资讯 from 新浪微博-2011-05-15“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/133


12 5月 11 一篇SAS评论引发的思考 by sxlion


在2009年初,江堂的一篇博文“R与SAS之争:一个导读”描述了国外一家主流媒体纽约时报的一篇报道Data Analysts Captivated by R’s Power引起国外SAS社区和R社区的粉丝们的大讨论。报社记者写报道嘛,肯定会找些社会矛盾点,专业称“焦点”来引起不同人群的注意。为了达到吸引眼球的效果,适当的添油加醋(专业称“润色”)也未尝不可。当然,也不能否定记者的对社会趋势发展的职业敏感性。就这样一场偶然或必然的口水战拉开了。然而,那时并没有引起国内的R粉和SAS粉们注意。

而在2010年4月胡江堂的另一篇在统计之都的博文Think SAS(一)则为了突出SAS,把其他统计软件进行了对比。尽管是客观的对比,不过放在R粉汇集到地方,难免争议。尽管江堂表示了担心,但是还是不可避免地引起广大中文社区的SAS粉和R粉们的罕见的大PK。同为统计分析软件,毕竟R作为后起的免费工具,还是受到很多人的拥护的,并且R作为开源软件允许个人自由发布R包所带来的成就感吸引了很多学院派的亲睐。显然R粉的优越感天然的要强于SAS粉,毕竟大多用盗版SAS的总不如正大光明用R的有底气。

最近(2011年5月)dapangmao在SAS圈子一篇关于SAS软件的评论”SAS, 一个华丽时代的结束(原创by dapangmao)” (经作者同意,转载如下)引起了众多SASor们的讨论,这篇文章很多转载,并且在微博上也很受关注。从正文和众多跟贴来看, SAS软件发展似乎不能跟上目前这个时代快速发展的潮流, 很多SAS粉们纷纷表示出一种担忧, 当然更多的是出于自身职场的考虑。而R粉们则表现出一种旁观的心态,可能缺乏对SAS的了解,更有可能的是他们走的是学术研究的那条学院派道路,和工业界的职场派没有利益冲突。

这次SAS粉们集体唱衰,并不代表SAS处于弱势,只是表达对SAS软件发展较慢而不能有所作为的一种无力感。因为在商业上,纯R无法和SAS较量(在这个时代,个人始终不是团队的对手),即使是可能对SAS造成威胁的R商业版本Revolution, 现在还处于襁褓中,它以后将遇到和SAS同样要面临的商业化所带来的问题。http://saslist.net/

另外,这三篇评论都是SASor作者主导的,说明SAS粉们对SAS软件及公司的思考,也说明SAS粉一般对SAS和R软件都熟悉的。从跟贴看来,R阵营还不够SAS阵营成熟,至少在自我反思方面还不够。面对网络信息的海量暴增和各种新型的商业需求,也许有更新型的数据分析软件来满足数据分析人员的需求。

在这里我们没必要通过比较SAS与R之间的优劣来选择他们中的任意一个,因为这些优劣总是暂时的。因此,我们不如祛噪取精,从正文和回复中了解这两种软件具体在各个细节方面上的长处,以便以后灵活运用。对于数据分析人员来说,他们只是工具的一种。与其花时间犹豫该学那种软件,不如都修炼一番,以便日后业务处理上能够随心所欲,不受工具之困。
 
点击阅读更多 (更多…)

原创文章: ”一篇SAS评论引发的思考 by sxlion“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/128


30 4月 11 SAS资讯 from 新浪微博-2011-04-30


整理从4月16日到4月30日的新浪微博上有关SAS的资讯资料,这半个月的信息量不大。大家的话题主要集中在这基本方面:

一,几种数据分析软件读入外部数据的性能比较及讨论。

二,SAS画图讨论及网络学习资源

三,相关领域书籍推荐,涉及SAS编程、数据可视化,信息理论,数学八卦等

四,其他杂项

这次很多微博主推荐了一些不错的书籍,值得从事相关业务的朋友读一读,毕竟适当的充充电才能让自己在技术日新月异的年代不被淘汰。

号外:SAS微群http://q.weibo.com/488542已聚集SAS高手若干,大家可以随时提问。

(更多…)

原创文章: ”SAS资讯 from 新浪微博-2011-04-30“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/126


27 4月 11 学习SAS画图的好出处


这里的SAS画图是指用SAS编程代码的方式来作图。

虽然用SAS作图很辛苦,但是有时为了保持系统性和自动化,不得不用SAS来作图。当然,SAS作图并非儿戏,它也能做出非常专业精美的图形

下面介绍几个EXCEL作图和SAS画图相关的资源。

之所以学习EXCEL,是为了入门,因为作图设计到颜色搭配、图表类型选择、表达形式和风格,以及怎么匹配不同的场合等等很多问题,本身就是门专业技术活;然后就是怎么将这些图用SAS代码来实现了。

(更多…)

原创文章: ”学习SAS画图的好出处“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/124


18 4月 11 创建SAS宏变量的几类方法及举例


SAS里面除了变量,还有宏变量,其用途也非常广泛。创建宏变量的方法最早有shiyiming总结,翻了翻Rick Aster的Professional SAS Programming Shortcuts – Over 1,000 Ways To Improve Your SAS Programs,发现里面并没有总结这个问题,有点失望。

这里转载并补充姚志勇的SAS书里面的内容,使得更加完整和充实,便于大家以后方便选择使用,一共有四类方法:

(更多…)

原创文章: ”创建SAS宏变量的几类方法及举例“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/122


16 4月 11 保险公司面经 oloolo 2010年3月


昨天的新浪微博上,peachcat提到了保险业的问题:

@sxlion 保险行业的欺诈防范是数据挖掘的重点。@吃桃的猫:保险业发达的美国,当前的保险犯罪仅次于毒品犯罪,1994 年医疗保险中的欺诈就导致美国人寿保险公司估计500 亿美元的损失。国内的保险业在快速成长的过程中也将面临越来越多的欺诈风险,及早防范是上策。”

正如peachcat所说,国内现在保险公司招SASor做欺诈防范的职位很少(但是银行信用卡中心会可以见到需要做欺诈防范的职位),不过按趋势以后会有很多。这里有一份2010年oloolo写的在美国东部一家保险公司面经(应该是亲身经历,哈哈)。最早发表于未名论坛,原文地址:http://www.mitbbs.com/article_t/Statistics/31216595.html

经oloolo同意,在这里转载,为国内以后的SASor面试保险公司类似的职位做个参考:

(更多…)

原创文章: ”保险公司面经 oloolo 2010年3月“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/121


15 4月 11 SAS资讯 from 新浪微博-2011-04-15


下面是从2011年4月1日到4月15日的新浪微博信息,信息果然大,维数很多,需要大家慢慢品读。当然,我会继续努力,把微博信息整理得更加清晰有条理,便于大家阅读。这两个星期,大家的关注点在下面几个部分:

1,会议交流信息:SAS全球论坛会议、国内SASor聚会信息和其他的一些国内会议交流活动

2,数据挖掘实际应用和中文数据挖掘工具,以及对新兴社交媒体数据如BBS、博客、微博等新媒体信息如何分析的讨论;

3,数据可视化的一些应用;

4,其他一些SAS相关话题及产品信息。

详细如下:

(更多…)

原创文章: ”SAS资讯 from 新浪微博-2011-04-15“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/120


03 4月 11 学习和提高SAS编程和应用的好出处——博客资源(2011年扩充版)


本博去年(2010年)9月6日收集了几个有关SAS编程和应用的博客,这里进行扩充,并且增加了微博这种新的博客形式。

博客和微博都是以一种个人发布的形式传播信息。博客传递非常快和信息大;微博则是短和更快。

传统书籍和网页都跟不上步伐,因此这里倾力收集了目前主要是中文或华人的SAS博客,以后会逐渐增加更多英文博客和更全面的相关博客,不断更新, 希望能够满足大家的需求。 (更多…)

原创文章: ”学习和提高SAS编程和应用的好出处——博客资源(2011年扩充版)“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/119


31 3月 11 SAS资讯 from 新浪微博-2011-03-31


微博的信息量好大啊! 两个星期内有很多SAS相关信息,这些信息具有实时性,反应最新,最快的信息。

尽管如此,微博信息量巨大,并且杂而乱,因此这里将定时整理微博上的信息,使之更有条理和清晰,便于大家阅读。

当然,大家也可以加我的新浪微博

 

  1. //@SAS杨旭:回复 @康涅狄格州xieliang:应该是GRID,具体细节没有透露。 //@康涅狄格州xieliang:SAS GRID吧。我们公司正在考虑SAS GRID。如果用混合模型算一个全国市场的SPATIAL ANALYSIS,没GRID根本不行。//@SAS杨旭: 2000个变量,400G的数据,25秒计算完成,SAS进入高铁时代。 [03/31/2011 21:42:10]
  2.  

     

  3. //@ICTCLAS张华平博士:最近有家大的用户单位评测了几家比较火的聚类系统,聚类效果好的速度每秒大约3-5篇,每秒100篇左右的聚类结果没人看得懂;博主比较得意的是,我们的速度能达到1000篇/秒,效果还很好。具体算法有独到的地方,没有采用任何学术常用的方法,创新在于先快速计算出关键的主题词。//@ICTCLAS张华平博士: 下午访问北京市政府某机构,探讨信息公开的挖掘分析,可以用文本聚类的方法提取民众关注的热点。同时,也了解到经常引起误解的环节,比如一些单位的财务需要归并到上级单位公开,并非不公开;三公之类的开销并没有直接对应的财务支出项目。建议政府顺应纳税人的呼声,公开让老百姓能看懂的信息。 [03/30/2011 20:10:03]
  4.  

     

  5. 为什么SAS软件有很多功能没有公布在文档中,即所谓 “undocumented features”,这些features确实好用,很多SASor以熟知此为豪。比如http://sinaurl.cn/hBbGyS,你可以google http://sinaurl.cn/hBbGUL。为什么SAS公司不把它们纳入正式文档呢?点击这里:http://sinaurl.cn/hBbGyK, 看看SAS公司Chris Hemedinger为你解释这些“Undocumented features: there’s a reason they are not documented”。虽然他好像也没完全搞清楚,但是他的意见值得参考。 [03/30/2011 18:17:56]
  6.  

  7. Mark //@刘万祥ExcelPro:记下 //@数据挖掘与数据分析:原来在MR行业的时候记得一线城市一般是400或300,二线是200 //@张艳echozhang:昨天做的调研样本量稍少些,呵呵//@数据挖掘与数据分析: 1、最小的样本量为什么不能小于30?传说是这样的:当样本容量n较小时,t分布的方差大于1;当n增大到大于或等于30时,t分布的方差就趋近于1,t分布也就趋近于标准正态分布。2、为什么调研的样本量最小是384?在允许误差为5%、置信水平为95%的情况下,简单随机抽样需要的样本为384[围观][03/29/2011 23:31:17]
  8.  

  9. 全部都好用。 //@数学文化:回复@善衡科技:看来是统计圈的内行写的 //@善衡科技:除了与James Cooley合作的FFT算法,John W. Tukey还发明了很多著名的统计方法,如Tukey’s Test、Jackknife, Projection Pursuit(与Friedman合作), Explorative Data Analysis,我们现在常用的Box-plot也是Tukey提出的!//@数学文化: 约翰·图克(Tukey),著名统计学家,快速傅立叶变换发展者之一。软件(Software)、比特(bit)两个重要词汇的创造者。他30年代获布朗大学化学学士和硕士,后改读普林斯顿大学数学获博士。73年获得美国国家科学奖,贡献:在数学和统计学理论方面进行了深入的研究,并为统计学在多学科应用做出了突出贡献 [03/29/2011 09:09:51]
  10. 我们都爱傅立叶变换。//@数学文化: 世纪算法之8:快速傅立叶变换。这是我最推崇的算法了。65年,IBM的Cooley和贝尔实验室的Tukey推出了快速傅立叶变换。快速傅立叶算法是离散傅立叶算法(这可是数字信号处理的基石)的一种快速算法,其时间复杂度仅为O(Nlog(N));比时间效率更为重要的是,此快速算法非常容易用硬件实现,因此应用极广泛 [03/28/2011 11:50:16]
  11.  

  12. Assetlink是什么东东? SAS将与Assetlink的领先营销资源管理解决方案合而为一个整合的营销管理平台,使营销人员在计划、创建和优化营销项目时更加容易。SAS收购Assetlink助营销人员更高效开展营销。http://sinaurl.cn/h1uYSG [03/25/2011 19:53:54]
  13.  

  14. 分享自 @微盘 ( http://t.cn/h4wrjF )//@郑来轶: 通过@微盘 分享了一个文件, “SAS链接ORACLE数据库说明文档.PDF”, 欢迎大家下载分享!http://t.cn/h1QVuO [03/24/2011 21:16:55]
  15. //@康涅狄格州xieliang:对数据和业务都懂得才吃香。光懂数据的是一辈子工程师;光懂业务在数据说话的时代会发现越来越不懂业务//@时事周刊: 人民日报刊登重庆市委宣传部长何事忠的言论:重庆实行“唱读讲传”活动以来,干部群众信仰马克思主义的比例比上年提高了15.4个百分点,达到68.5%,比全国同期调查高出26.2个百分点。我用小学生的数学水平计算了一下100-(68.5-26.2),人民日报竟然告诉大家:全国不信仰马克思主义的是57.7%,真的吗? [03/22/2011 11:27:34]
  16.  

  17. //@张栋_机器学习:(3) 我认为社区最核心的不仅仅是 “Rank”, 不像搜索仅仅是在整理无序的海量互联网网页; 我认为社区的其中一个核心是 “传播”, 研究信息如何传播,信息如何更有效地传播 …//@张栋_机器学习: (1) 有人问我 Facebook 的 People Rank 和 Google 的 Page Rank:你可以想象互联网是一张图,每个节点是一个网页,网页和网页的链接是 HyperLink; PageRank 通过这个图 可以算出每个节点(网页)的重要性排序;你也可以想象 Facebook 也是一张图,每个节点是一个人, 人和人的关系是图的边。 [03/22/2011 09:34:35]
  18.  

  19. 标哥说过:“迭代就是力量。”//@数学文化: 有网友问:“现在计算机算矩阵已经实现自动化了,逆矩阵也可以计算机运算了,还有必要迭代吗?” 答案是:绝对要!实际应用中n*n矩阵的阶次n是成千上万的,甚至要几百万几千万;而计算速度和精度一直是工程师和数学家们追求的目标。目前再快的计算机直接算百万阶矩阵的逆无论从精度和速度上都不现实。 [03/22/2011 09:32:58]
  20.  

  21. 真的太老了,现在都是SNS,推特微博了。Ps:FACEBOOK的网络流量超google,里面的数据是个宝藏,但是墙内的人们来说是个遗憾。 //@aqua_tian:这本书讲的如何? 现在缺失新案例…[哈哈] //@SAS中文论坛:实在是土的要死的老掉牙故事,还是帮着转发一下吧。//@SEM在中国: 这是沃尔玛【数据挖掘与分析】经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。[03/21/2011 23:00:59]
  22.  

  23. SAS是很好数据挖掘工具,哈哈 //@张栋_机器学习:金融就是数据! 互联网就是数据!机器学习就是数据挖掘机!//@i美股: 《创业家》:谁是金融数据王? http://sinaurl.cn/htYmL5 万得资讯作为金融信息产业链条上获得授权的信息服务商,如果想获取高昂利润,要做两件事:第一,尽可能降低信息获取成本;第二,尽可能通过各种手段将信息二次加工,更好地服务用户,甚至让用户离不开它,贩卖出高价。 [03/21/2011 20:45:07]
  24.  

  25. 这个函数很少有人能够想到,但是需要用的时候,感觉非常好。//@SAS中文论坛: 在SAS中用choosen()函数简化多条件if语句判断 if i=1 then j=2; else if i=2 then j=8; else if i=3 then j=13; ……. data ex; input i ; j=choosen(i,2,8,13,14,40,45,80,100,1); cards; 1 8 5 1 6 8 ; run; proc print;run; http://sinaurl.cn/hGMnoU [03/20/2011 21:24:23]
  26.  

  27. 中国的SASor也可以去美国参加SAS group全球论坛里,见胡江堂的博客记录:http://sinaurl.cn/IDXAV6,希望以后能继续看到他的美国之行的感想。他提交的paper见:Work Smarter Rather than Harder-Tools for Growing up A SAS® Programmerhttp://sinaurl.cn/ID66Cr,学习下,然后想想自己可以参加吗 ? [03/19/2011 23:13:10]
  28.  

  29. //@波波头一头:或许你刚关注过前段时间的推荐系统高峰论坛并且跃跃欲试,或许你每个周末都要收看非诚勿扰并且忍不住想去点个鸳鸯谱,也或许你已经对传说中的Netflix大奖欣羡多时可惜迟迟没有行动,不管怎样,现在可以把你的才华展示出来了,小小一些努力,真的可能改变世界。//@统计之都: #第一届大学生数据挖掘邀请赛#已经开放注册,竞赛主页已发布:http://sinaurl.cn/IDMiYN 请帮忙广而告之 [03/18/2011 20:28:35]
  30.  

  31. 很炫,精彩 ! BI展示的时尚感好强啊。//@张磊IDMer: //@张磊IDMer :SAS的Mobile BI,支持在iphone、ipad、Andriod、Blackberry等移动终端上使用各种商业智能和分析的成果。而根据Gartner的报告,到2013年,1/3的BI应用会在移动终端上使用。下面是SAS Mobile BI的一些界面展示:[原微博] [原文地址:http://sinaurl.cn/htoB70 ] [03/18/2011 14:06:15]
  32.  

  33. 做BI看仪表盘啊。 //@犇仔犇:ipad我能理解,可在iphone里面用SAS作甚啊?看个report还是做个挖掘?//@SAS中文论坛: //@sxlion :以后可以在iphone和ipad里面运行SAS了 [good] 据Infoworld报道,SAS表示,将联合移动BI供应商Mellmo公司把分析应用程序植入iPhone和iPad。该项合作将进一步促使苹果公司和企业软件供应商之间的合作,特别是BI供应商。。。http://sinaurl.cn/htBrfX [原文地址:http://sinaurl.cn/hGGGFv ] [03/18/2011 12:31:05]
  34.  

  35. //@小蚊子乐园:高级分析方法不一定是最好,能有效能够解决问题才是最好//@数据挖掘与数据分析: 1、许多分析方法对数据的要求很高,如样本分布不符合要求,样本量不足、数据格式等都会导致结果偏差甚至是完全错误;2、可使用不同的研究方法对同一问题进行解释,来互相验证结论;3、结果使用通俗易懂的语言或图表进行描述;4、高级分析方法不一定是最好,能有效能够解决问题才是最好;5、洞察力![03/17/2011 22:48:52]
  36. 感觉最近数据分析越来越火了,一些传统行业和新兴行业都开始招聘相关的人才了。//@aqua_tian:[哈哈] //这么快..//@SAS中文论坛: 扬讯科技专做第三方手机软件应用的一家公司,目前正在招一名数据分析与挖掘相关的牛人 www.me-tech.com.cn 主要是基于手机应用软件(目前好像是非智能机,逐步在做智能机的应用软件)的用户行为分析以及产品开拓推广方面的,有点像app store的性质 http://sinaurl.cn/htaYbI [03/17/2011 22:24:54]
  37.  

  38. 给力的招聘啊,哈哈 //@shiyiming:转//@SAS中文论坛: 招聘 Marketing Analysis Manager, Customer Lifecycle Value http://sinaurl.cn/htXOkb [03/17/2011 22:19:32]
  39.  

  40. //@小蚊子乐园:支持,好丰厚的奖励呀!//@统计之都: 首届全国大学生数据挖掘邀请赛 (http://sinaurl.cn/hcwSu9),一等奖10000奖金,挑战自我,实战应用;快来试试身手吧~ [03/17/2011 09:20:43]
  41.  

  42. //@沈浩老师:转发//@数学文化: 第一届诺贝尔经济奖奖给计量经济学(econometrics)的创始人弗里希和丁伯根.奖励他们“把经济学发展成为用数学来描述、用计量来决定的科学的先驱者.借助于成熟的理论和统计分析,创立了经济政策和计划的理论基础”。弗里希不仅提出计量经济学的概念,还创办了计量经济学会和《计量经济学》杂志。[03/16/2011 12:20:01]
  43.  

  44. 挺风趣好玩的,把BI的概念拍成这样,时尚易懂。 //@康涅狄格州xieliang:回复@车品觉: BI的任务就是大规模深入分析高维数据,建立起可解释,可执行的客户行为模型,再帮助业务伙伴有针对性地设计细化的营销策略和客服系统,为高层提供战略性的建议//@康涅狄格州xieliang:回复@车品觉: BI的任务就是大规模深入分析高维数据,建立起可解释,可执行的客户行为模型,再帮助业务伙伴有针对性地设计细化的营销策略和客服系统,为高层提供战略性的建议 //@车品觉:支付宝BI 欢迎各路数据爱好者加入, Join the Winning Team。有兴趣者私信我。//@支付宝: 【Q到爆[欢欢] 支付宝数据视频】不看后悔死你~~ 广告要都拍成这样,播30分钟都愿意看 支付宝数据视频 [03/16/2011 09:39:34]
  45.  

原创文章: ”SAS资讯 from 新浪微博-2011-03-31“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/106


28 3月 11 SAS公司面经一个失败一个成功


“去年年底10月份,这里汇集了一份有关SAS工作的招聘列表,全部真实有效,其中有SAS公司招人。下面在是网上的一份面经和建议,与大家分享。……..”

不好意思,由于原作者要求低调处理,故暂时删掉原来那篇。不过这里奉送一份失败的SAS求职面经和一份成功的SAS实习面经。

(更多…)

原创文章: ”SAS公司面经一个失败一个成功“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/103