整理从4月16日到4月30日的新浪微博上有关SAS的资讯资料,这半个月的信息量不大。大家的话题主要集中在这基本方面:
一,几种数据分析软件读入外部数据的性能比较及讨论。
二,SAS画图讨论及网络学习资源
三,相关领域书籍推荐,涉及SAS编程、数据可视化,信息理论,数学八卦等
四,其他杂项
这次很多微博主推荐了一些不错的书籍,值得从事相关业务的朋友读一读,毕竟适当的充充电才能让自己在技术日新月异的年代不被淘汰。
号外:SAS微群http://q.weibo.com/488542已聚集SAS高手若干,大家可以随时提问。
第一部分 数据分析软件读入外部数据的性能分析比较
- //@文彤老师:这个和软件可用的剩余内存缓冲区大小有关,比如先同时打开十个上百M的数据文件,然后再用odbc读入新数据文件的时候就会慢得要死,甚至于会几百条几百条的读入。。。正好是我工作中可能遇到的情况[抓狂] //@探求数据的商业价值:恩,spss利用odbc读取数据库每秒1万条数据左右。//@文彤老师: 今天在用Spss处理一个300多万记录的数据文本 读入超慢 要几分钟 后来发现是因为字符串变量太多太大 导致数据引擎出现瓶颈 后来用Sas试了一下 读入也就几秒钟的事 看来这东西对付百万级别的数据量还是不行呀 框架和技术储备都不过关 我再评估一下 不行就不偷懒了 这部分工作还是换用Sas来完成 [04/27/2011 14:41:42]
- //@张磊IDMer:“更大的数据,SAS和STATA就搞不定了”?呵,are you sure? 我在客户那边用SAS做过大数据量的挖掘测试,一亿条记录,在一台windows server的机器上,4CPU,4G内存,轻松搞定。说到性能,如果SAS都不行的话,另外两个就别更想了。 //@陆嘻嘻陆:主要是因为SPSS临时文件都存硬盘,SAS和STAT//@文彤老师: 今天在用Spss处理一个300多万记录的数据文本 读入超慢 要几分钟 后来发现是因为字符串变量太多太大 导致数据引擎出现瓶颈 后来用Sas试了一下 读入也就几秒钟的事 看来这东西对付百万级别的数据量还是不行呀 框架和技术储备都不过关 我再评估一下 不行就不偷懒了 这部分工作还是换用Sas来完成 [04/27/2011 10:08:34]
- //@张磊IDMer:回复@黠之大者:SPSS的临时文件存在哪里我没注意,SAS的临时文件不可能只存在内存中,虽然它支持你这么做。但在大多项目中,因为数据量太大,而且内存还要被其它软件占掉相当一部分,所以磁盘I/O是不可避免的。 //@陆嘻嘻陆:主要是因为SPSS临时文件都存硬盘,SAS和STATA存在内存上。更大//@文彤老师: 今天在用Spss处理一个300多万记录的数据文本 读入超慢 要几分钟 后来发现是因为字符串变量太多太大 导致数据引擎出现瓶颈 后来用Sas试了一下 读入也就几秒钟的事 看来这东西对付百万级别的数据量还是不行呀 框架和技术储备都不过关 我再评估一下 不行就不偷懒了 这部分工作还是换用Sas来完成 [04/27/2011 10:08:02]
- //@张磊IDMer:回复@下午茶77:坦率的说,我不知道SPSS到底能够支撑在多大的数据量进行分析挖掘,同时还可以保证性能。不过对于SAS,我非常有信心,因为已经在很多项目和测试中得到验证了。 //@下午茶77:SAS和SPSS对大数据量的支持能力差距有这么大吗? //@数据挖掘与数据分析:以前和同事试验过,sas的//@文彤老师: 今天在用Spss处理一个300多万记录的数据文本 读入超慢 要几分钟 后来发现是因为字符串变量太多太大 导致数据引擎出现瓶颈 后来用Sas试了一下 读入也就几秒钟的事 看来这东西对付百万级别的数据量还是不行呀 框架和技术储备都不过关 我再评估一下 不行就不偷懒了 这部分工作还是换用Sas来完成 [04/27/2011 10:07:32]
第二部分 数据可视化及SAS画图
数据可视化之BI仪表盘
- //@刘万祥ExcelPro:仪表盘的设计是结合业务经验和bi技术的综合艺术 //@车品觉:的确是不容易,而且过程是持续性的。 //@业精于勤的Andy:仪表盘的简化是一种功力。//@重晚李琦: 分享:今天, 听@车品觉 教授讲课的收获:1、数字是分析的基础,缺乏数字的分析苍白无力。 2、每个人、公司都该有自己的仪表盘,尽管分析公式多、数据多,但仪表盘却是越简单越好,一看便知道状态是否出了问题。时常看自己的仪表盘,多提醒自己。 [04/19/2011 23:42:03]
数据可视化之数据分析员(非严肃)
- 从新手到骨灰的过程。 //@aqua_tian://@hssnow311://@数据挖掘与数据分析:呵呵 介个有点意思//@小蚊子乐园: 数据分析人员的学习历程:高等数据→概率论→统计学原理→多元统计分析→数据分析工具宝典→数据分析之道→数据分析之禅→颈椎病康复指南。。。。。

- //@刘万祥ExcelPro:康复书还是日版的!强//@王厚东HD: 非专业数据分析师入门必读:《深入浅出数据分析》、《深入浅出EXCEL》、《深入浅出统计学》、《颈椎腰椎康复书》[哈哈] @烨小刀
[04/20/2011 22:38:29]
SAS画图讨论及网络学习资源
- 回复@万强_: 作图仅仅是SAS的一个辅助功能,不是核心功能,所以还是有存在的意义的。 //@万强_:用最适合的工具做最适合的事情。另外编写代码的方式肯定不利于推广,长期来看向图形化的界面操作发展是大趋势,就像现在有几个完全用html语言做网页的。//@sxlion: 学习SAS画图的好出处:这里的SAS画图是指用SAS编程代码的方式来作图。 虽然用SAS作图很辛苦,但是有时为了保持系统性和自动化,不得不用SAS来作图。不过,SAS作图并非儿戏,它也能做出非常专业精美的图形。 下面 http://t.cn/hdBZbA [04/27/2011 21:45:24]
- 回复@宋十月: 配色问题找刘老师,哈哈,当然SAS的颜色功能还有待提升。 //@宋十月:回复@sxlion:谢谢:)总觉得SAS画图的配色不小心就诡异了 //@宋十月:转一个,天天用,不过没怎么用它画过好看的图:) //@刘万祥ExcelPro:回复@sxlion:因为sas太高深,一般人伤不起:)//@sxlion: 学习SAS画图的好出处:这里的SAS画图是指用SAS编程代码的方式来作图。 虽然用SAS作图很辛苦,但是有时为了保持系统性和自动化,不得不用SAS来作图。不过,SAS作图并非儿戏,它也能做出非常专业精美的图形。 下面 http://t.cn/hdBZbA [04/27/2011 19:55:56]
用SAS画南丁格尔玫瑰图问题
- Ok,有动力,有目标了。如果如愿,明年米国见! //@康涅狄格州xieliang:当然可以啦。不过不能只写如何画这个玫瑰图,还要加点比较,作图原则已经应用之类的,参考一下以前的SGF作图文章。 //@sxlion:可以么? 要得! //@康涅狄格州xieliang:赞!建议你把下集补充完整,然后投明年的SGF//@sxlion: 《不等角度扇形的南丁格尔玫瑰图》有朋友看到《 用SAS实现堆积式南丁格尔玫瑰图Nightingale Rose Diagram (上)》,然后就自己改造了一下,因为他要实现的饼图并不是等比例的,不过由于对那段SAS代码理解不深,因此出现了错误。后来我帮忙修正了下代码。http://saslist.com/sxlion/2011/04/28/multi_pie_rose/ [04/30/2011 10:33:20]
- 需要说明一下,下面这个是手绘的,很辛苦的。
- //@刘万祥ExcelPro:非常漂亮,不知作者用什么做的,估计是ai了//@艾瑞Jovi:好图! //@由天宇:为什么比我做的炫酷… //@小雍子:@小蚊子乐园 @刘万祥ExcelPro @由天宇 @教育技术秋记//@一代贱侠小春春: 总表,行不行啊……?
[04/20/2011 22:35:59]
第三部分 关于各领域精品书籍的推荐
SAS书籍
- 看看目前国内的SAS中文书籍介绍: http://t.cn/hdrodO,然后这里有推荐的中英文书籍: http://t.cn/hdrod0 //@认知不协调的学术少年:请问有什么相关的书推荐么?入门级的…嘿嘿//@万强_: @sxlion 必须承认SAS核心功能的强大,我们集团就是用SAS解决了不少生产方面的问题。不过如果做全集团的SAS培训,相信99%的人都会昏睡的。 [04/27/2011 22:14:21]
数据可视化书籍
- //@沈浩老师:Data Visualization 数据可视化是网络的一大特色,希望在SSI《社会网络与传播演讲方法》论坛大家能够分享,也希望这个领域的专家贡献心得!//@SSI学术机构: 【书目推荐】Atlas of Cyberspace 网络空间图集。这是第一本从可视化的角度去展现、探索网络空间的结构的专著。超过了三百张彩图从不同角度包括Email,聊天,通信基础结构去探讨互联网空间。作者Martin Dodge & Rob Kitchin把本书全文放在了网上http://t.cn/hrjiWv。本项目的网站http://t.cn/hrj6ib
[04/15/2011 23:37:57]
信息理论书籍
- //@张磊IDMer:好书推荐给大家看…… //@计算所王斌:这个,暴力汗⊙﹏⊙b汗。。。今天会流汗到虚脱啊。。。 //@笑2又:这书人手一本啊。。我们的研究生课程还是用的王老师的课件呢!//@图灵谢工: #QCON#大会上,很多人对《信息检索导论》赞赏不已。感谢@计算所王斌 老师翻译了本书。王老师是计算机所前瞻研究实验室信息检索课题组组长,这本书的翻译质量广受好评。希望微博上的专家,借你们的慧眼,帮助我们寻找或推荐更多有价值的好书(无论是重新翻译出版经典老书还是国外最新的技术图书)。
[04/15/2011 14:11:51]
数学家的八卦故事书
- 转发微博。//@数学文化: 我最喜欢的一本书(向数学和非数学爱好者以及八卦爱好者推荐):《数学丑闻:光环底下的阴影》。如果你爱八卦甚于爱数学,那本书非常适合你。大众有很多关于数学家的想象,比如认为数学家具有某种神秘超然的品格,不食人间烟火。然而,本书却用21则发生在数学家身上的“丑闻”来告诉你数学家也是人…
[04/21/2011 13:00:17]
第四部分 其他杂项
数据可视化例子
- 图形可视化的又一例子,学习学习 //@小蚊子乐园:转发微博。//@数据挖掘与数据分析: 收图……CIC Infographics“中国互联网的发展现状与格局”这张图表将对全球和中国网民的数量进行比较,回溯中国社会化媒体的发展历史以及互联网用户使用趋势分布,并比较中美用户网络行为的特点,由此呈现中国互联网及社会化媒体的现状与格局。@seeisee
[04/15/2011 23:23:32]
SAS数据挖掘算法之聚类
- //@康涅狄格州xieliang:推荐Jain & Dubes的Algorithms for Clustering Data //@sxlion:总结得不错,好好学习各种聚类方法和SAS实现方式。//@郑来轶: #数据分析#聚类分析主要方法汇总;最近在研究每个算法及SAS实现,回头会有一份文档分享,淡定!!
[04/16/2011 14:34:38]
数据预处理问题
- //@小蚊子乐园:转发微博。//@全国数据分析业协会: 【数据的标准化(normalization)】是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。 [04/28/2011 10:37:39]
新建SAS宏变量的方法
- 给宏变量赋值的几类方法及举例:SAS里面除了变量,还有宏变量,其用途也非常广泛。这几种方法最早有shiyiming总结,翻了翻Rick Aster的Professional SAS Programming Shortcuts – http://t.cn/hdvRsI [04/18/2011 23:14:49]
社交网络公司的CRM
- //@吃桃的猫:SNS的确不可忽视 //@叶兰翔_Larry:// @楼兴兵 :预计将开辟一个很大的crm领域 // @宋西平 :不错 // @楼兴兵 :很有用 // @郭继军_Lancelot :喜欢 // @刘松–甲骨文 :这个图定义不错 // @毛春景 :“”新趋势“” social CRM//@唐兴通: 【Social CRM】未来5年软件行业主旋律在于“社交型CRM”,将SNS功能融入到CRM中,利用social CRM系统为企业建立并维护客户关系,将成为企业发展的新思路。准确把握社交网络的脉搏可以促进变革,提高客户忠诚度,并刺激销售,提高服务质量。社交网站为面向客户人员提供了快速收集这类数据的能力。
[04/17/2011 14:07:51]
Leave a Comment