大数据业界动态 2016年07月26日 (第十四期)
@(大数据)[投资|技术]
bigdata (https://sens2010.gitbooks.io/bigdata)是一个为国人提供大数据资讯的项目,资讯来源于各大知名互联网门户并进行汇总整理,所有内容均以交流学习为目的,欢迎任何形式建议与意见的反馈[email protected]。
上周潜在90起投融事件,国内投资数量急剧下滑 上周潜在90起投融事件,国内投资数量急剧下滑 上周潜在90起投融事件,国内投资数量急剧下滑
上周潜在收录投融资事件有90起,其中国内38起,国外52起,这是潜在一直以来首次收录国外投资事件数量超过国内。相比较而言,体育、社交、旅游国外上周无投资披露,电商、文化传媒领域较国内资本热度较小,科技、医疗领域较多。
- 国内38起投融事件,主要分布与电商、O2O、科技领域,医疗、汽车领域单笔投资金额较大;资本方面,贝塔斯曼亚洲投资基金投资活跃,国内宝宝树获得30亿元投资为单笔投资最多。
- 国外52起投融事件,集中于科技、金融和医疗领域,其中科技领域55.62亿美元;轮次上看,国外B轮、C轮占比较大,早期投资数量较少;资本方面,SRI Capital投资较活跃;由企业用户社交媒体管理平台Sprinklr获Temasek领投的1.05亿美元F轮融资为最瞩目,国外P2P助学借贷平台CommonBond获3000万美元C轮融资提供一个新思路。
并购或关门,这是今年九成O2O企业的选择题
按照罗兰贝格近期发布的《同城O2O及社区O2O市场研究》,如果只考虑上门服务类的狭义O2O市场(包括餐饮配送、零售宅配、洗衣业、上门美护、家政服务),2015年市场交易规模为83亿元,预计到2020年将达到1213亿元,约为2015年的15倍,年均增长率71%。然而,O2O已经不再是低门槛的创业方向,经历了几年的野蛮生长和去年的资本寒冬,这个领域已经是巨头们的后花园,对于中小玩家来说,市场上升通道已经关闭,在巨头的挤压和运营成本高涨等压力综合作用下,90%以上的O2O将面临并购或倒闭。 主要呈现出以下态势:
- 流量入口被垄断。过去两年,中国涌现了大量的O2O平台,除了公认的市场渗透率比较高的外卖、旅游O2O市场,上门服务、教育、家装、婚庆、休闲娱乐这些垂直行业市场也被热钱快速占领。从PC端到移动端,早期互联网巨头已经在互联网实现了基于流量的垄断,百度依靠搜索入口,腾讯依靠社交入口,阿里依靠电商通道,BAT们的业务基本涵盖了大众需求的各个方面,互联网流量高度集中化。而对于O2O企业们来说,成长期最必要的就是流量的导入,不管技术有多牛,没有流量就一文不值。 塔斯曼亚洲投资基金投资活跃,国内宝宝树获得30亿元投资为单笔投资最多。
- 烧钱模式难以为继。去年的融资状况来看,大量O2O垂直业务被资本所抛弃,烧钱圈地和用补贴来催熟推动市场发展,已经成为一个无底洞,随着各个O2O垂直领域里竞争格局的进一步明朗,资本已经十分清楚,红利期已经结束,赢家通吃将会再现,依靠高额补贴的业务发展并不可持续。除了几个巨头,O2O投资全面遇冷。投资人都更愿意把宝押在更稳妥的投资对象身上,也不愿意再冒险让钱打水漂。
- 市场回归理性。创业市场正在慢慢去泡沫期,理性正在回归。原本在全民创业的浪潮下,被热钱催生的浮躁风气正在慢慢回落。从这段时间互联网行业的招聘数据就能侧面反映出来。最近有媒体报道,爱鲜蜂正在裁员,原因可能和新一轮融资不顺利相关。而最近发布的互联网人才流动数据表明,互联网行业招聘体量大幅下滑,智能硬件、互联网金融、电子商务、O2O等细分领域整体薪酬下降3.5%~10.2%,其中O2O领域首当其冲。从招聘量和待遇上就可以看出目前O2O市场正在回归理性。
硅谷神话被打破,为什么硅谷不适合VR创业了?
一直以来,人们都将硅谷视为互联网和科技领域的创业圣地,这里聚集了全美近三分之一的风投资金,也有苹果、谷歌、英特尔这样科技巨头。但近年来的估值泡沫与大批独角兽的死亡,表明硅谷的创业环境实则已经大不如前了。初创公司Theranos从估值90亿美元到陨落总共只用了6个月时间,线上零售独角兽Fab即便获得了3亿美元的融资,也无法改变被淘汰的命运。除此之外, KiOR、Quirky、Powa Technologies、Rdio等一众烧钱上亿的初创企业也正在渐渐被人们所遗忘。
- 对于VR企业来说,这种情况也同样存在,处在资本热区中的它们正在踩着独木桥过河。硅谷中也有表现亮眼的VR初创企业,比如主攻VR社交的AltspaceVR以及从事360度全景视频的Jaunt VR。
- 不过从整体上来说,西雅图已经慢慢开始成为美国VR产业的中坚力量,Valve、微软、亚马逊都在此设立了总部,而Oculus也在向西雅图转移自己的一部分研发力量。根据数据提供商PitchBook的报告来看,西雅图已经具备了完善的VR基础设施和人才资源,除此之外,很多其它地区也为VR创业提供了良好的温床。
- 从整体情况看VR产业在硅谷前景并不乐观:
- 硅谷并非VR行业人才唯一集中地,而呈现出依依附产业分布的趋势;
- 硅谷的雇佣和生活成本较高,因此导致VR初创企业承担较大资金压力;
- 很多基金已经降低对硅谷企业估值,其他地区的投资机会将更有优势。
搅局者来了, Salesforce 或将以远高于微软的 262 亿美金的价格收购 LinkedIn
一个多月前,微软官方博客就宣布了,微软和LinkedIn公司已经达成了一项最终协议,微软将以每股196美元,合计262亿美元的全现金收购包括 LinkedIn公司的全部股权和净现金。原以为大局已定,但是没有一点点防备,LinkedIn收到了来自 Salesforce CEO Marc Benioff的来信,并声称收购价格远高于微软262亿美金并可能在收购条件上做出一些让步。
- LinkedIn在商务社交中的地位的确首屈一指,但是LinkedIn股价曾在今年 2 月初暴跌逾 40%,市值蒸发近半,并一度造成美股科技风向标纳斯达克综合指数暴跌。在这样的股价环境下,低价高价值的并购怪不得吸引如此多的竞标者。据了解,LinkedIn方面除了与Salesforce微软两家协商,同时感兴趣的买主还包括Google和Facebook以及其他公司。
百度撤回私有化要约,爱奇艺历时163天的MBO计划终止
7月25日晚间,百度董事长兼首席执行官李彦宏和爱奇艺首席执行官龚宇代表买方财团致信百度董事会,宣布撤回今年2月提出的爱奇艺私有化要约。这也意味着此次管理层收购失败,爱奇艺重新回到百度体系内。
- 在买方财团致百度董事会的内部信中显示,买方财团在与三名独立董事组成的特别委员会进行了多轮沟通谈判后,由于在交易结构和购买价格等方面未能达成一致。因此,买方财团决定撤回要约,终止收购百度所持有的全部80.5%爱奇艺股份的计划。
- 爱奇艺MBO计划始于今年2月13日,百度发布公告表示,百度CEO李彦宏和爱奇艺CEO龚宇为代表的财团向百度提议收购爱奇艺,计划收百度所持有的爱奇艺股份。排除现金及负债交易(cash-free and debt-free,即把现金与负债排除在合约之外),该计划对爱奇艺估值28亿美元。
- 百度股东、美国对冲基金Acacia Partners曾发表公开信称,爱奇艺私有化的28亿美元估值过低,要求李彦宏取消收购爱奇艺,并称“百度应该是一家受尊敬的重要企业,而不是获取个人经济利益的套现工具。”面对大股东的质疑,当时百度最新回应,针对爱奇艺的交易,其建立了一个由独立董事组成的特别委员会来进行评估。然而这个委员会还未来得及有更新的进展,这离最初发出私有化要约仅过了163天。
谷歌使用人工智能技术吸引云计算客户
虽然云计算市场增长迅猛,但谷歌目前在该市场的规模却落后于亚马逊和微软等竞争对手。美国市场研究公司Forrester Research估计,亚马逊今年的云计算营收约为108亿美元,微软约为101亿美元,谷歌仅为39亿美元。谷歌正在向商业用户宣传其人工智能软件,希望在利润丰厚的云计算市场追赶竞争对手。
- 谷歌正在加快云计算业务的拓展力度,去年投入约100亿美元建设新的数据中心,还挖来了VMware前CEO丹尼尔·格林(Diane Greene)负责云计算业务。
- 人工智能已经成为谷歌云计算战略的核心。7月23日,Google宣布允许用户使用两款内部人工智能工具软件:提取文本内容并进行语义识别工具和将语音内容转化成文本工具。这两个工具都使用了机器学习技术,计算机可通过之前获取的数据进行合理推断。用户可以使用这些工具分析用户评论或社交网络内容,并自动将客服电话转录成文本,进而进行大规模分析。谷歌的程序还可以翻译文本内容以及易于理解的图片,包括标记色情图片,并通过面部表情识别情绪。
- Forrester Research首席分析师约翰·雷默(John Rymer)表示,谷歌的机器学习“是个好东西,,现在终于以开发者渴望的方式整合进来了。”但他补充道:“这并非独一无二的服务,亚马逊和微软已经遥遥领先。”
现在 Google 制造自己的芯片,Intel 要发疯
Google 在改造了科技界的很多东西之后,又向前迈近一步。为巩固各类在线服务,过去十多年来这家公司为自己的大规模数据中心设计了各种新硬件,包括计算机服务器、网络设备等。随着服务范围和规模达到一个空前的高度,他们需要通过更高效的硬件运行这些服务。Google 在芯片制造方面努力的结果辐射范围已经超越了Google 帝国本身,甚至让芯片行业的未来受到威胁。
- Google 的新芯片叫做 Tensor Processing Unit(张量处理器),即TPU。这是因为这种芯片更适合运行 TensorFlow,正是这个软件引擎驱动着 Google 的深度神经网络,硬件和软件组成的网络可以通过分析海量数据学习如何完成特定任务。
- 与此同时,其他公司,尤其是 Microsoft 也在芯片之路上进行着探索。
- 根据 IDC 研究公司分析师 Shane Rau 所说,全球服务器 CPU 出货总量中有大约 5% 是 Google 购买的。他说在最近一年内,Google购买了大约 120 万块芯片,其中大部分来自 Intel。
DeepMind人工智能技术的第一个商业模式:省电费
两年前,谷歌以 4 亿英镑(以当时的汇率超过 6 亿美元)的出价收购了英国一家小型创业公司DeepMind。自那以后,DeepMind已经征服了Atari视频游戏,并且在围棋上也取得了不可思议的胜利。DeepMind CEO Demis Hassabis 对彭博社表示,DeepMind 最近已经开始将其先进的人工智能技术应用到谷歌的数据中心上,以寻找帮助谷歌降低非常可观的能源费用的方法。
- 今年3月 DeepMind 训练的 AlphaGO 刚在围棋界战胜了九段棋手李世石。如今,它那套深度神经网络又被用来预测 Google 内部120个数据中心和连带冷却风扇的各个时段用电量,然后分配能源。
- 一个月前,谷歌开始将来自 DeepMind 的更专门人工智能工具应用到冷却服务器群上,节省了将近40% 的冷却能源,并将使能源效率优化15%。
- 目前,这个省电的人工智能项目才刚刚开始,DeepMind 没有足够的训练数据。Hassabis 透露,Google 还将在数据中心额外部署一套传感器,加快 AI 系统的学习速度。
谷歌TensorFlow开放生态系统
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,将N维数组或数据流图等复杂数据结构传输至人工智能神经网中进行分析和处理。TensorFlow可被用于语音识别或图像识别等多项机器深度学习领域,它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。
- TensorFlow 表达了高层次的机器学习计算,大幅简化了第一代系统,并且具备更好的灵活性和可延展性。TensorFlow一大亮点是支持异构设备分布式计算,它能够在各个平台上自动运行模型,从电话、单个CPU / GPU到成百上千GPU卡组成的分布式系统。
- TensorFlow支持CNN、RNN和LSTM算法,这都是目前在Image,Speech和NLP最流行的深度神经网络模型。谷歌Magenta项目在TensorFlow基础上研发能够进行艺术和音乐创作的机器学习工具。
- TensorFlow在图像分类的任务中,在100个GPUs和不到65小时的训练时间下,达到了78%的正确率。在激烈的商业竞争中,更快的训练速度是人工智能企业的核心竞争力。而分布式TensorFlow意味着它能够真正大规模进入到人工智能产业中,产生实质的影响。
- TensorFlow负责人表示”将这个系统开源以后,我们可以与大学或者创业公司的研究人员合作,他们给了我们新的想法来改进我们的技术。自从我们做出开源的决定以后,代码运行更快了,能做的事更多了,弹性更强了,也更方便了。“
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,腾讯团队用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共同好友计算。这标志着QQ千亿级别的关系链计算进入了小时级别时代,并具备复杂图模型的快速计算能力。
- 问题描述:共同好友用于刻画用户之间关系紧密程度,例如进行陌生/熟悉分析,亲密度分析,好友推荐、社团划分,属于社交网络分析的基础指标。在计算之初对问题进行简化:只有好友才进行计算;好友关系是有向的;不关注具体好友。腾讯量级为十亿级用户、千亿关系,大致下来一次全Join的代价为640TB,该过程将会耗费两天时间。 经反复对比选择GraphX,由于其发展较快、语义丰富并且门槛较低,可从软硬件两方面进行优化。
- 问题定义:将问题分为两步:第一步,找邻居,与Map-Reduce类似,通过Graphx的aggregateMessages将自己id发送给邻居,各顶点收到所有邻接点id合并成一个List,对新List进行排序,并附着到节点上;第二步,便利所有Triplet对连个好友进行有序扫描与匹配。整个过程仅需要数十行代码。
- 执行优化:由于Graphx切图时使用空间换时间,扩大节点有利于减少复制数量;图计算过程中会进行数据汇集,大内存可有效防止节点膨胀;减少Cache并选择合适分区策略。
- 实验总结:经过反复多次优化,发现运行过程受制于上层算法性能以及RDD Cache触发机制,GraphX自Spark1.3版本后基本无更新,影响计算效率;在实验过程中需要在抽样数据与全量数据之间反复多次切换才能达到最优效果。