大数据 频道
  • HDFS分布式存储中NameNode 和DataNode 有什么区别?

    目前市场中,HDFS分布式存储系统是很热门的讨论话题,各种企业也倾向于搭建分布式存储系统。

    任朝阳 · 2020-09-16 10:250
  • 如何做好一个BI项目的规划和需求定义?

    正所谓磨刀不误砍柴工,一个项目的启动,先得从金字塔顶端做好规划,摸清楚需求、背景、客观条件、可投入资源等。本文,BI项目详解的第一篇,先来谈谈BI项目的规划和需求定义。

    任朝阳 · 2020-09-08 09:390
  • 百分点认知智能实验室:信息抽取在知识图谱构建中的实践与应用

    人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从“万事通”转为“科学家”?

    任朝阳 · 2020-09-07 11:500
  • 传统行业如何建立数据仓库?

    如何实施数仓项目,本文先以传统行业的数仓切入,从整体上讲下数据仓库的实施方法论!

    任朝阳 · 2020-09-03 11:270
  • 哇,ElasticSearch多字段权重排序居然可以这么玩

    读者提问:ES 的权重排序有没有示列,参考参考?刚好之前也稍微接触过,于是写了这篇文章,可以简单参考下。

    任朝阳 · 2020-08-27 18:190
  • 六大关于使用云数据平台的想法

    本篇文章将会介绍云数据平台,分析其价值并分享为何使用云数据平台的想法。

    任朝阳 · 2020-08-24 16:350
  • 百分点大数据技术团队:乘风破浪 海外数据中台项目实践

    响应“一带一路”倡议,百分点自2016年开始开拓海外业务,三年时间,百分点海外团队在非洲某国实施大数据项目并取得阶段性验收。

    任朝阳 · 2020-08-18 17:220
  • 百分点认知智能实验室:疫情情绪识别大赛的亚军是如何炼成的

    为助力疫情防控和疫情之后的经济社会恢复工作,推动北京市政府数据开放,吸纳大数据产业顶尖社会资源,充分释放专业人才智慧资源,北京市经济和信息化局、中国计算机学会大数据专家委员会联合主办科技战疫·大数据公益挑战赛。

    任朝阳 · 2020-07-31 16:080
  • 记一次上千节点Hadoop集群升级过程

    Hadoop Router针对NameNode的failover没有进行重试处理,在主备切换期间,服务报错,整体不可用。Hadoop addBlock 在3.2.1版本的设计思路上会因为机架策略的问题,进行循环处理,导致CPU占用很高,加锁频率很高。

    任朝阳 · 2020-07-24 21:540
  • 百分点大数据技术团队:大屏数据可视化设计与实践

    把相对复杂、抽象的数据通过可视的方式以人们更易理解的图形展示出来的一系列手段叫做数据可视化,

    任朝阳 · 2020-07-22 11:300
  • 新基建时代下的大数据中心变革:创新和开放是发展方向

    当前,云数据库厂商正在借助“新基建”的东风乘势而上,以抓住新时代下的发展机遇。成思敏表示,希望在行业各领域的共同努力下,云数据中心能够成本更低、性能更无界、更安全、更智能。

    卢敏 · 2020-06-11 17:453
  • 从初创到顶级技术公司,都在用哪些数据科学技术栈?

    如果你正在组建一个新的团队、组织或公司的时候,一开始你可能需要效仿某个现成的技术栈,再依据需求来构建自己的技术栈,还需要对一些过时的技术进行升级。

    任朝阳 · 2020-05-13 09:380
  • 如何让企业一方数据助力程序化广告提效?

    本文将盘点现存的由一方数据直接参与的程序化广告投放模式,并结合品牌方的需求和痛点,谈谈这些模式的利与弊。

    任朝阳 · 2020-04-16 14:340
  • 一份关于机器学习“模型再训练”的终极指南

    机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下,我们会希望自己的模型在生产环境中进行预测时,能够像使用训练过程中使用的数据一样,准确地预测未来情况。

    谢涛 · 2019-12-31 17:5217
  • 合理建立Hadoop数据湖的7个步骤

    数据湖的概念起源于大数据的出现——且数据已成为企业的核心资产,Hadoop则是作为存储和管理数据的平台而出现。但是,盲目地投入Hadoop数据湖建设并不一定会使您的企业进入大数据时代——至少不是以一种成功的方式。

    谢涛 · 2019-11-18 17:230
  • 可自动生成代码,5款基于AI的顶级开发工具

    如今,对机器学习潜力感兴趣的程序员都在讨论如何使用人工智能和基于人工智能的软件开发工具构建应用程序。例如PyTorch和TensorFlow之类的解决方案。

    谢涛 · 2019-11-05 16:226
  • 让数据库运行在浏览器里?TiDB + WebAssembly 告诉你答案

    作为一名数据库技术人员,一直以来都有个梦想,希望有一个数据库能够弹性扩展(分布式)到成百上千节点的规模,易于学习和理解,可以运行在私有云,公有云,multi-cloud, kubernetes, 也能够跑在嵌入式设备(比如树莓派)上,更酷的是也能够直接运行在浏览器里,且不需要任何浏览器扩展(Extension),变成口袋数据库,就像那部电影《蚁人》。   今天,这一切都变成了现实: TiDB 可以直接运行在浏览器本地。

    闫志坤 · 2019-11-05 14:430
  • 一篇文章读懂“GAN”——生成式对抗网络

    机器学习是一个不断发展的领域,因此对于很多人来说,时刻跟踪这一领域的最新进展是很难的。GAN(生成式对抗网络)是最近引起广泛关注的新兴领域之一,为了让大家能够更好地跟上技术发展的脚步,我们安排了一个简短的GAN速成文章。

    谢涛 · 2019-10-29 18:010
  • YouTube 的视频推荐是如何实现的?

    最近,谷歌研究人员发表了一篇论文​,并在RecSys 2019(丹麦哥本哈根)的论坛上公布,论文中对他们的视频平台Youtube用户视频推荐方式进行了阐述。在这篇文章中,笔者将试着总结我阅读这篇论文后的发现。

    谢涛 · 2019-10-22 18:0622
  • 关于强化学习你应该知道的三件事

    如果您有在关注科技相关的新闻,可能读过有关人工智能(AI)应用程序如何通过强化学习训练,在围棋、国际象棋等棋类游戏以及电子游戏中击败人类玩家的报道。作为一名工程师、科学家或研究人员,您可能会希望利用这种新的和不断发展的技术。但是该如何开始呢?最好的起点是什么?如何理解它的概念?如何实现强化学习?以及它是不是解决某个问题的正确办法。

    谢涛 · 2019-10-17 16:580