我们专注于使用人工智能技术对文本、影像数据的处理与理解,为用户提升其生产力和决策能力。
网上能找到被披露的信息中奇虎360公司是国内目前 Cassandra 落地规模最大的公司。 Cassandra 自2010在360开始调研技术落地;2011年使用 Cassandra 0.7.3作为基础版本应用于生产环境;2012年完善数据 ......
Cassandra起源 2007 年 Facebook 为了解决消息收件箱搜索问题( Inbox Search problem)而开始设计 Cassandra 项目。 当时 Facebook 遇到了传统的方法难以解决的超大数据量存储可扩展性 ......
一、背景描述 目前后端数据引擎系统中 使用了24个节点的 Elasticsearch 集群,存储每天采集1.7亿条上下的数据量,具体的网页原始数据存储在 Cassandra 集群中。一个月下来抓取的数据量超过2T,同时要保证每天450台爬虫 ......
我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算、大数据、人工智能、数据中台、数据挖掘、深度学习、java和python的大量实际开发场景案例。 所谓,取之于开源,用之 ......
物流行业需要能及时获取并汇集海量物流行业资讯,全面了解物流行业变化,聚合多项指标;包罗快递、设施、园区、全球物流等各方资讯与行业数据。 客户背景 中国邮政系统经过几十年的建设,几乎可以到达国内任何一个角落。下设6.7万多个局所, 有覆盖全国 ......
上一篇文章我们说到了:大数据开源舆情分析系统-数据采集技术架构浅析 今天跟大家来聊聊我们舆情系统中的数据处理部分是怎么样的工作机制。 简述 舆情系统的数据处理部分我们定义为:数据工厂。 数据工厂,是一套多组件化数据清洗加工及数据存储管理平台 ......
北京大学 https://www.lab.pku.edu.cn 北京大学实验室与设备管理部 北京大学 https://zwb.pku.edu.cn 北京大学总务部 北京大学 http://lab.bjmu.edu.cn 招标采购_北京大学医 ......
爬虫,在很多人眼里很简单、廉价一点都不奇怪,因为网上有大量9.9块Python培训课,其中包含爬虫教学。 爬虫,在多数人眼里是灰色产业,这也不奇怪。中国在2019年出现了很多“大数据”公司,他们采用了爬虫技术窃取用户隐私。 但是,爬虫,一词 ......
为什么要做这个开源项目?开源网络爬虫 做这个开源项目我们主要想解决 两个核心问题 : 网络上有用的数据在哪儿? & 怎么采集有用的数据? 1.有用的数据在哪儿? 互联网和移动互联网的信息量实在是太大了,很多有用的信息都在网上,但不是 ......
舆情系统 中数据采集是一个关键部分,此部分核心技术虽然由爬虫技术框架构建,但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定,特别是抓取大量网站的情况下,每天有大量网站的状态和样式发生变化以后,爬虫程序能快速的反应和维护。 一旦分布式的爬虫 ......