我们专注于使用人工智能技术对文本、影像数据的处理与理解,为用户提升其生产力和决策能力。
互联网数据采集的应用场景非常广泛,一般用于 情报收集、舆情分析、竞争对手分析、学术研究、市场分析、用户口碑监测 ,在数据采集的过程中大多数网站都是以标题,时间,摘要,作者,来源,正文等形式展现,但是会遇到千千万万种不同结构的网页,开发者不可 ......
Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,此后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式 ......
国内大多数公司和开发者对Mongodb和Hbase推崇备至,这是因为MongoDB进入了国内市场并建立了中文社区,而Hbase在阿里的大范围使用和推广下培养了一大批用户和公开材料。Cassandra最近两年在大数据公司Datastax的大力 ......
在大数据时代,数据采集或网络爬虫似乎是每个程序员的必备技能,一般情况下,工程师会通过Python爬虫框架快速的编写出爬虫程序对网页数据抓取,不过在大规模数据采集的时候就不是一个简简单单的爬虫程序了。例如,分布式爬虫系统,在为我们的舆情系统( ......
一、背景描述 目前后端数据引擎系统中 使用了24个节点的 Elasticsearch 集群,存储每天采集1.7亿条上下的数据量,具体的网页原始数据存储在 Cassandra 集群中。一个月下来抓取的数据量超过2T,同时要保证每天450台爬虫 ......
物流行业需要能及时获取并汇集海量物流行业资讯,全面了解物流行业变化,聚合多项指标;包罗快递、设施、园区、全球物流等各方资讯与行业数据。 客户背景 中国邮政系统经过几十年的建设,几乎可以到达国内任何一个角落。下设6.7万多个局所, 有覆盖全国 ......