思通数科-技术博客

我们专注于使用人工智能技术对文本、影像数据的处理与理解,为用户提升其生产力和决策能力。

Java&python实现网页内容自动识别与提取技术实现

Java&python实现网页内容自动识别与提取技术实现

互联网数据采集的应用场景非常广泛,一般用于 情报收集、舆情分析、竞争对手分析、学术研究、市场分析、用户口碑监测 ,在数据采集的过程中大多数网站都是以标题,时间,摘要,作者,来源,正文等形式展现,但是会遇到千千万万种不同结构的网页,开发者不可 ......

2022-04-22 16:09
528
0
Cassandra在海量数据存储及大型项目案例介绍-part3

Cassandra在海量数据存储及大型项目案例介绍-part3

国内大多数公司和开发者对Mongodb和Hbase推崇备至,这是因为MongoDB进入了国内市场并建立了中文社区,而Hbase在阿里的大范围使用和推广下培养了一大批用户和公开材料。Cassandra最近两年在大数据公司Datastax的大力 ......

2022-04-16 20:39
249
0
每秒采集几十万数据的大规模分布式爬虫是如何炼成的?

每秒采集几十万数据的大规模分布式爬虫是如何炼成的?

在大数据时代,数据采集或网络爬虫似乎是每个程序员的必备技能,一般情况下,工程师会通过Python爬虫框架快速的编写出爬虫程序对网页数据抓取,不过在大规模数据采集的时候就不是一个简简单单的爬虫程序了。例如,分布式爬虫系统,在为我们的舆情系统( ......

2022-04-16 20:35
421
0
StoneDT开源舆情系统大数据技术栈介绍

StoneDT开源舆情系统大数据技术栈介绍

我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算、大数据、人工智能、数据中台、数据挖掘、深度学习、java和python的大量实际开发场景案例。 所谓,取之于开源,用之 ......

2022-03-20 23:15
305
0
邮政快递与物流行业舆情监测系统方案

邮政快递与物流行业舆情监测系统方案

物流行业需要能及时获取并汇集海量物流行业资讯,全面了解物流行业变化,聚合多项指标;包罗快递、设施、园区、全球物流等各方资讯与行业数据。 客户背景 中国邮政系统经过几十年的建设,几乎可以到达国内任何一个角落。下设6.7万多个局所, 有覆盖全国 ......

2022-03-19 22:42
226
0
全国高校大学招标公告信源地址大全分享

全国高校大学招标公告信源地址大全分享

北京大学 https://www.lab.pku.edu.cn 北京大学实验室与设备管理部 北京大学 https://zwb.pku.edu.cn 北京大学总务部 北京大学 http://lab.bjmu.edu.cn 招标采购_北京大学医 ......

2022-03-16 14:25
192
0
关于爬虫技术和我们的开源项目

关于爬虫技术和我们的开源项目

爬虫,在很多人眼里很简单、廉价一点都不奇怪,因为网上有大量9.9块Python培训课,其中包含爬虫教学。 爬虫,在多数人眼里是灰色产业,这也不奇怪。中国在2019年出现了很多“大数据”公司,他们采用了爬虫技术窃取用户隐私。 但是,爬虫,一词 ......

2022-03-14 16:45
254
0
大数据开源舆情分析系统-数据采集技术架构浅析

大数据开源舆情分析系统-数据采集技术架构浅析

舆情系统 中数据采集是一个关键部分,此部分核心技术虽然由爬虫技术框架构建,但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定,特别是抓取大量网站的情况下,每天有大量网站的状态和样式发生变化以后,爬虫程序能快速的反应和维护。 一旦分布式的爬虫 ......

2022-03-06 23:18
418
0
  • 上一页
  • 1
  • 下一页

了解更多请关注微信公众号:思通数据
产品经理微信:javabloger/13913853100

我们的开源项目 Powered by Gitee & OSChina