DeepSeek 新专利公布:减少数据采集时网络资源消耗
GoodNav 4 月 2 日报道,来源于国家知识产权局中国专利公布公告网,DeepSeek 旗下的杭州深度求索人工智能基础技术研究有限公司所申请的专利“广度数据采集的方法及其系统”于 4 月 1 日正式公布。
专利摘要指出:
该发明的主要优点在于:最大程度地发现网页链接,同时降低对网站流量的冲击;对已下载的内容进行分析,对未下载链接进行质量判断,通过优选下载额度的分配方式,减少低质量网页和重复下载的发生,提高数据的质量和下载效率,节约在数据采集过程中的网络资源消耗;采用独立的信息回灌队列,以确保网页元信息库更新操作的原子性和稳定性。
背景技术指出:近年来,随着人工智能技术的发展,自然语言处理(NLP)领域取得了显著进展。许多大型语言模型(Large Language Models, LLMs)被训练应用于自然语言处理,探索人与计算机之间通过自然语言进行有效沟通的多种理论与方法。
这些大语言模型的训练需要构建一个高质量且多样化的大语言模型数据集,这就要求从网页中收集并处理数据,以获取大量的优质文本信息,作为模型训练的输入。
但现存的数据采集技术面临许多挑战,例如在对复杂网站进行采集时,无法获取完整链接;容易造成过量下载,从而导致目标网站崩溃;对下载的页面未进行内容质量分析和推断,导致重复下载或低质量下载,影响数据采集的效率。
因此,在广泛获取网页数据的过程中,如何快速、精确、安全且高效地采集互联网数据变得极为重要。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...