博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Dataset
阅读量:5231 次
发布时间:2019-06-14

本文共 2032 字,大约阅读时间需要 6 分钟。

自然语言处理任务数据集

keywords: NLP, DataSet, corpus process

语料处理一般步骤

以下处理步骤出自[Mikolov T, et al. Exploiting Similarities among Languages for Machine Translation[J]. Computer Science, 2013.]

  • Tokenization of text using scripts (from www.statmt.org)
  • Duplicate sentences were removed
  • Numeric values were rewritten as a single token
  • special characters were removed (such as !?,:)

AI Challenger - 英中翻译评测

适用领域:机器翻译

规模最大的口语领域英中双语对照数据集。提供了超过1000万的英中对照的句子对作为数据集合。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。

训练集:10,000,000 句

验证集(同声传译):934 句
验证集(文本翻译):8000 句

WMT(Workshop on Machine Translation) - 机器翻译研讨会

适用领域:机器翻译

WMT 是机器翻译领域最重要的公开数据集。数据规模较大,取决于不同的语言,通常在百万句到千万句不等。

2017年WMT的网址 

UN Parallel Corpus - 联合国平行语料

适用领域:机器翻译

联合国平行语料库由已进入公有领域的联合国正式记录和其他会议文件组成。语料库包含1990至2014年编写并经人工翻译的文字内容,包括以语句为单位对齐的文本。

语料库旨在提供多语种的语言资源,帮助在机器翻译等各种自然语言处理方面开展研究和取得进展。为了方便使用,本语料库还提供现成的特定语种双语文本和六语种平行语料子库。

介绍:

下载:

(目前一直下载不下来)

2nd International Chinese Word Segmentation Bakeoff

适用领域:中文分词

This directory contains the training, test, and gold-standard data

used in the 2nd International Chinese Word Segmentation Bakeoff.

20 Newsgroups

适用领域:文本分类

The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups.

NLPCC 2017 新闻标题分类

适用领域:文本分类

Reuters-21578 Text Categorization Collection

适用领域:文本分类

This is a collection of documents that appeared on Reuters newswire in 1987. The documents were assembled and indexed with categories.

全网新闻数据(SogouCA)

适用领域:文本分类、事件检测跟踪、新词发现、命名实体识别自动摘要

来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

CMU World Wide Knowledge Base (Web->KB) project

适用领域:知识抽取

To develop a probabilistic, symbolic knowledge base that mirrors the content of the world wide web. If successful, this will make text information on the web available in computer-understandable form, enabling much more sophisticated information retrieval and problem solving.

Wikidump

适用领域:word embedding

中文:

GitHub 项目

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

转载于:https://www.cnblogs.com/hanouba/p/10824178.html

你可能感兴趣的文章
二、create-react-app自定义配置
查看>>
Android PullToRefreshExpandableListView的点击事件
查看>>
系统的横向结构(AOP)
查看>>
linux常用命令
查看>>
NHibernate.3.0.Cookbook第四章第6节的翻译
查看>>
使用shared memory 计算矩阵乘法 (其实并没有加速多少)
查看>>
Django 相关
查看>>
git init
查看>>
训练记录
查看>>
IList和DataSet性能差别 转自 http://blog.csdn.net/ilovemsdn/article/details/2954335
查看>>
Hive教程(1)
查看>>
第16周总结
查看>>
C#编程时应注意的性能处理
查看>>
Fragment
查看>>
比较安全的获取站点更目录
查看>>
苹果开发者账号那些事儿(二)
查看>>
使用C#交互快速生成代码!
查看>>
UVA11374 Airport Express
查看>>
P1373 小a和uim之大逃离 四维dp,维护差值
查看>>
NOIP2015 运输计划 树上差分+树剖
查看>>