AcFun

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 110|回复: 0

chinese-poetry: 最全中文诗歌古典文集数据库

[复制链接]

2

主题

3

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2023-1-9 08:20:19 | 显示全部楼层 |阅读模式
简介

Chinese-poetry 可能是全网最全中文是个古典文集数据库了,目前托管在 GitHub 上,数据是 json 格式,方便进行版本管理。该项目截止目前为止收集了互联网上 5.5 万首唐诗、26 万首宋诗和2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人。该仓库贡献最多的是来自 Teambition 的 JackeyGao 和另一位 Python、Java 开发者 animalize。
数据集

该仓库收集的数据集合罗列如下:

  • 全唐诗 json
  • 全宋诗 json
  • 全宋词 ci
  • 五代·花间集 wudai
  • 五代·南唐二主词 wudai
  • 论语 lunyu
  • 诗经 shijing
  • 幽梦影 youmengying
  • 四书五经 sishuwujing
  • 蒙學 mengxue
计划要收集的是:

  • 清代诗词
  • 元曲
数据分析

目前作者对数据集做了一些数据分析,挖掘出了一些有趣的统计数据。

  • 两宋喜欢的词牌名是浣溪沙



  • 宋词作者作品榜,作品流传下来最多的是辛弃疾



  • 宋词高频词:宋词中大家最喜欢用的词是东风



  • 唐诗作者作品榜:唐诗作品流传下来最多的是白居易。



  • 宋诗作者作品榜:宋诗作品流传下来最多的是陆游。



  • 宋诗高频词:宋朝诗歌中最常见的词语是"人间"



  • 唐诗高频词:唐诗中最常见的词语是"何处","人间"也不少。



应用

作者已经在 README 中例举了几个利用该数据库自动生成古诗词的机器学习项目和几个古诗词鉴赏的项目。
因为该仓库是 MIT 许可,有想法的小伙伴可以利用这个数据库作出不少好玩的应用。
项目地址


最后,关注 “带逛 GitHub”,每天了解更多有趣有用的开源项目。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

 
QQ在线咨询
售前咨询热线
400-123-45678
售后咨询热线
010-12345678

Archiver|手机版|小黑屋|AcFun

GMT+8, 2025-10-12 23:06 , Processed in 0.094319 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表