Skip to content

sigai/itslaw

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

67 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

database 无数字后缀为直接下载的数据库
000为常识使用免费代理
001为使用付费代理通道
002为代理失效后的尝试

itslaw

年\裁判类型\文书类型
shodan上下载的21142461
3298208 第一次抓取
23823561 共
23823987 工具导出的结果
423 脏数据, 空内容
23823560 个

1994-2019

#conditions

caseTypeResults
courtLevelResults
judgementTypeResults
topCourtResults
topReasonResults
topCourtResults
trialRoundResults

keywordResults

related

根据现有id抓取相关案件的id

start: 已经抓取到有详细数据的但是没有抓取相关的id
id: 已经抓取了相关id的id
crawled: 抓取到但是没有详细数据的id

手动更新start-crawled, 防止异常丢失数据
下载的shodan数据库部分已经抓过相关2019-04-09
开始抓000, 001, 及conditions出来的部分

speed

10000: 2分钟
100000: 20分钟
300000: 1小时
3000000: 10小时, 3百万, 2100万70个小时
3000万: 100小时

按条件过滤

搜索词不是必要的
年份1000-2020 -> 案由1013 -> 文书性质5 -> 审理程序4 -> 地域3462
最后超过400的用法官法院过滤即可, 一个地方法院的法官数量不会太多, 一个法官一年的案子也不太可能超过400, 完美解决.
还是需要细致过滤, 从401开始一个一个地确定完成条件组合过滤.
先变换排序确定获取到count量的id, 如果无法获取到全部, 则开始抓取能抓取到的所有id的case, 然后配合法官, 法院过滤.

conditions

一个结果的: 762136 个case
两个结果以上且一页以内: 4939779 个case
两页以上但不超过400: 16377601 个case
超过20页的: 11474003 个case
共 33553519 个
网站显示 58853591 个
-25300072

11229164
6775706

46368420 实际文书量

requests

762136
914908
1134197
521720
共 3332961 请求
600 req/min
5555 mins = 93 hours = 4 days

case numbers

(1996)莱阳执终第382号
(年)莱阳执终第382号
年: 1996-2019
正则
(\d+)
.[0123456789].
号.+$

裁判文书网

total: 63279831
2019 1612758 483806
2018 16940962 5339057
2017 16246479 10998051
2016 12320616 10465659
2015 6936462 8645302
2014 6816636 6251128
2013 1388320 1471745
2012 398457 638698
2011 208877 591952
2010 188480
2009 94115
2008 25521
2007 13662
2006 6790
2005 5278
2004 4227
2002 3230
2003 2611
2001 1282
2000 146
1986 88
1992 83
1991 80
1998 74
1987 70
1988 62
1989 60
1990 60
1995 60
1996 60
1997 58
1985 57
1999 55
1993 47
1994 45

category: "律师"
id: "844903 | 36604"
judgementReferenceCount: "0"
label: "张荣兴 | 云南江风律师事务所"
type: "lawyer"
value: "律师 : 张荣兴 | 云南江风律师事务所"

conditions: lawyer+844903 | 36604+1+张荣兴 | 云南江风律师事务所

category: "法官"
id: "283418 | 1104"
judgementReferenceCount: "0"
label: "袁士增 | 宁波市北仑区人民法院"
type: "judge"
value: "法官 : 袁士增 | 宁波市北仑区人民法院"

conditions: judge+283418 | 1104+1+袁士增 | 宁波市北仑区人民法院

About

crawler on itslaw [Data Collected]

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages