钓鱼网站相关数据
数据一
地址:https://www.kaggle.com/datasets/aman9d/phishing-data?resource=download
数据集说明:
Domain: The URL itself.
Ranking: Page Ranking
isIp: Is there an IP address in the weblink
valid: This data is fetched from google's whois API that tells us more about the current
status of the URL's registration.
activeDuration: Also from whois API. Gives the duration of the time since the
registration up until now.
urlLen: It is simply the length of the URL
is@: If the link has a '@' character then it's value = 1
isredirect: If the link has double dashes, there is a chance that it is a redirect. 1-> multiple
dashes present together.
haveDash: If there are any dashes in the domain name.
domainLen: The length of just the domain name.
noOfSubdomain: The number of subdomains preset in the URL.
Labels: 0 -> Legitimate website , 1 -> Phishing Link/ Spam Link
数据二
地址:http://shujujishi.com/dataset/04f86672-ed35-483c-99b0-397c8f0f1d79.html
或者
地址:http://sofasofa.io/competition.php?id=10
数据集说明:
训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。
变量说明:
变量名 解释
contain_IP 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。
is_long 网址字符是否过长。1表示网址过长,0表示网址不长。
is_tinyurl 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。
contain_at 网址是否包含“@”符号。1表示包含,0表示不包含。
contain_double_slash 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。
contain_dash 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。
contain_subdomain 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。
is_SSL 网址是否是https安全链接。1表示包含,0表示不包含。
with_long_history 网址所属的主域名存在的时间。1表示长久,0表示不长久。
contain_icon 网址网页是否有小图标。1表示包含,0表示不包含。
contain_ext_domain 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。
contain_email_to 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。
allow_right_click 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。
contain_pop_up_windowL 该网页是否包含弹窗。1表示包含,0表示不包含。
contain_Iframe 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。
has_DNSRecord 网址是否有DNS记录。1表示有,0表示无。
traffic 该网站的流量大小。1表示大,0表示小。
google_rank 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。
y 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。
数据三
地址:https://www.datafountain.cn/datasets/5587
数据集说明:
域:URL本身。
排名:页面排名
isIp:网络链接中是否有
有效的IP地址:此数据是从Google的Whois API中获取的,该信息可以告诉我们有关
URL注册当前状态的更多信息。
activeDuration:同样来自whois API。提供自
注册以来到现在为止的时间。
urlLen:只是URL的长度
is @:如果链接具有’@'字符,则其值= 1
isredirect:如果链接具有双破折号,则有可能是重定向。1->多个
破折号一起出现。
haveDash:域名中是否包含破折号。
domainLen:域名的长度。
noOfSubdomain:URL中预设的子域数。
标签:0->合法网站,1->网络钓鱼链接/垃圾邮件链接
数据四
https://github.com/ebubekirbbr/phishing_url_detection/tree/master/dataset/small_dataset
论文及比赛
基于卷积神经网络的高精度网络钓鱼检测技术
2017中国网络安全技术对抗赛
钓鱼网站URL识别【机器学习】
钓鱼网站检测 repo复现
基于深度学习模型(1D CNN)实现钓鱼网站检测
DataCon2020优秀解题思路分享:网络黑产方向(浙江大学matrix战队)