铭望法律知识 > 法规 > 文章页

隐私保护的加密流量检测研究

文章正文

发布时间：2025-02-02 22:37

MC-GREW D , ANDERSON B .

Enhanced telemetry for encrypted threat analytics

[C]// 2016 IEEE 24th International Conference on Network Protocols (ICNP). 2016: 1-6.

VOIGT P , VON DEM BUSSCHE A .

Practical implementation of the requirements under the GDPR

[M]// The EU General Data Protection Regulation (GDPR). Cham: Springer International Publishing, 2017: 245-249.

BUKATY P .

The CCPA

[M]// The California Consumer Privacy Act (CCPA). IT Governance Publishing, 2019: 123-169.

王春晖 .

《网络安全法》六大法律制度解析

[J]. 南京邮电大学学报:自然科学版, 2017,37(1): 1-13.

WANG C H .

Analysis of the six legal systems of Network Security Law

[J]. Journal of Nanjing University of Posts and Telecommuni-cations:Natural Science Edition, 2017,37(1): 1-13.

洪延青, 葛鑫 .

国家标准《信息安全技术个人信息安全规范》修订解读

[J]. 保密科学技术, 2019(6): 6.

HONG Y Q , GE X .

Information Security Technology Personal In-formation Security Specification revision interpretation

[J]. Security Science and Technology, 2019(6): 6.

诸葛建伟, 韩心慧, 周勇林 ,等.

僵尸网络研究

[J]. 软件学报, 2008,19(3): 702-715.

ZHUGE J W , HAN X H , ZHOU Y L ,et al.

Research and develop-ment of Botnets

[J]. Journal of Software, 2008,19(3): 702-715.

CAO Z , XIONG G , ZHAO Y ,et al.

A survey on encrypted trafficclassification

[M]// Applications and Techniques in Information Security. Springer Berlin Heidelberg, 2014: 73-81.

KLEINBAUM D G , DIETZ K , GAIL M ,et al.

Logistic regression

[M]. Springer, 2002.

HO T K , .

Random decision forests

[C]// Proceedings of 3rd International Conference on Document Analysis and Recognition:Volume 1. 1995: 278-282.

FANG Y , QIU Y , LIU L ,et al.

Detecting webshell based on random forest with fasttext

[C]// Proceedings of the 2018International Conference on Computing and Artificial Intelligence. 2018: 52-56.

SI S , ZHANG H , KEERTHI S S ,et al.

Gradient boosted decision trees for high dimensional sparse output

[C]// Proceedings of the 34th International Conference on Machine Learning-Volume 70 (ICML’17). 2017: 3182-3190.

翟征德, 宗兆伟 .

针对DNS服务器的抗DDoS安全网关系统：中国,CN101572701B

[P]. 2013-11-20.

ZHAI Z D , ZONG Z W .

Anti-DDoS security gateway system for DNS server

[P]. 2013-11-20.

SHOKRI R , STRONATI M , SONG C ,et al.

Membership inference attacks against machine learning models

[C]// 2017 IEEE Symposium on Security and Privacy (SP). 2017: 3-18.

SWEENEY L .

K-anonymity:a model for protecting privacy

[J]. International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems, 2002,10(5): 557-570.

MACHANAVAJJHALA A , KIFER D , GEHRKE J ,et al.

l-diversity:privacy beyond k-anonymity

[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007,1(1): 3.

DWORK C , .

Differential privacy:a survey of results

[C]// International Conference on Theory and Applications of Models of Computation. 2008: 1-19.

FRANK M , MIRONOV I .

Differentially private recommender systems:building privacy into the net

[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009: 627-636.

LI Q , WU Z , WEN Z ,et al.

Privacy-preserving gradient boosting decision trees

[C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2020: 784-791.

KE G L , MENG Q , FINLEY T ,et al.

LightGBM:a highly efficient gradient boosting decision tree

[C]// Advances in Neural Information Processing Systems 30 (NIPS 2017). 2017: 3149-3157.

SHARAFALDIN I , LASHKARI A H , GHORBANI A A .

Toward Generating a new intrusion detection dataset and intrusion traffic characterization

[C]// 4th International Conference on Information Systems Security and Privacy (ICISSP). 2018.

LIU Z , WU Z , LI T ,et al.

GMM and CNN hybrid method for short utterance speaker recognition

[J]. IEEE Transactions on Industrial Informatics, 2018,14(7): 3244-3252.

KRIZHEVSKY A , SUTSKEVER I , HINTON G E .

Imagenet classification with deep convolutional neural networks

[J]. Advances in Communications of the ACM, 2012: 1097-1105.

MEIDAN Y , BOHADANA M , SHABTAI A ,et al.

ProfilIoT:a machine learning approach for IoT device identification based on network traffic analysis

[C]// Proceedings of the Symposium on Applied Computing. 2017: 506-509.

CHEN T , ZHONG S .

Privacy-preserving backpropagation neural network learning

[J]. IEEE Transactions on Neural Networks, 2009,20(10): 1554-1564.

ERKIN Z , VEUGEN T ,, TOFT T , LAGENDIJK R L .

Generating private recommendations efficiently using homomorphic encryption and data packing

[J]. IEEE Trans Inf Forensics Security, 2012,7(3): 1053-1066.

BOST R , POPA R ,, TU S , GOLDWASSER S .

Machine learning classification over encrypted data

[C]// NDSS. 2015:4325.

GILAD-BACHRACH R , DOWLIN N , LAINE K ,et al.

Cryptonets:applying neural networks to encrypted data with high throughput and accuracy

[C]// International Conference on Machine Learning. 2016: 201-210.

HESAMIFARD E , TAKABI H , GHASEMI M .

CryptoDL:deep neural networks over encrypted data

[J]. ArXiv preprint ArXiv:1711.05189, 2017.

MOHASSEL P , ZHANG Y .

SecureML:a system for scalable privacy-preserving machine learning

[C]// 2017 IEEE Symposium on Security and Privacy (SP). 2017: 19-38.

KONEČNÝ I , MCMAHAN H B , YU F X ,et al.

Federated learning:Strategies for improving communication efficiency

[J]. arXiv preprint arXiv:1610.05492, 2016.

MOHASSEL P , RINDAL P .

ABY3:a mixed protocol framework for machine learning

[C]// Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018: 35-52.

PATRA A , SURESH A .

BLAZE:Blazing Fast Privacy-Preserving Machine Learning

[J]. arXiv preprint arXiv:2005.09042, 2020.

DWORK C , TALWAR K , THAKURTA A ,et al.

Analyze gauss:optimal bounds for privacy-preserving principal component analysis

[C]// Proceedings of the Forty-sixth Annual ACM Symposium on Theory of Computing. 2014: 11-20.

HEIKKILÄ M , LAGERSPETZ E , KASKI S ,et al.

Differentially private Bayesian learning on distributed data

[C]// Advances in Neural Information Processing Systems. 2017: 3226-3235.

HARDT M , PRICE E .

The noisy power method:a meta algorithm with applications

[C]// Advances in Neural Information Processing Systems. 2014: 2861-2869.

ABADI M , CHU A , GOODFELLOW I ,et al.

Deep learning with differential privacy

[C]// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016: 308-318.

CHAUDHURI K , MONTELEONI C .

Privacy-preserving logistic regression

[C]// Advances in Neural Information Processing Systems. 2009: 289-296.

CHAUDHURI K , SAR WATE D A , SINHA K .

A near-optimal algorithm for differentially-private principal components

[J]. Journal of Machine Learning Research, 2013,14(1): 2905-2943.

CHAUDHURI K , MONTELEONI C , SARWATE A D .

Differentially private empirical risk minimization

[J]. Journal of Machine Learning Research, 2011,12: 1069-1109.

ZHANG J , ZHANG Z , XIAO X ,et al.

Functional mechanism:regression analysis under differential privacy

[J]. arXiv preprint arXiv:1208.0219, 2012.

Enhanced telemetry for encrypted threat analytics

2016

... 学术界提出了在不解密的情况下，对恶意加密流量进行检测的方案，即基于传统的统计分析和机器学习算法.由于加密流量技术只对载荷信息加密，而流特征仍然以明文形式传输，因此可以从网络流量包中提取数据特征，使用机器学习来训练并区分恶意流量和良性流量的行为特征，从而进行准确识别.这类方法具有较高的识别性能和速度，可以较好地适用于各种网络环境，因此被大量应用于企业内部进行恶意流量检测，如思科公司的Joy系统[1]. ...

... 本节主要介绍基于机器学习的加密流量检测技术，该技术[1]需要从实时流量和数据包中提取数据特征.恶意加密流量和正常的加密流量在一些特征上存在差异，主要表现在四类特征：数据包的时间序列特征、数据包的字节分布情况、数据包的报头特征、TLS相关特征，并且这些特征的差异性不受流量加密的影响.在流量采集过程中，可以先分别提取这些流量特征[1]. ...

... [1]. ...

Practical implementation of the requirements under the GDPR

2017

... 为了应对大数据时代下的隐私泄露风险与挑战，国内外标准化组织在信息技术的不同领域给出了“隐私”的定义，并针对网络环境中的隐私保护制定了相关标准.欧盟于2016年通过的《通用数据保护规范》[2]，从个人信息的采集到信息的传输和使用，直到销毁，对信息的全周期有很明确的行为规范要求.个人信息采集时，应实行“最少采集”原则，不能非法采集数据；采集信息的目的达到后，需在一定期限之内予以销毁.对于违反规范的机构，政府将处以法律责任追究、罚款，甚至处以刑事责任.美国2020年实施的《加利福尼亚州消费者隐私法案》[3]为消费者创建了访问权、删除权、知情权等一系列消费者隐私权利，并要求企业必须遵循相关义务.对违反隐私保护要求的企业，政府有权征收处罚. ...

The CCPA

2019

《网络安全法》六大法律制度解析

2017

... 国内也针对个人信息保护出台了相关法律法规.于2017正式施行的《网络安全法》[4]系统性提出网络空间治理的法律法规，特别明确和强调了个人信息保护方面的要求，明确并强化了对公民个人信息安全的保护.新颁布的2020版《个人信息安全规范》[5]对个人信息的采集、存储、使用都做了明确规范，并规定了个人信息主体具有查询、更正、删除、撤回授权同意、注销账户、获取个人信息副本权利等，对后续个人信息保护工作的开展将产生深远影响.全世界各组织对隐私保护标准的严格规范和定义，更突显了数据隐私保护的重要性.隐私保护不仅关系到个人隐私安全问题，而且会对机构的数据安全问题乃至国家的网络安全产生重大影响. ...

《网络安全法》六大法律制度解析

2017

国家标准《信息安全技术个人信息安全规范》修订解读

2019

国家标准《信息安全技术个人信息安全规范》修订解读

2019

僵尸网络研究

2008

... 僵尸网络[6]是从网络蠕虫、木马病毒、后门工具等传统恶意代码形式发展而来的攻击方法，黑客可以入侵网络空间中大量僵尸主机，通过远程命令和控制，实现大规模网络攻击，如分布式拒绝服务攻击和大量垃圾邮件发送、信息盗取等.其中，DDoS 攻击的目的是通过干扰正常的网络环境造成计算机服务不可用，典型形式是流量溢出，攻击者利用大量连接请求来消耗被攻击网络的服务资源，从而使被攻击者无法处理其他合法用户的请求. ...

僵尸网络研究

2008

A survey on encrypted trafficclassification

2014

... 随着用户隐私保护意识的增强与加密协议[如传输层安全（TLS，transport layer security）协议]的广泛应用，加密流量急剧增加.恶意程序（如僵尸网络、木马病毒），越来越多地通过加密技术来绕过防火墙和入侵检测系统，进行 DDoS 攻击、隐蔽扫描、窃取机密信息.传统的流量异常检测技术在识别DDoS攻击、port scan等异常流量时，准确性有所下降.因此，研究者[7]采用机器学习技术，实现一种加密流量的异常流量识别方法. ...

Logistic regression

2002

... 统计每个加密流量包的上述特征后，常用的机器学习检测算法有逻辑回归算法[8]、决策树算法[如随机森林算法[9]、梯度提升决策树（GBDT， gradient boosting decision tree）算法[10]]等. ...

Random decision forests

1995

Detecting webshell based on random forest with fasttext

2018

Gradient boosted decision trees for high dimensional sparse output

2017

... GBDT算法是基于Boosting的一种集成学习算法，其本质是下一轮的基学习器是建立在上一轮基学习器的损失函数的梯度下降方向，将多棵决策树利用加法模型，组合成一棵梯度提升的决策树.令训练数据集D表示为 {( x i , y i )} i=1 N ， ( x i , y i )为第 i 个输入的流量包样本，N 为训练数据集中实例的总数，其中 x i 为输入的特征向量，yi为流量包标签， A={ a 1 , a 2 ,⋯, a m }为样本属性集合，m表示每个样本的特征维度数）.在第k轮迭代中，假设给定了损失函数L(θ)，目的是训练出决策树fk，使损失函数的近似值最小[11]. ...

针对DNS服务器的抗DDoS安全网关系统：中国,CN101572701B

2013

... 根据加密流量的特点，本系统可采用串接和旁路两种模式部署[12].串接部署组网简单，无须额外增加接口，并且由于防护设备可以实时监控双向流量，在个别攻击防护上优于旁路部署.但在组网结构复杂的场景下，难以使用串接模式部署，可以采用旁路部署模式，避免设备直路部署可能带来的链路短时中断.旁路部署的优点是能够保证原有组网不被破坏，同时引入了流量流向改变技术，通过引流、回注等一系列手段来控制流量的走向，从而实现对异常流量的处理. ...

针对DNS服务器的抗DDoS安全网关系统：中国,CN101572701B

2013

Membership inference attacks against machine learning models

2017

... 本文系统分为数据采集、数据预处理、模型训练和评估预测4个模块.在流量数据采集、预处理过程中，数据集将受到保护，不会被攻击者获取；在分布式存储和模型训练、评估预测时，将不受保护，攻击者可能通过训练完成的模型，利用成员推理攻击[13]，反向推断出训练集中所包含的数据或其特征，泄露数据集的隐私信息.但在本文系统中，数据在训练过程中引入了噪声，对训练的模型进行了保护，也对输出结果加入了拉普拉斯扰动，黑客无法通过模型准确推断原本训练集的特征，也无法挖掘训练数据集的流量信息和用户隐私. ...

K-anonymity:a model for protecting privacy

2002

... 传统衡量数据隐私的通用标准分别是K-anonymity、L-diversity和T-closeness，这3个标准从不同角度衡量了隐私数据泄露的风险.K-anonymity[14]要求对于任意一行记录，其所属的等价类内的记录数量不小于 K.该标准能够保护数据的身份信息，但其缺点是无法防止属性泄露的风险，攻击者可以通过同质属性攻击和背景知识攻击两种方式来获取个体的敏感属性信息.L-diversity[15]进一步要求，在一个等价类中所有记录对应的敏感属性的集合需要包含 L 个“良表示”.这一标准保证了属性取值的多样性，但无法衡量不同属性值的分布，因此在衡量属性泄露风险上仍有不足之处.T-closeness[15]则要求等价类中的敏感属性分布与整体数据表中敏感属性的分布的距离小于 T，该约束减弱了间接标识符列属性与特定敏感信息的联系，进而减少了攻击者通过敏感属性的分布信息进行属性泄露攻击的可能性，但其缺点是会导致信息在一定程度上发生损失. ...

l-diversity:privacy beyond k-anonymity

2007

... [15]则要求等价类中的敏感属性分布与整体数据表中敏感属性的分布的距离小于 T，该约束减弱了间接标识符列属性与特定敏感信息的联系，进而减少了攻击者通过敏感属性的分布信息进行属性泄露攻击的可能性，但其缺点是会导致信息在一定程度上发生损失. ...

Differential privacy:a survey of results

2008

... 本文使用的隐私保护标准是由 Dwork 等[16]于2006年提出的差分隐私，它给出了对个人隐私泄露的数学定义，并且具有可证明的隐私保证，可以在最大化查询结果可用性的同时，保证单个用户隐私泄露不超过预先设定的ε. ...

Differentially private recommender systems:building privacy into the net

2009

... McSherry 等[17]提出了差分隐私的两个重要性质：顺序合成性质和平行合成性质. ...

Privacy-preserving gradient boosting decision trees

2020

... 本文结合差分隐私的顺序合成和平行合成，参考文献[18]的两级提升框架，设计了如图2 所示的隐私保护的加密流量检测的系统框架.在平行合成内部，使用数据集中不相交的数据子集训练生成多棵决策树，然后依次训练生成多个这样的合成.在平行合成内部和外部，分别采用差分隐私保证隐私性，给定敏感度边界设置和隐私预算分配方案. ...

... 先前的研究对单棵差分隐私决策树的敏感度是通过函数输出范围来限制的，即函数的灵敏度不超过函数输出的最大值与最小值之差.为了避免训练数据集过大，导致信息增益函数G、节点值函数V的输出范围急剧增大，从而产生巨大的灵敏度，文献[18]根据严格的公式推导给出了G和V函数的灵敏度边界. ...

... 由引理1 和引理2可得，节点的敏感度与梯度绝对值（即1范数梯度）的最大值有关，因此，为了控制隐私预算，通常需要限制梯度的范围，但在GBDT算法中，梯度是由预测值与目标值之间的距离来计算的，限制梯度意味着间接改变了目标值，会产生巨大误差，因此，Li等[18]提出了一种基于梯度的数据过滤方法，通过在每次迭代中仅过滤训练数据集的一小部分来限制1范数梯度的最大值. ...

... GDF为所有决策树提供了相同的敏感度，由于梯度在不停迭代过程中会逐渐下降，因此随着不断迭代，可以获得更严格的敏感度范围.但实际上很难得出梯度下降的确切模式，且不合理地降低梯度阈值可能会导致巨大的精度损失.因此，需要使用一种新的算法在不同决策树训练过程中控制这种衰减效果.Li等[18]经推导发现每棵树中的叶节点值将形成一个具有初始值为glmax、公比为1-η的等比数列，并基于此提出了一种几何叶剪枝算法，可以限制叶节点的敏感度. ...

... 本文针对加密流量检测，参考文献[18]中差分隐私的梯度提升决策树算法，提取捕获数据的8个特征. ...

... 定理3[18] 算法1的输出满足εt差分隐私. ...

... 定理4[18]算法2的输出满足ε差分隐私. ...

LightGBM:a highly efficient gradient boosting decision tree

2017

... 本文采用LightGBM算法库[19]实现了差分隐私的GBDT算法，对比库中不加噪声的GBDT算法，对系统的有效性和可用性进行评估.实验在一台Intel(R) Xeon(R) E5-2678 v3@2.50 GHz为核心CPU的计算机上进行. ...

Toward Generating a new intrusion detection dataset and intrusion traffic characterization

2018

... 实验使用的数据集是 CICIDS2017[20]，该数据集从真实环境中捕获，包含良性流量和新型常见攻击的流量，流量包经过 CICFlowMeter 特征提取工具处理后，可以提取出时间戳、源IP、目的 IP、使用协议等 78 个特征，并被标记为“良性流量”和“恶性流量”，组成CSV特征数据集.本文使用了该数据中与DDoS攻击和port scan相关的两个数据集进行实验，数据集名称和数据集详细信息如表1所示. ...

GMM and CNN hybrid method for short utterance speaker recognition

2018

... 机器学习技术不断发展优化，被广泛应用于语音识别[21]、图像处理[22]、网络流量监测[23]等领域.但随着隐私保护相关法律标准的不断规范化，个人、机构的隐私保护意识逐渐增强，因此，机器学习方案的输入数据和模型参数有了一定隐私性要求，隐私保护的机器学习技术成为研究热点，目前有两个主流研究方向：基于同态加密（homomorphic encryption）、安全多方计算（MPC，multi-party computation）、加密布尔电路（garbled circuits）、秘密共享（secret haring）等技术的密码学方法和基于噪声扰动的差分隐私方法. ...

Imagenet classification with deep convolutional neural networks

2012

ProfilIoT:a machine learning approach for IoT device identification based on network traffic analysis

2017

Privacy-preserving backpropagation neural network learning

2009

... 在基于同态加密技术的隐私保护机器学习的研究上，Chen等[24]提出两方下的隐私保护分布式机器学习算法，他们将数据集进行特定划分，其中任意一方只保留特征向量的子集，并确保任何一方的数据都不会遭到泄露.Erkin 等[25]引入了数据打包技术，使多个明文可以被加密为同一个密文，提高了加法同态加密的计算效率.Bost 等[26]结合同态加密和加密布尔电路技术，构建了3种常见的分类算法（超平面决策、朴素贝叶斯和决策树）.Dowlin 等[27]提出了 CryptoNets，利用加法、乘法同态加密，实现了一种高吞吐量、高准确率、可应用于加密数据的神经网络，并对该系统的正确性进行理论推导.Hesamifard等[28]提出的 CryptoDL 是一个隐私保护的卷积神经网络模型，其中激活函数（如 ReLU 函数、Sigmoid 函数）利用低次多项式逼近的方法实现，结合同态加密技术达到数据保护的目的. ...

Generating private recommendations efficiently using homomorphic encryption and data packing

2012

Machine learning classification over encrypted data

2015

Cryptonets:applying neural networks to encrypted data with high throughput and accuracy

2016

CryptoDL:deep neural networks over encrypted data

2017

SecureML:a system for scalable privacy-preserving machine learning

2017

... 在基于安全多方计算的隐私保护机器学习研究上，Mohassel 等[29]提出了 SecureML，针对线性回归、逻辑回归和神经网络训练等机器学习技术，完成了两方下的安全计算任务，同时提出了MPC 友好的算法来替代神经网络中的非线性函数，如Sigmoid、Softmax等.Konečný等[30]提出联邦学习的概念，利用多个相互独立的服务器上的数据集，共同训练出一个高质量的模型，设计了结构化更新、草图更新两种方法，降低系统的通信开销.Mohassel等[31]提出的ABY3是一个三方下的隐私保护机器学习计算框架，设计了新的向量内积、矩阵乘法、浮点数截断协议，能在三方服务器之间秘密共享数据，联合训练和评估神经网络模型.Patra等[32]扩展了ABY3框架，改进其中的乘法协议，提高了安全多方计算下机器学习训练和推断过程的性能表现. ...

Federated learning:Strategies for improving communication efficiency

2016

ABY3:a mixed protocol framework for machine learning

2018

BLAZE:Blazing Fast Privacy-Preserving Machine Learning

2020

Analyze gauss:optimal bounds for privacy-preserving principal component analysis

2014

... 输入扰动通过直接在数据集上添加噪声，即使在公开的计算过程，也能实现输出结果的隐私保护.Dwork等[33]设计了差分隐私的主成分分析算法，通过在本征分解之前，对协方差矩阵添加高斯噪声，使输出结果矩阵符合差分隐私.Heikkilä 等[34]利用高斯噪声机制设计了隐私保护的差分隐私贝叶斯决策. ...

Differentially private Bayesian learning on distributed data

2017

The noisy power method:a meta algorithm with applications

2014

... 算法扰动是指在机器学习算法迭代过程中添加噪声，Hardt等和Abadi等分别在每轮矩阵向量乘法、每轮随机梯度下降算法中引入高斯噪声机制，实现了DP-PAC和DP深度学习算法[35-36]. ...

Deep learning with differential privacy

2016

Privacy-preserving logistic regression

2009

... 输出扰动则是在非隐私保护算法的输出结果上添加噪声，Chaudhuri和Monteleoni[37]基于该机制设计了差分隐私的逻辑回归算法，Chaudhuri等[38]利用指数机制，实现了差分隐私的主成分分析算法. ...

A near-optimal algorithm for differentially-private principal components

2013

Differentially private empirical risk minimization

2011

... 目标扰动算法是在模型的目标函数上引入扰动，经验风险最小化（ERM，empirical risk minimization）[39]算法则是基于此，在目标函数表达式中加入随机噪声，保证扰动后的训练过程满足差分隐私.Zhang 等提出利用泰勒展开多项式逼近目标函数，在各项系数中添加拉普拉斯噪声，从而使算法满足差分隐私，该方法被成功应用于线性回归和逻辑回归模型[40]. ...

Functional mechanism:regression analysis under differential privacy

2012

标签