新闻快讯
< >

2亿:走进史上规模最大的美国选民数据泄露案

E安全6月21日讯 共和党国家委员会签约的一家营销公司本月泄漏了大量美国公民的政治数据。在这一波有史以来规模最大的数据泄露案当中,UpGuard公司的网络风险小组已经得出确切结论,认定此次事故源自一套存在配置错误的数据库。

2亿:走进史上规模最大的美国选民数据泄露案-E安全

该数据库中包含超过1.98亿名美国选民的敏感个人资料,并由一家参与共和党全国委员会(简称RNC)所组织的唐纳德·特朗普竞选事务的企业暴露至网上。由共和党数据厂商Deep Root Analytics公司拥有的一台公开访问云服务器上存储有高达1.1 TB数据,全部属于由DRA以及TargetPoint Consulting与Data Trust等至少两家其它共和党承包商所掌握的非安全个人信息。

本次数据泄漏多庞大?

1.1 TB数据涉及总计约2亿名美国登记选民的姓名、出生日期、住址、电话号码以及选民注册细节信息,甚至还包括政治团体采用的先进情绪分析来预测个人选民如何处理热门问题,如枪支所有权,干细胞研究和堕胎权,以及宗教信仰和种族。

此次数据泄露事件在规模上已经远远超过此前曝光的墨西哥选举数据(同样由维克里Vickery所发现)和菲律宾选举数据外泄案,毕竟后两者影响人数只是超过1亿人次。而这次事件影响超过61%的美国本土民众。

此次数据泄露让我们得以对共和党全国委员会在2016年总统大选当中斥资1亿美元进行数据运作的具体方式进行深入了解。很明显,米特·罗姆尼(Mitt Romney)在2012年竞选中的惨败激起共和党发起大范围精心策划的竞选攻势。

Deep Root Analytics、TargetPoint以及Data Trust三家公司皆为共和党数据企业,均被纳入共和党全国委员会为特朗普2016年总统大选所组织起的数据团队的内,负责通过一系列举措以影响潜在选民并准确预测其最终倾向。

RNC数据存储库最终获得了大约95亿个数据点,覆盖五分的三的美国民众,并通过先进的归属算法将选民划分为48个不同类别,以掌握了1.89亿名潜在美国选民的政治偏好。

2亿:走进史上规模最大的美国选民数据泄露案-E安全

包含上述收集数据的电子表格更新至2017年1月的总统就职典礼,其提供的宝贵数据亦足以让我们一窥特朗普竞选活动当中掌握的政治数据与民众倾向模式。这部分数据亦暴露在一套存在配置错误的数据库当中,目前尚不清楚其存储在此数据库中的具体时间段。

作为有史以来规模最大的美国选民信息曝光事件之一,UpGuard公司的发现已经得到技术取证的证实,相关责任企业及政府人员亦证实其真实性。

任何人都可查看特朗普选举相关数据

今年6月12日傍晚,UpGuard公司网络风险小组的网络风险分析师克里斯·维克里(Chris Vickery)发现了一套公开云存储库。该网络风险小组属于UpGuard公司下辖的研究单位,致力于寻找存在配置错误的数据源,从而确保并提升公众对此类问题的认知。

该数据存储库(为一套Amazon Web Services S3存储桶)未对访问行为作任何限制,以至于任何能够接入互联网的人都可以访问该共和党数据库。

只需前往访问“dra-dw”这一六个字符组成的Amazon子域名,即可获取这批为特朗普带来选举胜利的重要数据集。

2亿:走进史上规模最大的美国选民数据泄露案-E安全

根据对内容进行的检查,“dra-dw”代表着“Deep Root Analytics数据库”。“数据库”负责容纳大量收集数据以实现后续的高复杂度专项分析。

Deep Root Analytics公司证实称,他们确实拥有并运营这套数据存储库。但在维克里向美国联邦当局发出通知后不久,该数据存储库就于今年6月14日晚关闭公开访问。

1.1 TB数据是什么概念?

总体而言,该数据库当中的1.1 TB数据规模相当于总长达500小时的视频资源。在相关文件当中,有一部分清楚表明了该资料库的政治价值与重要意义。其文件目录竟然直接以高知名度与影响力的共和党政治组织进行命名。

情况的严重程度还不止于此。该存储库当中还存在另外24 TB数据,但其配置并不允许公开进行访问。最终,存储在错误配置数据库内的总体数据量约相当于100亿页文本。

目前还不太清楚那些无法访问但具备有趣标题的文件是否同样重要。

举例来说,其中的一份文件标题为《战略的十字路口,最终更新版(for_strategy_xroads_updated_FINAL)》,这在某种程度上可能是指前任美国总统小布什的顾问卡尔·罗夫所建立的政治委员会“美国十字路口”。该委员会曾在2016年的选举筹款工作当中表现活跃。

除此之外,还曝光了一份庞大的Reddit文章缓存副本,其被保存为如下文本:

2亿:走进史上规模最大的美国选民数据泄露案-E安全

维克里最终花了近3天的时间才完成全部1.1 TB公开访问文件的下载,其中包含两个重要目录,分别为“data_trust”与“target_point”。

数据运营

作为一家共和党人持有的数据企业,Deep Root Analytics公司创建并维护着这套遭受曝光的数据库。该公司于2013年由曾在2012年罗姆尼总统竞选活动中担任数据总监的共和党选举数据科学家亚历克斯·列兹(Alex Lundry)建立。并自我标榜为“共和党政治体系中最具经验的受众群体”,负责向各企业、游说团体以及共和党政治运动提供媒体分析服务。Deep Root公司声称其能够对“微目标”进行大数据分析,从而更为高效地实现针对性人口统计,帮助客户在选择宣传渠道时做出更为明智的决策。

作为延续性传统,列兹在2016年总统大选当中最初担任前佛罗里达州州长杰布·布什的“首席分析官”。不过最终小小布什并未能利用这套资深信息库获得党内提名,而另一方面特朗普则在竞选活动中缺少强大数据支持的情况下顺利成为共和党候选人。随着特朗普确定获得党内提名,共和党于2016年7月正式结束了预选赛阶段,并随即将其数据团队与特朗普竞选活动加以结合,旨在全力对抗民主党及其候选人希拉里·克林顿。

Data Trust公司

为了在此次选举中胜出,共和党全国委员会需要投入重金以拉拢数据分析领域各私营企业的资源。其中一家私营咨询企业正是Data Trust,这家位于华盛顿的公司据称不断通过收集、扩展及强化选民档案,以建立起一整套共和党与保守派数据生态系统。

作为“共和党独家数据供应商”,Data Trust公司由共和党全国委员会于2011年所建立。根据《国家评论》杂志的介绍,该公司“负责共和党选民档案成本预案的制定与管理”,这些详尽的选民信息库将极大影响选举宣传活动乃至最终投票结果本文源自E安全。

根据《候选人》杂志的报道,Data Trust一直作为共和党国家委员会的内部企业运营,尽管这是一家拥有私营性质混合型企业,但却仍由党内大佬负责幕后操控。

在Deep Root Analytics公司的数据库内,“data_trust”文件夹似乎包含着RNC/Data Trust所收集到的全部成果。其详尽列出了2016年全美潜在选民的个人信息。

“data_trust”文件夹

在“data_trust”文件夹内存在着两套巨大的个人信息收集副本,总计涉及1.98亿潜在选民。当时整个“data_trust”文件夹允许任何访问该数据库URL的人士所下载。

这些内容主要被分为两个文件目录,其中一个256 GB的文件夹包含2008年总统大选信息,而另一个233 GB的文件夹则包含2012年大选信息;二者各自包含51个文件,每个文件对应一个州。各个文件以逗号作为分隔符(.csv格式),同时包含一条内部的32位字符、包含字母与数字的“RNC ID”。例如530C2598-6EF4-4A56-9A7X-2FCA466FX2E2,作为标记数据库内的每一位潜在选民。这些RNC ID将不同数据集对接起来,同时结合数十个敏感的个人标记数据点,这意味着分析方可以通过名称将大量美国选民进行分组与整理。

维里克与报道记者皆对这些电子表格进行了查看,并确认这些文件中确实存在准确且敏感的个人信息。以下为各.csv目录当中的具体内容:

"RNCID", "RNC_RegID", "State", "SOURCEID", "Juriscode", "Jurisname", "CountyFIPS", "MCD", "CNTY", "Town", "Ward",
"Precinct", "Ballotbox", "PrecinctName", "CD_Current", "CD_NextElection", "SD_Current", "SDProper_Current",
"SD_NextElection", "SDProper_NextElection", "LD_Current", "LDS_Current", "LDProper_Current", "LD_NextElection",
"LDS_NextElection", "LDProper_NextElection", "NamePrefix", "FirstName", "MiddleName", "LastName", "NameSuffix", "Sex",
"BirthYear", "BirthMonth", "BirthDay", "OfficialParty", "StateCalcParty", "RNCCalcParty", "StateVoterID", "JurisdictionVoterID",
"AffidavitID", "LegacyID", "LastActiveDate", "RegistrationDate", "VoterStatus", "PermAbs", "SelfReportedDemographic",
"ModeledEthnicity", "ModeledReligion", "ModeledEthnicGroup", "HHSEQ", "HTSEQ", "RegistrationAddr1", "RegistrationAddr2",
"RegHouseNum", "RegHouseSfx", "RegStPrefix", "RegStName", "RegStType", "RegstPost", "RegUnitType", "RegUnitNumber",
"RegCity", "RegSta", "RegZip5", "RegZip4", "RegLatitude", "RegLongitude", "RegGeocodeLevel", "RADR_LastCleanse",
"RADR_LastGeoCode", "RADR_LastCOA", "ChangeOfAddress", "COADate", "COAType", "MailingAddr1", "MailingAddr2",
"MailHouseNum", "MailHouseSfx", "MailStPrefix", "MailStName", "MailStType", "MailStPost", "MailUnitType",
"MailUnitNumber", "MailCity", "MailSta", "MailZip5", "MailZip4", "MailSortCodeRoute", "MailDeliveryPt",
"MailDeliveryPtChkDigit", "MailLineOfTravel", "MailLineOfTravelOrder", "MailDPVStatus", "MADR_LastCleanse",
"MADR_LastCOA", "AreaCode", "TelephoneNUm", "TelSourceCode", "TelMatchLevel", "TelReliability", "FTC_DoNotCall",
"PhoneAppendDate", "VH12G", "VH12P", "VH12PP", "VH11G", "VH11P", "VH10G", "VH10P", "VH09G", "VH09P", "VH08G",
"VH08P", "VH08PP", "VH07G", "VH07P", "VH06G", "VH06P", "VH05G", "VH05P", "VH04G", "VH04P", "VH04PP", "VH03G",
"VH03P", "VH02G", "VH02P", "MT10_Party", "MT10_GenericBallot", "MT10_Turnout", "MT10_ObamaDisapproval", "MT10_Jobs",
"MT10_Healthcare", "MT10_SoCo", "PG01", "PG02", "PG03", "PG04", "PG05", "PG06", "PG07", "PG08", "PG09", "PG10", "PG11",
"PG12", "PG13", "PG14", "PG15", "PG16", "PG17", "PG18", "PG19", "PG20", "PG21", "PG22", "PG23", "PG24", "PG25", "PG26",
"PG27", "PG28", "PG29", "PG30", "PG31", "PG32", "PG33", "PG34", "PG35", "PG36", "PG37", "PG38", "PG39" 

直接以潜在选民的名字与姓氏开始的身份披露方式超出研究人员的想象,文件还囊括有其它一大批重要数据,具体包括选民的出生日期、家庭住址、家庭与邮寄地址、电话号码、注册党派、自我报告的种族归属选民登记状态甚至其在联邦政府中是否被列入“请勿来电”名单另外,数据字段中还可以看到潜在选民的“种族归属”以及“宗教归属”,从历史角度来看,这些极为敏感的个人资料历来属于数据收集工作中的争议性内容。

尽管并非所有人的各个字段都是完整填写的,但只要具有明确答案,即会在表格当中得到体现。此外,该数据库中还包含一个相对较小的2016年大选文件夹,不过与2008年与2012年文件夹不同,2016年文件夹只包含俄勒冈州与佛罗里达州的对应.csv文件。而这两个州恰好是民主、共和两党争夺最为激烈的战场。

共和党全国委员会多年以来一直致力于构建一套世界领先的数据运营体系,其也因此雇用了Deep Root Analytics以配合其它数据厂商共同完成奥巴马数据团队为民主党提供的数据分析体系。根据《广告时代》杂志发布的文章,共和党全国委员会整理出的大选后数据运营总结报告显示:

“大部分数据建模与选民评分工作,特别是在现场工作、选民联络以及电视广告方面均由共和党全国委员会雇用的三家数据企业(TargetPoint Consulting、Causeway Solutions、Deep Root Analytics)集体完成。其中Deep Root通过一家名为Needle Drop的新建子公司与共和党全国委员会进行正式合作。”

根据《广告时代》发布的报道,共和党全国委员会为其中两家公司的数据库方案总计支出超过500万美元(约人民币4500万)。

据美国联邦选举活动委员会的报告,自2015年1月到2016年11月,共和党全国委员会共向TargetPoint公司支持420万美元数据服务费,并向Causeway公司支付约50万美元。而通过Needle Drop进行业务接洽的Deep Root则从共和党全国委员会手中获得98万3千美元。

TargetPoint公司

Needle Drop公司委托方TargetPoint Consulting于2005年至2015年期间任命Deep Root Analytics创始人亚历克斯·列兹出任其“首席数据科学家”,其与本数据库当中的“target_point”文件夹相对应。作为一家共和党建立的企业,这家位于弗吉尼亚州亚历山德里亚的公司是一家“全面服务市场研究与知识管理厂商”,专门代表各企业及政治客户处理微目标受众事务,其宣称自身“服务曾帮助小布什总统在2004年的总统大选中获胜。”

TargetPoint公司属于保守派政界数据运营领域内的一家极具信誉与认可度的权威机构,并曾参与到鲁迪-朱利亚尼(Rudy Guiliani)2008年总统竞选、麦凯恩·帕林2008年总统竞选以及全国共和党参议院连任等活动当中。根据《华盛顿邮报》2007年作出的说明,TargetPoint公司创始人亚历山大·凯吉作为一名前投票与市场研究员本文源自E安全,曾向数据分析理事会介绍其曾担任总统候选人米特-罗姆尼的竞选策略总监:

“‘微目标机制的诉求在于立足DNA层面揭露政治态势的本质,’凯吉指出。‘我所掌握的信息越多,判断也就越准确。’而凯吉拥有的信息越多,即可将受众划分为更为明确的‘目标群体’,例如‘爱国与爱家共和党人’或者‘税收与恐怖主义中立者’等等。在将对方进行定义的后,在竞选活动中选择正确的宣传信息将变得相当简单。”

虽然像TargetPoint这样的数据公司本应该有能力以理想的方式存储美国公民的敏感个人信息,但考虑到此次曝光的、在未设任何安全防护机制的公开云服务器上存储1.98亿美国民众敏感个人信息及潜在政治倾向的糟糕作法,这一结论恐怕根本站不住脚。

“target_point”文件

“target_point”文件夹内容所带来的问题甚至要比Data Trusty存储库更为突出,其包含的14个以Alteryx数据库格式(.yxdb)格式(这种文件格式专门用于进行大规模数据分析)存储的文件。其中大多数文件更新于2017年1月中旬至下旬,且部分文件被标记为“联系人文件“,并用不同日期标注其更新时间。

“联系人文件”电子表格同样包含的之前提到的32位字母加数字RNC ID,囊括1.98亿潜在美国选民的个人姓名及家庭住址。每条RNC ID与名称间存在的明确关联且可用于一一识别全部1.98亿对象的个人信息。

数据记录、解读选民政治倾向

其余文件则展现了这套系统性大规模分析运作体系处理1.98亿潜在选民信息库时的具体方式,即凯吉所称的“解读政治DNA”,可将个人细节信息、背景与政治行为结合起来。鉴于这套数据收集到大多数国民的个人归属与政治偏好,且可随意下载,使其成为一套值得深度挖掘的政治资源宝库。

这套文件的日期与名称显示,总统选举之后仍有相当一部分跟踪数据,即特朗普获胜到2017年1月20日进行总统就职典礼期间的数据分析结果。

部分文件与共和党全国委员会以及TargetPoint公司官员的公开声明一致,对选举活动中的数据进行了针对性分析。举例来说,一个名为“DRA Post Elect 2016 Reluctant DJT scores 1-6-17.yxdb”的文件中包含6900万行信息,其说明了由共和党数据小组对资源库内信息进行选举后分析得出的结论。共和党数据小组通过种分析得到了一系列更重要的结论本文源自E安全,包括TargetPoint对于“反对特朗普”选民的分析以及共和党仍不确定是否应支持特朗普的数据等。

在一个题为“DRA Post Elect 2016 All Scores 1-12-17.yxdb”的50 GB文件当中,每位潜在选民皆通过46列信息进行0到1的间的十进制分数评估。这46列中的每个字段皆代表着潜在选民对于政策、政治候选人或者其主张的支持情况,其中0代表最不支持、1则代表最支持。

RNC_RegID, State, 2012ObamaVoter_DRA_12_16,    
2012RomneyVoter_DRA_12_16,
2016ClintonVoter_DRA_12_16, 2016TrumpVoter_DRA_12_16,
AmericaFirstForeignPolicy_agree_DRA_12_16
AmericaFirstForeignPolicy_disagree_DRA_12_16
AutoCompaniesShipJobsOverseas_agree_DRA_12_16
AutoCompaniesShipJobsOverseas_disagree_DRA_12_16
CorpReputs_AmericanMakers_DRA_12_16,    
CorpReputs_DailyLives_DRA_12_16,
CorpReputs_Egalitarians_DRA_12_16,
CorpReputs_EnviroConscious_DRA_12_16,
CorpReputs_OpportunitySeekers_DRA_12_16,
CorpReputs_STEMSupporters_DRA_12_16,
CorpReputs_SupplyChainers_DRA_12_16,
CorpReputs_Unifers_DRA_12_16,
DemLeadersStandUpToTrump_DRA_12_16,
DemLeadersWorkWithTrump_DRA_12_16,
DParty_DRA_12_16,
FinancialServicesHarmful_agree_DRA_12_16
FinancialServicesHarmful_disagree_DRA_12_16
FinServicesCompany_Dreamers_DRA_12_16
FinServicesCompany_RiskMitigators_DRA_12_16
FossilFuelsImportantForUSEnergySecurity_DRA_12_16
FossilFuelsNeedToMoveAwayFrom_DRA_12_16,
InvestInfrastructure_agree_DRA_12_16,
InvestInfrastructure_disagree_DRA_12_16,
LowerTaxes_agree_DRA_12_16,
LowerTaxes_disagree_DRA_12_16,
NonReluctantDJTVoter_DRA_12_16,
NonReluctantHRCVoter_DRA_12_16,
PharmaCompsDoGreatDamage_agree_DRA_12_16,
PharmaCompsDoGreatDamage_disagree_DRA_12_16,
ReformGovtRegulations_agree_DRA_12_16,
ReformGovtRegulations_disagree_DRA_12_16,
ReluctantDJT_Above.5_DRA_12_16,
ReluctantHRCVoter_DRA_12_16,
RepealObamacare_agree_DRA_12_16,
RepealObamacare_disagree_DRA_12_16 RParty_DRA_12_16,    
StopIllegalImmigration_agree_DRA_12_16,
StopIllegalImmigration_disagree_DRA_12_16,
TrumpStandUpToDems_DRA_12_16,    
TrumpWorkWithDems_DRA_12_16,
USAFinancialSituation_Optimistic_DRA_12_16,    
USAFinancialSituation_Pessimistic_DRA_12_16  
    
   

通过对1.98亿潜在选民的计算,意味着电子表格中包含95亿个归属概率。其中的问题包括:各选民在2012年是否为奥巴马总统投支持票;是否同意“美国至上”的特朗普外交政策;如何看待汽车制造业问题等等。

2亿:走进史上规模最大的美国选民数据泄露案-E安全

这份电子表格以令人印象深刻的方式展示了数据分析的力量。然而,尽管每位潜在选民皆以32位字符的RNC内部ID进行标记,但我们只需要进一步关联即可发现其真实姓名。即前文提到的存在于数据库内的“联系人文件”就能够将RNC ID与潜在选民的实际身份联系起来。

美国记者通过对确认自己的RNC ID,并借此查看了由TargetPoint计算得出的政策偏好与政治倾向验证其准确性,可怕的是这些分析出来的数据相当准确。

此次数据泄露的意义

此次数据泄露事件再次将美国民众对于隐私及安全性保障的期望推向风口浪尖。因此有必要尽快对美国选举进程内选民数据库的完整性进行攻击测试,否则人们对于网络风险可能会最终对美国民主体制乃至政府机构构成严重威胁的担忧或成为现实。

即使没有出现可公开访问的问题,对于这样一套庞大的国家数据库,选择在线创建与托管的处理方式确实存在弊端。

负责收集这些信息的私营企业、相关政治活动方并没有采取安全的方式存储本文源自E安全,这暴露出责任制度的缺失。随着数据分析能力的日益提升,普通民众愈发关注这类责任的具体分配。

2017年,信息技术系统的规模化完整性保障能力已经越来越无法满足人们的实际需求。随着对技术依赖性的不断提升,网络风险水平亦大幅增长; 随着生活中更多功能被迁移至数字化平台上,人们的日常工作与生活也面临着巨大的网络风险威胁。除了黑客性质的身份窃取、欺诈与转售的外,数据归属与分析能力亦可将个人信息用于其它更具野心的行为,例如企业营销、垃圾邮件传播以及打击高层政治目标等等。

如果利益相关者能够遵循数据收集与存储工作中的一些简单规则,即可在一定程度上有效防止这些个人信息遭到滥用的情况。

尽管事故本身是由特定党派所造成,此次数据泄露的根本原因并非单纯归结于某一党派。此次数据泄露影响到的群体涵盖各个政治阵营、居住位置以及政策主张的1.98亿美国民众。数据库遭到遗忘、第三方供应商风险以及权限设置不当,是导致此次事件的常见安全风险因素,并最终造成有史以来规模最大的个人信息泄露。

未来或还将出现规模更大的信息泄露事件。如果网络弹性原则不能在各类面向互联网的系统的上成为一种常态,那么这一次震惊全球的安全事故恐怕只是个糟糕的开端。

E安全注:Deep Root Analytics公司于6月19日发布声明称为此次数据泄露事件承担全部责任!!!

相关阅读:

全球5120TB数据泄露,Hadoop服务器配置不当是主因
报告:10%的数据泄露事件超过1年才被发现
数据泄露水平指数:2016年共外泄14亿条数据
上亿条视频网站账户数据在暗网千元售卖 优酷回应无批量帐号敏感数据泄露

E安全注:本文系E安全独家编译报道,转载请联系授权,并保留出处与链接,不得删减内容。联系方式:① 微信号zhu-geliang ②邮箱eapp@easyaq.com
@E安全,最专业的前沿网络安全媒体和产业服务平台,每日提供优质全球网络安全资讯与深度思考,欢迎关注微信公众号「E安全」(EAQapp),或登E安全门户网站www.easyaq.com , 查看更多精彩内容。