表情符号,简洁而呆萌,但苹果公司排出表情符号流行榜的方法则有点讲究。公司解释了在表情符号排序中,如何收集表情符号图片的大数据,同时又在个人层面保护用户的隐私权。
他们使用了一种称为“差分隐私”的计算机科学策略。简言之,就是添加一些可控的噪声,来掩盖来自某人手机的数据,但当这些噪声数据与其他人的噪声数据结合之后,统计者仍能理解从大数据层面收集的东西。
“差分隐私”,概念不错,但作为术语,真有点令人费解。
美国宾州大学计算机和信息科学副教授亚伦·罗斯打了个比方,比如想在大选前作个民意调查,弄清投给某党的比例是多少。民意测验专家就给选民打电话询问并作记录。而要是记录泄露或被盗,名单上所有人的名字和党派选择就会暴露。也就是说,你了解到了谁会赢,但将公众的隐私置于危险中。
加入“差分隐私”后的操作是,给选民打电话,不过在问话前先让其掷一枚硬币。如果肖像面朝上,就请他/她说出自己真正想投哪一方;如硬币是反面,则要求在两方中任选(这意味着听到两党的几率各半)。如此,有75%的机会听到选民要投的真意;而25%的机会听到谎言。
你会说,这样不是有噪声了吗?的确,但那噪声是有意加上去的。由于调查人员也不知道所听到的答案是否真意,意味着即使民调记录暴露,选民的个人信息仍将不受损害。“不可能对任何个人下定论,人人都似是而非。即使某个数据泄露,也没人会知道它是否准确。”
但最重要的是,调查人员仍能据此得到预测选举所需要的平均值,因为他们知道添加数据噪声的具体步骤。所以,大局是清楚的,但局部是模糊的。
罗斯说,“这是一个例子,差分隐私,提供了隐私保护,以及铺开进行类似事情的方法。”
苹果公司确定表情符号这样的趋势行为时,就采用了类似的方法。其博客称:“这源于一个概念:仔细校准的噪声会掩盖各别用户的数据。而当许多人提交数据时,所添加的噪声达到平均值,有意义的信息就会出现。”
苹果公司说,任何iOS用户都可选择“共享iPhone分析”与否,方法是:在设置中选隐私—分析—切换—关闭/打开“共享iPhone分析”。一旦选择共享,那么手机上的数据会加上噪声,随机加密后再送到苹果公司的服务器。公司表示,“这些记录不包含设备标识符,也不包括时间戳。” 小云