wineast
财经 | 宏观 | 国内 | 国外  投资 | 风投 | 天使 | 私募 | 产业 | 并购 | 投行  证券 | 金融资本 |  创 业 板 
商机 | 公司 | 产品 | 供求  学院 | 创业 | 管理 | 连锁 | 投行 | 理财 | 贷款  机构 | 投资机构 |  外商投资 
服务 | 展会 | 招聘 | 名录  市场 | 项目 | 投资 | 专利 | 技术 | 产权 | 连锁  互动 | 创业社区 |  有问必答 
您当前位置:中国创业投资网 >> 新闻频道 >> 产经新闻 >> IT数码 >> 浏览文章

苹果的秘密,如何打赢十亿美元的官司(3)

2012-12-11 7:07:46Tech2IPO 【字体:

你的公司要怎样使用预测编码

别担心。即使你没有打数十亿美元的官司,预测编码也是种杀手级技术。这些编码的目标是大量文件审查,公司可以拿它来做许多事情。这项技术是万能的(且具法律用途),因此微软公司已经把电子侦察功能加到2013年SharePoint门户站点,为辩护律师和专家在门户站点搜索资料以及交换信息资源以找到相关文件提供了可能。

就在本周,于德国法兰克福市的发现大会上,惠普公司发布了一个网络应用包。那是给企业服务器充当模块化的电子侦察组件的。商业期刊ChanneelBuzz上发表了以下看法:

惠普公司自主促进部门总经理拉菲克•穆罕默德说道,当一个企业从电子侦察解决方案上得到的好处多种多样,这都取决于某些国家好打官司的性格。由于电子侦察的调度性、客户化以及最优化牵涉利益于其中,这为方案供应商的加入提供了有利的空间。而且这机会并非完全取决于公司规模的大小。实际上,穆罕默德说在事业初始阶段,当他还是五人咨询组织的一员时,他就很清楚知道卷入专利诉讼所要付出的一切。

鲁比觉得,即使微软和惠普的产品不停地投放市场,预测编码(人也参与其中)在两家公司中仍属于“未开发的信息管理领域”。大多数公司可以使用预测编码来拯救过多的仓库存货,而不用像三星和苹果那样打巨额官司。

“公司可以用预测编码来鉴定并选择性删除电子文件,”他说道,“公司往往什么都不愿意删掉,他们觉得删除任何一个都可能触犯到法律禁区。但是这种电脑模式可以被设定删除那些看起来法律诉求不需要保留的文件。”这样做的好处不单单是节省大量存储和备份的开支,也使数据泥沼遗留系统的“云迁移”更为简单。

鲁比认为,在并购企业,预测编码可以帮助公司迅速找到、审查、归类联邦贸易委员会要求的文件。委员会据此检验这些文件并评定提出的并购是否有反竞争效应并最终伤害消费者的利益。这预测编码就是这么用的。

法庭案件背后的技术

为了使其成果在法庭上具有可辩护性,富通公司的预测编码机制还有其他两个部件:由内部统计员建立的统计分析机制以及使相似文档聚集在一起的“文档映射”技术。但如果你不是在做法律工作,对正在使用中的应用程序进行预测性探索就变得更为简单了,这还得多亏了名曰VowlpatWabbit(VW)的源代码开放程序库。

VW,正如名字的缩写显示的那样,是富通公司预测性侦察产品的基础,且最初是在雅虎研究院得到发展的,然后是在微软研究院。其目标是:允许非专家工程师组成的小组建立一个可快速学习、有扩展性且基于网络的学习引擎,这个引擎可以使用任何格式进行文本输入并且用“配对引擎”给文本排序。微软公司的约翰•兰福德主张进行这个项目,因为它可以仅仅使用便宜的Linux操作系统就可以处理数千万份文件。人们可以在Github知识库里找到密码和文档。

用浅显的语言进行机器学习

初始学习过程是很老套的:一个律师团从所有文件中拿出一份样本集,然后一个个审查。样本的数量要达到律师团觉得它具有代表性的程度,并允许有1%的公差。

当每一个样本被鉴定为相关或者不相关以后,这些文件就会被放入预测编码软件,该软件是通过判断所有的词和词组(也称为“杂乱信息”),或者一到三个字的组合词的重要程度,记上“权重”,并且在通常是关键词的地方记下符号,来审查所有的样本并搞清楚专家们是怎么判断文件是否相关。这些“杂乱信息”和符号往往能够明确指出相关的文件为正权,不相关文件为负权。

接着软件会检查它是否达到人类的标准:回到样本集挑选一份文件把权数相加。这个权数便用来判断文件是否相关,接着该软件会把结果跟律师的结论作一个比较。假如判断错误,那么预测编码软件会重新考虑每个部分应该加多少权重。当样本集里的每一份文件都这么处理过之后,这个软件会继续“学习”怎么记上正确的权重,以期符合专家的判断。

这个程序可以在样本集中重复好几次来提高其判断准确度。这样一来,用关键词搜索一堆文件就有了真正的优势。一个关键词搜索就只是寻找少数项目了,而不是每一条都看过去并且都去判断其重要性。

当权重被适当调整后,该软件会重新仔细阅读整个样本集,并用这个新的标准筛选相关的文件。结果当然不会百分百符合,但误差是可以调整的。我们再来看看权重吧:所有用来判断文件是否相关以及决定“判断线”的权重都是任意的。这么说吧,如果一份文件要求总权重大于零才可判定为相关文件,那么软件就会挑出专家认为相关的文件其中90%,而把剩下的10%判定为不相关。挑出来的相关文件的百分比称为“撤销”,如果判定线设在较高权重值上,那么这个百分比就会拉低判定线。

我们如果把比值定高一点,就高0.3吧,用80%的“撤销”就可以改变结果,拥有70%的精确度。由于他们都反依赖于该软件挑选出的文件数量,因此这两者之间通常都有一个交易。预测编码软件通过判断每一个可能的权重值来审查,并挑出最符合该精确度的值,撤销律师寻求的参数。然而,与其他方法相比,预测编码软件还是有更高的准确度和撤销比,上面提及的交易也可以很容易检验和管理。比如,只有在人为改变输入的反复实验过程中,关键词搜索的精确和撤销才能被调整。

最后,预测编码软件把其改善的权重值和判定线应用到所有文件的选择上,减少了需要人检查的文件数量,比如,从一千万份减到了数千份。要完全相信成果的质量,律师可以从软件生成的相关文件和不相关文件中挑一些文件(通常是从几千份中挑的)看,评估软件是否符合预期。

这种人工智能可以管理法庭和公司吗?

预测编码是人工智能年鉴上是作为“监督性机器学习”而出名的。富通公司能有效使用是因为它加入了人工训练、人工检查和统计推断。“华生电脑系统(Watson)能做好这活吗?当然了,”鲁比说道,他指的是打败了最大赢家使用自然语言的IBM个人电脑布拉德•鲁特和肯•詹宁斯,“但你还是得好好训练Watson.”(译者:郑淑娇)

文章来源:FastCompany

分享到:


网友评论:

  • 阅读排行
  • 本日
  • 本周
  • 本月
关于我们 | 免责条款 | 网站地图 | 联系我们 | 广告服务 | 帮助中心 | 会员登陆 | 友情链接 | 订阅RSS |