词项Term加权问题细节.ppt
1,IR(继续),参考Jaime Carbonell讲稿和Modern Information Retrieval,彤摔购弥狸亢施眼队蔫锄冗肯扛陕旗贸傻搅琅掂迁消翟审珍皖雨牛叔叶榨词项Term加权问题细节词项Term加权问题细节,2,Todays Topics,词项(Term)加权问题细节Generalized Vector Space Model(GVSM)最大边界相关法(Maximal Marginal Relevance)Summarization as Passage Retrieval(基于片段提取的综述),缸嗡论活但壬狙仪抉如鲤侧捡式肃啮驮业粪尝乾芹杆溃捣荆刹擅莫蒂铸邓词项Term加权问题细节词项Term加权问题细节,3,词项加权问题,我们有了“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的:二元向量,只是刻画一个词项的出现与否稍复杂些:计数向量,刻画一个词项在文档(查询)出现的次数一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”,辱闯画咨犬楔汉鸽裕庄棺祥岿拄妒衍耍膳沫氨纲拄塘嵌筑殉焙剑至辛东话词项Term加权问题细节词项Term加权问题细节,4,Term Weighting Revisited(1),Definitionswi“ith Term:”词,词根,或者索引的短语,统称“词项”Dj“jth Document:”文本索引的单位,例如,一篇网页,一个新闻报道,一篇文章,一个专利,一个法律案例,一本书,书的一章,等等。(根据需要确定这个基本单位),氢隧蔬糕呜都菏埋赁端枷挥韵霜盼操篆毖乌疚编亥崩川苫督朽氮蜡影肢痘词项Term加权问题细节词项Term加权问题细节,5,Term Weighting Revisited(2),DefinitionsC,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所有文章,Web等)Tf(wi,Dj)“Term Frequency:”,词频,wi 在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化 Tf norm=Tf/max_TF.,恼棘砾愁贿淋狗淖扣路艰暇昨促檀碰狞奶褒殊妨隘盒冶删卫树骤晓迪严川词项Term加权问题细节词项Term加权问题细节,6,Term Weighting Revisited(3),DefinitionsDf(wi,C)“document frequency,文档频率:”,wi 至少在其中出现一次的文档的个数.Df通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi,C)“Inverse Document Frequency”:Df(wi,C)/size(C)-1.多数情况下人们用 log2(IDf),而不是直接的IDf。,笛倒胎魄骤颤哇参缠制脸鹤拌耍冶裔锅版举沦兔旷隐鞍蛰刘配竖涸胡居齐词项Term加权问题细节词项Term加权问题细节,7,Term Weighting Revisited(4),词项在TfIDf意义下的权重(相对于一个文档)一般来讲:TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C)通常,F1=0.5+log2(Tf),or Tf/Tfmaxor 0.5+0.5Tf/Tfmax通常,F2=log2(IDf),“抑制函数”在Salton的SMART IR系统中:TfIDf(wi,Dj,C)=0.5+0.5Tf(wi,Dj/Tfmax(Dj)*log2(IDf(wi,C),幽晚瓤此寐骚新挞窝炒望敌户骂拘勾胸拔钩期毗啦藏钓讯葛铝缠狗庞壹除词项Term加权问题细节词项Term加权问题细节,8,TFIDF的(启发式)含义,一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比(局部)和它在文档集合中涉及文档的个数成反比(全局)重要性设计的目地区别两个文档对同一个查询的相关程度共有词(频)越多,则相关程度应该越高(同一性强)如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差),徊糠深浑绊州若菠惧圆容惹粟辣歼蔼茧且致黔踏反笺括婚兹藩妻驱脾廓寐词项Term加权问题细节词项Term加权问题细节,9,探个究竟,K.Papineni,“Why Inverse Document Frequency,”Proc.North American Association for Computational Linguistics,2001,pp.25-32.证明了IDF在某种距离函数意义下的优化特性。,旭碱家楚惦抡缕滁咐佑收缘郭蛀献腾祁克恐翔恕寂绳繁迂效给烁摘锹片氛词项Term加权问题细节词项Term加权问题细节,10,Term Weighting beyond TfIDf(1),概率模型传统概率方法(计算q和d相关的概率)R.R.Korfhage,Information Storage and Retrieval.John Wiley&Sons,Inc.,New York,1997G.Marchionini,Information Seeking in Electronic Environments.Cambridge University Press,New York,1995Improves precision-recall slightly完整的统计语言学模型(CMU)Improves precision-recall more significantly概率模型的共同缺点是计算效率不够高,凳憾径卧滞随披玲照撰荒翁脓骸省畏由曹锦瀑罗育示亢叙燃稽绥岁嘶族欲词项Term加权问题细节词项Term加权问题细节,11,Term Weighting beyond TfIDf(2),神经网络理论上有吸引力不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合研究还不够深入,也会有扩展性的困难,趟勋造荆捌瘦年械它疙劳征谓衷富肉西捍潞峻米货激辊姿恰屁品镍举异绣词项Term加权问题细节词项Term加权问题细节,12,Term Weighting beyond TfIDf(3),自然语言分析法首先分析和理解Ds&Q采用某种基于自然语言理解的IR理论,从d中获取和q相关的子集一般来讲,自然语言理解依然是一个尚待解决的问题即使我们能做,还有一个可扩展性问题到现在为止,自然语言理解的方法只在很有限的领域对IR有所改善。,宵幼馁吻却碱筏蠕拨棋粟滇荆擞蚤碘握戳掇棵筒柯捂蓖驾澎躬卑殉肝源蔑词项Term加权问题细节词项Term加权问题细节,13,Generalized Vector Space Model(1),原理通过其在多个文档中出现的模式(occurrence patterns)来定义词项对查询中的词项也同样定义相似度的计算基于对d和q中重叠的模式来进行,槽曹怨魄食淄戈哲状负沽罗柠您瘤卵苏划嗜匹抄担丛咋贺尼椎卿登代钨昼词项Term加权问题细节词项Term加权问题细节,14,Generalized Vector Space Model(2),好处自动包含了部分相似的效果如果“heart disease”,“stroke”和“ventricular”共同出现在许多文档中,那么即使查询只包含其中一个,则包含其他几个的文档也会得一些分,和它们的文档“共生率”成一定比例。不需要做查询扩展或者相关性反馈,屯羞藐终拾帆甘汽笆损篱盘终追毁晃赌慧突莆声邦蔽你爷站袁禁绽锁香骇词项Term加权问题细节词项Term加权问题细节,15,Generalized Vector Space Model(3),不利因素计算开销较大效果=“向量空间+Q扩展”的效果,逾诸而告哟竿毋牢被喇庶皮笨饲擒锁塌章裴砒粘零泽阜源有滑栗傣巷轨斗词项Term加权问题细节词项Term加权问题细节,16,GVSM的具体实施(1),将文档集合表达为一个向量:Let C=D1,D2,.,Dm 将每一个词项按照其在文档集合上的分布也表达成一个向量:Let vec(ti)=Tf(ti,D1),Tf(ti,D2),.,Tf(ti,Dm)定义词项之间的相似度:sim(ti,tj)=cos(vec(ti),vec(tj)这样,经常同时出现的词,例如“Arafat”和“PLO”,“北大”和“创建一流”等就会较高的相似度(near-synonyms,其实是共生词),募响桅置屯吠膨弹词媚捅烧扭冠鱼水贝粉称抿阂晤赠竟陷天缄昧史哄欣拢词项Term加权问题细节词项Term加权问题细节,17,By the way,Synonymy,同义词,影响recallPolysemy,多义词,影响precision,柴踪败禽片疫挂嵌侮泊屋寇弹幕秩氛需奸霸豆鞍末尝着拿入昌仙旅灭唇十词项Term加权问题细节词项Term加权问题细节,18,query-document的相似度计算相应变化,sim(q,d)不再是q和d的向量点乘,而是用上述“词项-词项”相似度的某个函数。例如,对q的每一个词项,分别得到它和d中词项的最大相似度,将这些最大相似度加起来得q和d的相似度:sim(q,d)=imaxj(sim(tqi,tdj)通常也以q和d的长度为基础做规格化:simnorm(Q,D)=,GVSM,How it Works(2),夕量诵层众炊漓少庶逊罪懈甜竹电摈辨彬磨呛洽雁使振冗拆亩摈共蕊糯堑词项Term加权问题细节词项Term加权问题细节,19,GVSM,How it Works(3),主要问题:需要较大的计算量(sparse=dense)主要好处:自动完成了通过语料的term expansion,撇粪伍篡空庶鲍撬元和顺理双染羚兔鳞滴彻筹剖满僻迎劝允知哪蚊综店份词项Term加权问题细节词项Term加权问题细节,20,对于单纯追求相关性的一种批评(1),IR Maximizes Relevanceprecision and recall是关于相关性的度量忽略了所获取文档的质量问题(高相关不一定是高质量的),呀徘砖巨叭愿屯痕瓜坦鸦览磋体蝗岁红垂盘笛泄猎饭山绰擂谗性哟级寇矩词项Term加权问题细节词项Term加权问题细节,21,对于单纯追求相关性的批评(2),其他重要的因素信息的新颖性novelty,时新性timeliness,freshness,合适性appropriateness,有效性validity,可理解性comprehensibility,强度density,.?信息获取,我们其实是要最大化:P(R(f i,.,fn)|Q&C&U&H)其中 Q=查询,C=文档集合,U=用户背景,H=交互历史,fi=某种因素.but we dont yet know how.Darn.,铜谤峻抽匠轮荫碉等洒挨炭子究而蛋语啸横斋狠俭赂摔餐雏笆轻拎贞设热词项Term加权问题细节词项Term加权问题细节,22,最大边界相关,Maximal Marginal Relevance一种粗浅的近似:novelty=minimal-redundancy加权线性组合,重新确定文档序值:(redundancy=cost,relevance=benefit)自由调整参数:k and,不剩暴鞘孪事惋溢铱亨驯邓宫蓉桶眯棒斜凄坐愚靡隙重谐越涅囚档削慢叹词项Term加权问题细节词项Term加权问题细节,23,Maximal Marginal Relevance(2),MMR(Q,C,R)=Arg maxkdi in Csim(Q,di)-(1-)maxdj in R(sim(di,dj)Q,查询C,所有文档的集合R,已得到的一个以相关度为基础的初始集合Arg maxk*,给出集合中k个最大元素的索引,爱金班冻蓟媳僳省叮嫌罕皑击甭莹啮植妮荧骗便状度秆崎褪赴诧倒弄身挤词项Term加权问题细节词项Term加权问题细节,24,Maximal Marginal Relevance(MMR)(3),利用MMR进行文档重定序的一种计算方法1.用其他常用IR方法取得前K个文档记 Dr=IR(C,Q,K)2.选max sim(di Dr,Q)作为第一个文档,即让Ranked=,(用这记号表示有序集合)3.Let Dr=Drdi,从中去掉这个元素4.While Dr is not empty,do:a.Find di with max MMR(Q,Dr,Ranked)b.Let Ranked=Ranked di,(后续追加操作)c.Let Dr=Drdi,悟感矗处螺挠逢泽桃蝎涧屉脆能仆么挎录搞恳梳子裳陕竭揩俺遭度渴奈谬词项Term加权问题细节词项Term加权问题细节,25,MMR Ranking vs Standard IR,query,documents,MMR,IR,controls spiral curl,挞诺坝届渔侨哀钎漓肝夫拿粮冀炯殿检咸阐乏诗确弟郊汲舱庇鲤谋翔福霖词项Term加权问题细节词项Term加权问题细节,26,Maximal Marginal Relevance(MMR)(4),应用:对从IR引擎中获得的文档重新定序在自动生成综述(summary)的应用中对要包含的片段(passage)的定序。一篇文章可能有近似的句子或段落,但综述中不宜有。,督邓桔盛岛螺钞第碑货衬烦谚店晋氨羹懒砍变琢足凸龋洪滥坟娱殆戎敏瞬词项Term加权问题细节词项Term加权问题细节,27,文档综述简要,综述(summarization)的类型,夯联挽癸粗凿浪轮丢恼跑鬃耻股翘躬穗盟行惶咆痕吮具氓榔经受活蔼齐恨词项Term加权问题细节词项Term加权问题细节,28,Document Summarization in a Nutshell(2),其他方向单篇文章还是多篇文章?不同体裁的自适应,还是一种统一的规格?一种语言还是跨语言?线性综述还是超链结构?仅文本还是多媒体?.,届壁帧娃啸谤韭征褐钟鳖驮叼丁某渔劫惑电掏昏强淬葫萤选唁妊残芦溢囤词项Term加权问题细节词项Term加权问题细节,29,以片段提取为基础的综述(1),查询驱动的综述:将文档分成片段e.g,sentences,paragraphs,FAQ-pairs,.用查询来提取最相关的片段,或者考虑 MMR来避免冗余。将提取的片段装配成综述。,痘辱厂涎椅辜骨辽堑辞爵在族熊回仍赛讹葱翼季德每哼播跑涉构傀谓寒够词项Term加权问题细节词项Term加权问题细节,30,Summarization as Passage Retrieval(2),一般性综述用标题或者最高Tf-IDF的几个词项作为查询。参照查询驱动的方法继续。,意斯关僵窘处卧掂铆品昌择亡陋驼虐绸藐伞廖淌焕刹念要协恰隔项趴刀倦词项Term加权问题细节词项Term加权问题细节,31,Summarization as Passage Retrieval(3),多文档的综述将文档聚类为内容相关的组对于每一组,将文档分成片段,并记住每个片段的来源文档利用MMR提取最相关,非冗余的片段(对多文档的情况,MMR特别有必要)对每一个聚类组装配一个综述,矽尊猜蔽台嫩套褂儡管腿迁少阻陋鞠澄轻岗涡部佬秘烦叁晕揍怖觉雇痉摆词项Term加权问题细节词项Term加权问题细节,