Fuzzyjoin:在不完全匹配的情况下联接数据帧
Fuzzyjoin程序包是dplyr的join操作的变体,它不仅允许匹配列之间匹配的值,还可以匹配不精确的匹配。 这样就可以匹配:
在一定公差范围内的数值( difference_inner_join )
Levenshtein / cosine / Jaccard距离或包中的相似的字符串( stringdist_inner_join )
一列中的正则表达式与另一列中的正则表达式( regex_inner_join )
跨多个列的欧几里得距离或曼哈顿距离( distance_inner_join )
基于经度和纬度的地理距离( geo_inner_join )
与( interval_inner_join )重叠的(开始,结束) interval_inner_join
基因组间隔(包括染色体ID和(开始,结束)对)重叠(
2022-02-25 16:58:22
363KB
R
1