200字范文 > inner join 重复数据_pandas数据合并菜谱

inner join 重复数据_pandas数据合并菜谱

时间：2020-06-22 17:24:42

concat()

我们可以通过DataFrame或Series类型的concat方法，来进行连接操作，连接时，会根据索引进行对齐。

axis：指定连接轴，默认为0(上下)。【axis=0/1】

join：指定连接方式，默认为外连接。【join='outer'：并集，join='inner'：交集】

keys：可以用来区分不同的数据组。形成层级索引【这个稍微难理解一点】

join_axes：指定连接结果集中保留的索引。默认全部保留【如：join_axes=[df1.columns]】

ignore_index：忽略原来连接的索引，创建新的整数序列索引，默认为False。【ignore_index=True/False】

sort：concat之后，是否按照列索引排序，sort=True/False

df1=pd.DataFrame({"date":[,,,,],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]})
df2=pd.DataFrame({'date':[,,,],"y1":[1000,2000,3000,2000]})
# display(df1,df2)
df3=pd.concat([df1,df2],keys=["df1","df2"])
display(df3)
#索引层级索引元素时，先外再内
df3.loc["df2",3].loc["y1"]

append()

在对行进行连接时，也可以使用Series或DataFrame的append方法。append是concat的简略形式,只不过只能在axis=0上进行合并

df1=pd.DataFrame({"date":[,,,,],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]})
df2=pd.DataFrame({'date':[,,,],"y1":[1000,2000,3000,2000]})
# display(df1,df2)df3=df1.append(df2)
display(df3)

merge()

通过pandas或DataFrame的merge方法，可以进行两个DataFrame的连接，这种连接类似于SQL中对两张表进行的join连接。how：指定连接方式。可以是inner, outer, left, right，默认为inner。on 指定连接使用的列(该列必须同时出现在两个DataFrame中)，默认使用两个DataFrame中的所有同名列进行连接。left_on / right_on：指定左右DataFrame中连接所使用的列。left_index / right_index：是否将左边(右边)DataFrame中的索引作为连接列，默认为False。suffixes：当两个DataFrame列名相同时，指定每个列名的后缀(用来区分)，默认为x与y。

df1=pd.DataFrame({"date":[,,,,],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]})
df2=pd.DataFrame({'date':[,,,],"y1":[1000,2000,3000,2000]})
# display(df1,df2)
df3=df1.merge(df2,how='left',on="date")
display(df3)

join()

与merge方法类似，但是默认使用索引进行连接。how：指定连接方式。可以是inner, outer, left, right，默认为left。on：设置当前DataFrame对象使用哪个列与参数对象的索引进行连接。lsuffix / rsuffix：当两个DataFrame列名相同时，指定每个列名的后缀(用来区分)，如果不指定，列名相同会产生错误。join与merge类似，都是进行两张表的连接。不同点：merge默认进行的内连接(inner)，join默认进行的左外连接(left)。当出现同名字段(列索引)时，merge可以自动补后缀(_x, _y)，但是join不会自动补后缀，而是会产生错误。merge默认使用同名的列进行等值连接。join默认使用左右两表的索引进行连接。merge中on参数，指定两张表中共同的字段，而join中on参数，仅指定左表中的字段(右表依然使用索引)。merge与join侧重点不同，merge侧重的是使用字段进行连接，而join侧重的是使用索引进行连接。

df1=pd.DataFrame({"date":[,,,,],"x1":[2000,3000,5000,8000,10000],"x2":[np.nan,"d","d","c","c"]})
df2=pd.DataFrame({'date':[,,,],"y1":[1000,2000,3000,2000]})
# display(df1,df2)
df3=df1.join(df2,how='left',lsuffix='_x',rsuffix='_y')#根据索引对齐
display(df3)

数据分析与运营更多知识点关注博客，共同分享交流学习。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。