mdsk.net
当前位置:首页 >> pAnDAs.DAtAFrAmE.loC好慢,怎么遍历访问DAtAFrAmE... >>

pAnDAs.DAtAFrAmE.loC好慢,怎么遍历访问DAtAFrAmE...

如果用for来遍历,pandas比普通的python程序还要慢. 试试Series.apply函数来调用do_some_things_with_time,自然就得到了一个新的处理过的time列. df.time2=df.time.apply(do_some_things_with_time) 或者直接赋值给df.time也行

如果你要添加一千条记录,不要一条一条的concate。 可以试着每一百条组成一个小的dataframe,分十次粘上去,会快一点

In [129]: s = pd.Series(range(-3, 4)) In [130]: s Out[130]: 0 -3 1 -2 2 -1 3 0 4 1 5 2 6 3 dtype: int64

求列的平均值 x.mean()

首先是引入pandas和numpy,这是经常配合使用的两个包,pandas依赖于numpy,引入以后我们可以直接使用np/pd来表示这个两个模块先创建一个时间索引,所谓的索引(index)就是每一行数据的id,可以标识每一行的唯一值为了快速入门,我们看一下如何创...

In [129]: s = pd.Series(range(-3, 4)) In [130]: s Out[130]: 0 -3 1 -2 2 -1 3 0 4 1 5 2 6 3 dtype: int64

如果用for来遍历,pandas比普通的python程序还要慢. 试试Series.apply函数来调用do_some_things_with_time,自然就得到了一个新的处理过的time列. df.time2=df.time.apply(do_some_things_with_time) 或者直接赋值给df.time也行

先来看一下今天用到的数据框的内容 假如我们要选择A列的数据进行操作:df['a'] 还可以使用数组的切片操作,但是注意了,切片得到的是行数据 如果你想使用这个方法得到列,那就会出现错误 我们还可以使用行标签来指定输出的行 DataFrame的loc方法...

首先是引入pandas和numpy,这是经常配合使用的两个包,pandas依赖于numpy,引入以后我们可以直接使用np/pd来表示这个两个模块 先创建一个时间索引,所谓的索引(index)就是每一行数据的id,可以标识每一行的唯一值 为了快速入门

使用set_index函数,示例如下: from pandas import DataFramedf1 = DataFrame({'name': ['zhao', 'qian', 'sun', 'li'], 'yu_wen': [90, 80, 70, 60], 'shu_xue': [60, 70, 80, 90]})df2 = df1.set_index('name')结果如下:

网站首页 | 网站地图
All rights reserved Powered by www.mdsk.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com