Dataframe 셀 내부의 목록을 별도의 행으로 폭발시키는 방법
목록이 들어있는 팬더 셀을 각각의 값에 대한 행으로 변환하려고 합니다.
자, 이걸 받아보세요.
만약 내가 그 값들을 풀어서 쌓아두고 싶다면,nearest_neighbors
각 값이 각 값 내의 행이 되도록 열을 지정합니다.opponent
인덱스, 어떻게 하는 게 좋을까요?이와 같은 작업을 위한 판다 방법이 있습니까?
목록과 같은 열을 폭발시키는 것은 팬더 0.25의 추가로 상당히 단순화되었습니다.explode()
방법:
df = (pd.DataFrame({'name': ['A.J. Price'] * 3,
'opponent': ['76ers', 'blazers', 'bobcats'],
'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
.set_index(['name', 'opponent']))
df.explode('nearest_neighbors')
발송:
nearest_neighbors
name opponent
A.J. Price 76ers Zach LaVine
76ers Jeremy Lin
76ers Nate Robinson
76ers Isaia
blazers Zach LaVine
blazers Jeremy Lin
blazers Nate Robinson
blazers Isaia
bobcats Zach LaVine
bobcats Jeremy Lin
bobcats Nate Robinson
bobcats Isaia
아래 코드에서 먼저 행 반복을 쉽게 하기 위해 인덱스를 재설정합니다.
외부 리스트의 각 요소가 대상 DataFrame의 행이고 내부 리스트의 각 요소가 열 중 하나인 리스트 리스트를 작성합니다.이 중첩 목록은 최종적으로 연결되어 원하는 DataFrame을 만듭니다.
나는 a를 사용합니다.lambda
목록 반복과 함께 기능하여 각 요소에 대한 행을 만듭니다.nearest_neighbors
관련된 사람과 짝을 이루는name
그리고.opponent
.
마지막으로 이 목록에서 새 DataFrame을 만듭니다(원래 열 이름을 사용하고 인덱스를 다시 다음으로 설정).name
그리고.opponent
).
df = (pd.DataFrame({'name': ['A.J. Price'] * 3,
'opponent': ['76ers', 'blazers', 'bobcats'],
'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
.set_index(['name', 'opponent']))
>>> df
nearest_neighbors
name opponent
A.J. Price 76ers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
blazers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
bobcats [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
df.reset_index(inplace=True)
rows = []
_ = df.apply(lambda row: [rows.append([row['name'], row['opponent'], nn])
for nn in row.nearest_neighbors], axis=1)
df_new = pd.DataFrame(rows, columns=df.columns).set_index(['name', 'opponent'])
>>> df_new
nearest_neighbors
name opponent
A.J. Price 76ers Zach LaVine
76ers Jeremy Lin
76ers Nate Robinson
76ers Isaia
blazers Zach LaVine
blazers Jeremy Lin
blazers Nate Robinson
blazers Isaia
bobcats Zach LaVine
bobcats Jeremy Lin
bobcats Nate Robinson
bobcats Isaia
2017년 6월 편집
대안적인 방법은 다음과 같습니다.
>>> (pd.melt(df.nearest_neighbors.apply(pd.Series).reset_index(),
id_vars=['name', 'opponent'],
value_name='nearest_neighbors')
.set_index(['name', 'opponent'])
.drop('variable', axis=1)
.dropna()
.sort_index()
)
사용하다apply(pd.Series)
그리고.stack
,그리고나서reset_index
그리고.to_frame
In [1803]: (df.nearest_neighbors.apply(pd.Series)
.stack()
.reset_index(level=2, drop=True)
.to_frame('nearest_neighbors'))
Out[1803]:
nearest_neighbors
name opponent
A.J. Price 76ers Zach LaVine
76ers Jeremy Lin
76ers Nate Robinson
76ers Isaia
blazers Zach LaVine
blazers Jeremy Lin
blazers Nate Robinson
blazers Isaia
bobcats Zach LaVine
bobcats Jeremy Lin
bobcats Nate Robinson
bobcats Isaia
세부 사항
In [1804]: df
Out[1804]:
nearest_neighbors
name opponent
A.J. Price 76ers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
blazers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
bobcats [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
이건 정말 좋은 질문이라고 생각해요 하이브에서 사용할 수 있는EXPLODE
, 팬더가 기본적으로 이러한 기능을 포함해야 한다는 사례가 있다고 생각합니다.다음과 같은 중첩 생성기 이해로 목록 열을 폭발시킬 수 있습니다.
pd.DataFrame({
"name": i[0],
"opponent": i[1],
"nearest_neighbor": neighbour
}
for i, row in df.iterrows() for neighbour in row.nearest_neighbors
).set_index(["name", "opponent"])
지금까지 발견한 방법 중 가장 빠른 방법은 DataFrame을 다음과 같이 확장하는 것입니다..iloc
납작해진 목표 열을 다시 할당합니다.
일반적인 입력(약간 복제됨)이 주어졌을 때:
df = (pd.DataFrame({'name': ['A.J. Price'] * 3,
'opponent': ['76ers', 'blazers', 'bobcats'],
'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
.set_index(['name', 'opponent']))
df = pd.concat([df]*10)
df
Out[3]:
nearest_neighbors
name opponent
A.J. Price 76ers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
blazers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
bobcats [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
76ers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
blazers [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
...
다음과 같은 대안이 제시된 경우:
col_target = 'nearest_neighbors'
def extend_iloc():
# Flatten columns of lists
col_flat = [item for sublist in df[col_target] for item in sublist]
# Row numbers to repeat
lens = df[col_target].apply(len)
vals = range(df.shape[0])
ilocations = np.repeat(vals, lens)
# Replicate rows and add flattened column of lists
cols = [i for i,c in enumerate(df.columns) if c != col_target]
new_df = df.iloc[ilocations, cols].copy()
new_df[col_target] = col_flat
return new_df
def melt():
return (pd.melt(df[col_target].apply(pd.Series).reset_index(),
id_vars=['name', 'opponent'],
value_name=col_target)
.set_index(['name', 'opponent'])
.drop('variable', axis=1)
.dropna()
.sort_index())
def stack_unstack():
return (df[col_target].apply(pd.Series)
.stack()
.reset_index(level=2, drop=True)
.to_frame(col_target))
나는 그것을 발견합니다.extend_iloc()
가 가장 빠릅니다.
%timeit extend_iloc()
3.11 ms ± 544 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit melt()
22.5 ms ± 1.25 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit stack_unstack()
11.5 ms ± 410 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
적용을 통한 더 나은 대체 솔루션(pd).시리즈):
df = pd.DataFrame({'listcol':[[1,2,3],[4,5,6]]})
# expand df.listcol into its own dataframe
tags = df['listcol'].apply(pd.Series)
# rename each variable is listcol
tags = tags.rename(columns = lambda x : 'listcol_' + str(x))
# join the tags dataframe back to the original dataframe
df = pd.concat([df[:], tags[:]], axis=1)
하이브의 EXPORT 기능과 유사:
import copy
def pandas_explode(df, column_to_explode):
"""
Similar to Hive's EXPLODE function, take a column with iterable elements, and flatten the iterable to one element
per observation in the output table
:param df: A dataframe to explod
:type df: pandas.DataFrame
:param column_to_explode:
:type column_to_explode: str
:return: An exploded data frame
:rtype: pandas.DataFrame
"""
# Create a list of new observations
new_observations = list()
# Iterate through existing observations
for row in df.to_dict(orient='records'):
# Take out the exploding iterable
explode_values = row[column_to_explode]
del row[column_to_explode]
# Create a new observation for every entry in the exploding iterable & add all of the other columns
for explode_value in explode_values:
# Deep copy existing observation
new_observation = copy.deepcopy(row)
# Add one (newly flattened) value from exploding iterable
new_observation[column_to_explode] = explode_value
# Add to the list of new observations
new_observations.append(new_observation)
# Create a DataFrame
return_df = pandas.DataFrame(new_observations)
# Return
return return_df
그래서 이 모든 대답들은 훌륭하지만 저는 정말 간단한 것을 원했습니다. 그래서 저의 기여는 다음과 같습니다.
def explode(series):
return pd.Series([x for inner_list in series for x in inner_list])
그게 다에요..목록이 'exploded'인 새 시리즈를 원할 때만 사용합니다.value_counts()를 수행하는 예제가 있습니다.
In[1]: df = pd.DataFrame({'column': [['a','b','c'],['b','c'],['c']]})
In [2]: df
Out[2]:
column
0 [a, b, c]
1 [b, c]
2 [c]
In [3]: explode(df['column'])
Out[3]:
0 a
1 b
2 c
3 b
4 c
5 c
In [4]: explode(df['column']).value_counts()
Out[4]:
c 3
b 2
a 1
여기에 더 큰 데이터 프레임에 대한 잠재적인 최적화 방법이 있습니다.이는 "폭발" 필드에 동일한 값이 여러 개 존재할 때 더 빠르게 실행됩니다. (필드의 고유 값 카운트와 비교할 때 데이터 프레임이 클수록 이 코드의 성능이 더 뛰어납니다.)
def lateral_explode(dataframe, fieldname):
temp_fieldname = fieldname + '_made_tuple_'
dataframe[temp_fieldname] = dataframe[fieldname].apply(tuple)
list_of_dataframes = []
for values in dataframe[temp_fieldname].unique().tolist():
list_of_dataframes.append(pd.DataFrame({
temp_fieldname: [values] * len(values),
fieldname: list(values),
}))
dataframe = dataframe[list(set(dataframe.columns) - set([fieldname]))]\
.merge(pd.concat(list_of_dataframes), how='left', on=temp_fieldname)
del dataframe[temp_fieldname]
return dataframe
올레크 확장하기.iloc
모든 목록을 자동으로 평평하게 만드는 답변 - columns:
def extend_iloc(df):
cols_to_flatten = [colname for colname in df.columns if
isinstance(df.iloc[0][colname], list)]
# Row numbers to repeat
lens = df[cols_to_flatten[0]].apply(len)
vals = range(df.shape[0])
ilocations = np.repeat(vals, lens)
# Replicate rows and add flattened column of lists
with_idxs = [(i, c) for (i, c) in enumerate(df.columns) if c not in cols_to_flatten]
col_idxs = list(zip(*with_idxs)[0])
new_df = df.iloc[ilocations, col_idxs].copy()
# Flatten columns of lists
for col_target in cols_to_flatten:
col_flat = [item for sublist in df[col_target] for item in sublist]
new_df[col_target] = col_flat
return new_df
이것은 각 목록 열의 목록 길이가 동일하다고 가정합니다.
apply(pd)를 사용하는 대신.영상 시리즈) 열을 평평하게 만들 수 있습니다.이를 통해 성능이 향상됩니다.
df = (pd.DataFrame({'name': ['A.J. Price'] * 3,
'opponent': ['76ers', 'blazers', 'bobcats'],
'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
.set_index(['name', 'opponent']))
%timeit (pd.DataFrame(df['nearest_neighbors'].values.tolist(), index = df.index)
.stack()
.reset_index(level = 2, drop=True).to_frame('nearest_neighbors'))
1.87 ms ± 9.74 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
%timeit (df.nearest_neighbors.apply(pd.Series)
.stack()
.reset_index(level=2, drop=True)
.to_frame('nearest_neighbors'))
2.73 ms ± 16.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
언급URL : https://stackoverflow.com/questions/32468402/how-to-explode-a-list-inside-a-dataframe-cell-into-separate-rows
'programing' 카테고리의 다른 글
두 Panda 데이터 프레임에서 공통 행 찾기(교차로) (0) | 2023.10.27 |
---|---|
MySQL로 유창한 nHibernate를 구성하는 방법 (0) | 2023.10.27 |
CakePHP 데이터베이스 연결 "Myql"이 없거나 만들 수 없습니다. (0) | 2023.10.27 |
분리 범위 및 ng-모델이 포함된 지침 (0) | 2023.10.27 |
"림라프"가 무슨 뜻인지 아는 사람? (0) | 2023.10.27 |