본문 바로가기
반응형

데이터프레임12

[python] 데이터 프레임 전처리 - replace 이용하기 데이터 프레임 전처리 - replace 이용하기 지난 번 사용했던 데이터에서 추가로 학번을 데이터로 가지고 있는 데이터 프레임이 있다고 하자. 2022.06.21 - [self.python] - [python] 데이터 프레임 합치기 - concat, append, join 0. 데이터 프레임 준비 지난 글에서 사용했던 데이터 프레임에 학번 열을 새로 추가해서 사용해보겠다. import pandas as pd myList1 = [['Mary', 23], ['Kate', 25]] myList2 = [['Mark', 27], ['Maxi', 30]] mycol = ['Name', 'Age'] df1 = pd.DataFrame(myList1, columns = mycol) df2 = pd.DataFrame(my.. 2022. 7. 3.
[python] 숫자 데이터 자리수 맞추어 표시하기(앞에 0 채워주기) - zfill() 숫자 데이터 자리수 맞추어 표시하기(앞에 0 채워주기) - zfill() 데이터 프레임에 있는 숫자 데이터에 zfill() 함수를 적용하여 자리수를 맞춰 줄 수 있다. 예를 들어 [19, 392, 1205] 이런 데이터가 있다고 할 때 zfill()를 잘 활용하여 [0019, 0392, 1205] 로 만들어 줄 수 있다. 원하는 자리수에 따라 써줄 수 있어서 [00019, 00392, 01205] 와 같이 바꾸는것도 가능하다. 0. 데이터 프레임 준비 import numpy as np import pandas as pd score = {'Year' : ['2016', '2017', '2018', '2019', '2020', '2021', '2022'], 'Mary': [90, 68, 70, 80, 92,.. 2022. 6. 27.
[python] 데이터프레임 데이터 타입 바꾸기 데이터프레임 데이터 타입 바꾸기 데이터 프레임 내 데이터들은 astype 이라는 함수로 데이터 타입을 변경할 수 있다. 0. 데이터 프레임 준비 예시를 들기 위해 임의의 데이터 프레임을 하나 만들어보았다. import numpy as np import pandas as pd score = {'Date' : [2016.03, 2017.03, 2018.03, 2019.03, 2020.03, 2021.03, 2022.03], 'Mary': [90, 68, 70, 80, 92, 68, 78], 'Kate': [90, 68, 70, 80, 92, 68, 78], 'Mark': [39, 59, 60, 73, 84, 87, 92], 'Maxi': [83, 92, 71, 56, 79, 93, 85]} df = pd.D.. 2022. 6. 20.
[python] 데이터프레임 값에 apply 로 함수 적용하는 다양한 방법 데이터프레임 값에 apply 로 함수 적용하는 다양한 방법 데이터 프레임의 값에 각 함수를 적용해야 할 때가 있다. 뭐 예를 들어서.. 각 행 별로 평균값을 계산해서 열로 만들어야 한다던지, 다 같이 +1 이 필요하다던지.. 그런 경우에 데이터 프레임에 apply를 사용해서 원하는 값에 원하는 함수를 적용할 수 있다. 1. 데이터 준비 import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint(10, size = (5, )), columns=["First"]) df['Second'] = np.random.randint(10, size = (5,)) df['Third'] = np.random.randint(10, size = (5,.. 2022. 6. 1.
[python] 0 으로 채워진 데이터 프레임 만들기! - zeros 0 으로 채워진 데이터 프레임 만들기! - zeros 가끔 분석을 하다보면.. 빈 값이 아니라 0으로 일단 어떤 값이 채워져 있는 데이터 프레임이 필요한 경우가 있다. 내가 필요한 데이터 프레임의 size를 알고 있다면 numpy의 0행렬 만드는 기능을 통해 쉽게 0으로 채워진 데이터 프레임을 만들 수 있다. 1. 0 행렬 만들기 import numpy as np import pandas as pd myArr = np.zeros((7, 6)) # size를 알고 있어야 함 myArr np.zeros 는 0행렬을 만들어주는 numpy 함수이다. 7 X 6 size의 0행렬이 만들어졌음을 확인할 수 있다. 2. 데이터 프레임 만들기 df_zero = pd.DataFrame(myArr, columns = ['.. 2022. 5. 31.
[python] 데이터프레임 조건에 맞는 행 index 뽑아오기 - index 데이터프레임 조건에 맞는 행 index 뽑아오기 - index 데이터 프레임에서 조건에 맞는 행의 index를 뽑아오는 방법은 바로 .index를 붙이면 된다. 바로 전 글에서 isin을 사용해서 데이터 프레임에서 값으로 행을 추출하는 방법에 대해 설명했는데 2022.05.30 - [self.python] - [python] 데이터프레임 조건에 맞는 행 index 뽑아오기 그 바로 뒤에 .index를 붙이면 그 조건을 만족하는 행의 인덱스를 알 수 있다. 보통 이렇게 쓰는 경우는 그 조건에 부합하는 행을 삭제하기 위해서 사용하는 경우가 많은 것 같다. isin() 을 사용해서 조건에 맞는 행을 뽑아내고 바로 drop을 하면 에러가 나게 된다. drop함수 안에는 index를 써야 제대로 drop이 된다... 2022. 5. 30.
[python] isin() 사용해서 데이터 프레임에서 데이터 값으로 행 추출하는 방법 isin() 사용해서 데이터 프레임에서 데이터 값으로 행 추출하는 방법 데이터 프레임에서 데이터 값으로 그 행을 가져오는 방법은 isin 함수를 사용하는 것이다. isin 함수를 사용하지 않고 데이터 프레임 필터 기능을 사용해서 가져오는 방법도 물론 가능한데 이 경우 여러개를 가져오고 싶을때 여러번 써줘야 한다는 단점이 있다. 지정하려는 데이터가 있는 열을 index로 지정하여 가져오는 방법도 있지만, 그 데이터가 이후에 접근해야 하는 데이터라면 index에서 다시 데이터로 변환해주어야 하기 때문에 isin 함수를 사용하는 것이 편리할 것이라 생각한다. 코드로 보면 더 이해가 될 것 같다. 1. 데이터 프레임 준비 import numpy as np import pandas as pd score = {'Y.. 2022. 5. 29.
[python] 데이터 프레임 행(row) 추가하기 데이터 프레임 행(row) 추가하기 2022.05.19 - [self.python] - [python] loc , iloc 으로 행 데이터 접근하기 저번에 loc, iloc 으로 행 데이터 접근하는 방법을 공부해 봤었는데 그 때 만든 데이터 프레임을 활용해서 데이터 프레임에 행을 추가하는 방법에 대해 공부해보자. import numpy as np import pandas as pd score = {'Year' : ['2016', '2017', '2018', '2019', '2020', '2021', '2022'], 'Mary': [90, 68, 70, 80, 92, 68, 78], 'Kate': [90, 68, 70, 80, 92, 68, 78], 'Mark': [39, 59, 60, 73, 84, 87.. 2022. 5. 22.
[python] loc , iloc 으로 행 데이터 접근하기 데이터 프레임에서 loc , iloc 으로 행 데이터 접근하기 열 데이터를 접근하려면 그냥 column 명으로 접근하면 된다. 여러 column의 값을 가져오고 싶으면 원하는 column 명을 리스트 형식으로 쓰면 된다. 데이터 프레임에서 행 방향으로 데이터를 접근.. 또는 선택 하는 방법은 .loc 와 .iloc 이 있다. .loc : 인덱스 명을 적어서 참조하는 방법 .iloc : 정수 인덱스 형식으로 적어서 참조하는 방법 예시를 위해 임의의 데이터 프레임을 하나 만들어보겠다. import numpy as np import pandas as pd import seaborn as sns score = {'Mary': [90, 68, 70, 80, 92, 68, 78], 'Kate': [90, 68, 7.. 2022. 5. 19.
[python] 데이터 프레임 열 순서 변경하는 방법 데이터 프레임(DataFrame) 열 순서 변경하는 방법 데이터 프레임에서 열 끼리의 연산을 해서 새로운 열을 만들어 냈는데 그 경우 열이 맨 끝에 추가되서 보기가 어렵다거나 그냥 열 순서가 엉망인 경우... 열 순서를 바꾸고 싶은 경우가 있다. 열 순서를 변경하는 방법은 간단하다. '이름', '성별', '나이' 라는 세 개의 열을 가진 df 라는 데이터프레임이 있을 때 df = df[['성별', '나이', '이름']] 이렇게 원하는 순서대로 열 이름을 리스트로 넣어주면 된다. 모든 열의 이름을 넣어야 한다. 만약 ['성별', '이름'] 이렇게 넣게 되면 '나이' 열은 없어지게 된다. 열을 삭제하고 싶었다면 그렇게 해도 된다. 예시) import numpy as np import pandas as pd .. 2022. 5. 17.
[python] DataFrame의 결측치를 시각화 해서 확인하기 - missingno 사용 DataFrame의 결측치를 시각화 해서 확인하기 - missingno 사용 데이터를 불러왔을 때 결측 값의 유무를 isnull( ) 또는 isna( ) 함수를 사용하여 확인할 수 있지만 missingno.matrix( ) 를 사용하여 시각화하여 확인할 수 도 있다. 그러려면 우선 missingno 라는 라이브러리가 설치되어 있어야 한다. 예시를 위해 seaborn 에서 기본적으로 제공하는 데이터셋 중 하나인 titanic 데이터를 불러 오겠다. 1. 필요한 라이브러리 import import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 데이터 분석에 있어서 기본적인 라이브러리 import 1.. 2022. 5. 13.
[python] DataFrame 의 결측값, 중복값 확인하고 제거하기 DataFrame 의 결측값, 중복값 확인하고 제거하기 데이터 프레임 내의 데이터들은 결측치(값이 없는 칸) 또는 중복값(모든 열의 값이 동일한 row 들)이 있을 수 있다. 데이터 분석을 하기 전에 이 값들을 제거하고 시작하는 것이 용량을 줄이기에도 좋고, 이상한 결과가 나오지 않게 하는 데에도 좋다. import numpy as np import numpy as pd import matplotlib.pyplot as plt import seaborn as sns # 데이터 분석하는데 import 하고 시작하는 것들. # 이번 글에서는 필요없는 부분도 있지만 보통 데이터 분석할 때 다 쓰인다. 1. 결측치 확인하기 결측치는 .isna( ) 또는 .isnull( ) 함수로 쉽게 확인할 수 있다. df1... 2022. 5. 12.
반응형