반응형 전체 글135 [Statics] 표본평균의 분포 - 중심극한 정리 표본평균의 분포 - 중심극한 정리 중심극한 정리는 모집단의 분포를 몰라도 표본 샘플링만으로도 가설검정을 가능하게 하기 때문에 중요하다. 그리고 보통 데이터 수집을 할 때 전수조사를 하는 것은 어렵고, 샘플링 하여 데이터를 수집하는 경우가 많은데 그 샘플 데이터를 가지고 모집단을 추론하는 것이 중요하고 또 필요하다. 데이터 분석을 하는 이유가 결국 모집단에 대한 정보를 얻기 위함이기 때문이다. 그런 이유에서 중심극한 정리는 매우 중요하고 기본적인 내용이 될 수 있다고 생각하며 중심극한 정리에 대해서 공부해보자. 중심극한 정리란? central limit theorem, 평균이 μ 이고, 분산이 σ² 인 임의의 모집단에서 뽑은 확률표본(임의의 표본)의 평균의 분포는 표본의 크기가 크면 근사적으로 평균 μ, .. 2022. 7. 17. 식각(etching) 공정에서 profile에 영향을 미치는 loading effect에 대해서 - 2 식각(etching) 공정에서 profile에 영향을 미치는 loading effect에 대해서 - 2 반도체의 식각(etching) 공정은 진행하고자 하는 패턴에 따라 식각 속도나 proflie에 영향을 줄 수 있는 loading effect가 발생할 수 있다. 그래서 loading effect는 식각 공정을 진행하는 웨이퍼에서 uniformity를 떨어트릴 수 있다. loading effect 의 종류와 profile을 어떻게 진행시키는지 공부해보자. 저번 글은 Macro & Micro loading effect 에 대한 내용이었다. 2022.07.08 - [self.반도체&전자회로 공부] - 식각(etching) 공정에서 profile에 영향을 미치는 loading effect에 대해서 - 1 식각.. 2022. 7. 12. 식각(etching) 공정에서 profile에 영향을 미치는 loading effect에 대해서 - 1 식각(etching) 공정에서 profile에 영향을 미치는 loading effect에 대해서 반도체의 식각(etching) 공정은 진행하고자 하는 패턴에 따라 식각 속도나 proflie에 영향을 줄 수 있는 loading effect가 발생할 수 있다. 그래서 loading effect는 식각 공정을 진행하는 웨이퍼에서 uniformity를 떨어트릴 수 있다. loading effect 의 종류와 profile을 어떻게 진행시키는지 공부해보자. 1. Macro loading effect - Macro loading effect란 ? 보통 Macro loading effect에 대해 검색해보면 붙어있는 패턴을 식각할 때 식각 속도의 차이가 나는 현상과 관련된 그림들이 많이 보인다. 식각할 면적이 증가했.. 2022. 7. 8. [python] 데이터 프레임 전처리 - replace 이용하기 데이터 프레임 전처리 - replace 이용하기 지난 번 사용했던 데이터에서 추가로 학번을 데이터로 가지고 있는 데이터 프레임이 있다고 하자. 2022.06.21 - [self.python] - [python] 데이터 프레임 합치기 - concat, append, join 0. 데이터 프레임 준비 지난 글에서 사용했던 데이터 프레임에 학번 열을 새로 추가해서 사용해보겠다. import pandas as pd myList1 = [['Mary', 23], ['Kate', 25]] myList2 = [['Mark', 27], ['Maxi', 30]] mycol = ['Name', 'Age'] df1 = pd.DataFrame(myList1, columns = mycol) df2 = pd.DataFrame(my.. 2022. 7. 3. 반도체 2 - DRAM 과 FLASH 의 차이점은 ? 2022.06.25 - [self.반도체&전자회로 공부] - 반도체 1 - 반도체의 종류와 각각의 설명 반도체 2 - DRAM 과 FLASH 의 차이점은 ? DRAM과 FLASH은 데이터를 저장할 수 있는 대표적인 메모리 반도체이다. 하지만 두 반도체는 서로 다른 장점과 특징을 갖고 있고 많은 구조적 차이점이 있어 응용되는 곳이 서로 다르다. DRAM과 FLASH의 차이점은 무엇이 있고 어디에 사용되는지 공부해보자. 1. 휘발성 가장 잘 알려진 차이점은 바로 데이터의 휘발성(volatile)이다. DRAM과 FLASH 모두 데이터 '저장'이 가능하지만 DRAM의 경우에는 정말 짧은 시간 동안만 저장이 가능하여 주기적으로 refresh 라는 동작을 수행해야한다. FLASH는 원한다면 반영구적인 저장도 가능.. 2022. 6. 28. [python] 숫자 데이터 자리수 맞추어 표시하기(앞에 0 채워주기) - zfill() 숫자 데이터 자리수 맞추어 표시하기(앞에 0 채워주기) - zfill() 데이터 프레임에 있는 숫자 데이터에 zfill() 함수를 적용하여 자리수를 맞춰 줄 수 있다. 예를 들어 [19, 392, 1205] 이런 데이터가 있다고 할 때 zfill()를 잘 활용하여 [0019, 0392, 1205] 로 만들어 줄 수 있다. 원하는 자리수에 따라 써줄 수 있어서 [00019, 00392, 01205] 와 같이 바꾸는것도 가능하다. 0. 데이터 프레임 준비 import numpy as np import pandas as pd score = {'Year' : ['2016', '2017', '2018', '2019', '2020', '2021', '2022'], 'Mary': [90, 68, 70, 80, 92,.. 2022. 6. 27. 반도체 1 - 반도체의 종류와 각각의 설명 반도체 1 - 메모리 반도체의 종류와 각각의 설명 반도체 회사에 관심이 조금이라도 있다면 가장 기본적으로 알아야 할 것이 반도체의 종류라고 생각한다. 가서 배우면 된다지만 그래도 자신이 어디에 지원하는지는 알고 있어야 한다고 생각한다. 크게 구조를 보면 아래와 같다. 반도체는 메모리 반도체와 비메모리 반도체로 나뉘어지는데 취준하는 학생의 입장에서 보자면... 메모리 반도체가 보통 알고 있는 반도체(DRAM, FLASH)이고 비메모리가 Foundry 사업, 시스템반도체 사업이라고 생각하면 될 것 같다. 메모리 반도체와 비메모리 반도체의 차이점은 메모리 반도체는 이름 그대로 데이터를 저장하는 반도체이고, 비메모리 반도체는 정보를 받아서 연산 한느 등의 데이터를 처리하는 반도체이다. 대표적인 비메모리 반도체에.. 2022. 6. 25. [python] 데이터 프레임 합치기 - concat, append, join 데이터 프레임 합치기 - concat, append, join 데이터 프레임끼리 합치는 방법은 여러가지가 있다. 세로로 합칠수도 있고, 가로로 합칠수도 있다. 0. 데이터 프레임 준비 import pandas as pd myList1 = [['Mary', 23], ['Kate', 25]] myList2 = [['Mark', 27], ['Maxi', 30]] mycol = ['Name', 'Age'] df1 = pd.DataFrame(myList1, columns = mycol) df2 = pd.DataFrame(myList2, columns = mycol) 이렇게 간단한 데이터 프레임 두 개를 준비해보았다. 1-1. 세로 방향으로 합치기 concat 또는 append를 사용해서 데이터 프레임 두개를 세로.. 2022. 6. 21. [python] 데이터프레임 데이터 타입 바꾸기 데이터프레임 데이터 타입 바꾸기 데이터 프레임 내 데이터들은 astype 이라는 함수로 데이터 타입을 변경할 수 있다. 0. 데이터 프레임 준비 예시를 들기 위해 임의의 데이터 프레임을 하나 만들어보았다. import numpy as np import pandas as pd score = {'Date' : [2016.03, 2017.03, 2018.03, 2019.03, 2020.03, 2021.03, 2022.03], 'Mary': [90, 68, 70, 80, 92, 68, 78], 'Kate': [90, 68, 70, 80, 92, 68, 78], 'Mark': [39, 59, 60, 73, 84, 87, 92], 'Maxi': [83, 92, 71, 56, 79, 93, 85]} df = pd.D.. 2022. 6. 20. Electrostatic chuck, ESC란? Electrostatic chuck, ESC란? 반도체 제조 공정에서 특히 진공을 사용해야 하는 공정(Etching, CVD 공정 등...)의 진행 설비의 경우 ESC 라는 부품은 반드시 장착되어 있고 아마 제일 중요한 부품 중 하나라고 생각할 수 있다. ESC는 무엇이고, 또 왜 사용하는지 간단하게 알아보자. - ESC란? ESC의 구분 제목에도 써 있듯이 ESC는 Electrostatic chuck이다. chuck, 말 그대로 wafer를 잡고 있는 부품인데 정전기력을 사용하여 잡고 있는 것이다. ESC는 여러 기준으로 구분할 수 있다. 1. monopolar / bi-polar ESC 내에 전극막이 하나이면 monopolar, 두 개 이면 bi-polar 이다. 이런 느낌이다. monopolar와 .. 2022. 6. 15. [python] matplot 그래프 그리기 유용한 꿀팁! - (2) [python] matplot 그래프 그리기 유용한 꿀팁! 여러 그래프 x, y 좌표 범위 통일하기 여러 그래프 x, y 축 맨 끝만 표시하기 그래프 마커, 색깔 설정하기 x, y 축 범위 설정하기 x, y축 글씨 숨기기(tick 없애기) 데이터 라벨링 하기 & 위치 조정하기 그래프 title 작성하기 y축에 텍스트 쓰기 축 글씨 방향 변경하기 여러 그래프간의 간격 조절하기(상하좌우) - 이전 글에서... 2022.06.12 - [self.python] - [python] matplot 그래프 그리기 유용한 꿀팁! - (1) import numpy as np import pandas as pd import matplotlib.pyplot as plt score = {'Year' : ['2016', '20.. 2022. 6. 13. [python] matplot 그래프 그리기 유용한 꿀팁! - (1) [python] matplot 그래프 그리기 유용한 꿀팁! 여러 그래프 x, y 좌표 범위 통일하기 여러 그래프 x, y 축 맨 끝만 표시하기 그래프 마커, 색깔 설정하기 x, y 축 범위 설정하기 x, y축 글씨 숨기기(tick 없애기) 데이터 라벨링 하기 & 위치 조정하기 그래프 title 작성하기 y축에 텍스트 쓰기 축 글씨 방향 변경하기 여러 그래프간의 간격 조절하기(상하좌우) 1. 데이터 프레임 준비 import numpy as np import pandas as pd import matplotlib.pyplot as plt score = {'Year' : ['2016', '2017', '2018', '2019', '2020', '2021', '2022'], 'Mary': [90, 68, 70,.. 2022. 6. 12. [python] matplotlib 그래프 여러 개 그리는 방법 [python] matplotlib 그래프 여러 개 그리는 방법 matplotlib 를 활용하여 한 번에 그래프를 여러 개 그리는 방법을 알아보자. 1. 라이브러리 import import matplotlib.pyplot as plt # matplotlib import numpy as np # 예시로 사용할거라 import 파이썬에서 matplotlib를 import 해준다. 2. sub plot 의 size 정하기 fig, axes = plt.subplots(2, 1) #2x1 = 총 2개의 서브 피규어 생성 subplot 의 size를 (2, 1) 로 지정한 것은 두 개가 세로로 놓여져 있는 그래프 두 개를 동시에 그리겠다는 것이다. 만약 (1, 2) 라고 썼다면 가로로 놓여져 있는 그래프가 그려졌을.. 2022. 6. 6. [python] 데이터프레임 값에 apply 로 함수 적용하는 다양한 방법 데이터프레임 값에 apply 로 함수 적용하는 다양한 방법 데이터 프레임의 값에 각 함수를 적용해야 할 때가 있다. 뭐 예를 들어서.. 각 행 별로 평균값을 계산해서 열로 만들어야 한다던지, 다 같이 +1 이 필요하다던지.. 그런 경우에 데이터 프레임에 apply를 사용해서 원하는 값에 원하는 함수를 적용할 수 있다. 1. 데이터 준비 import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint(10, size = (5, )), columns=["First"]) df['Second'] = np.random.randint(10, size = (5,)) df['Third'] = np.random.randint(10, size = (5,.. 2022. 6. 1. [python] 0 으로 채워진 데이터 프레임 만들기! - zeros 0 으로 채워진 데이터 프레임 만들기! - zeros 가끔 분석을 하다보면.. 빈 값이 아니라 0으로 일단 어떤 값이 채워져 있는 데이터 프레임이 필요한 경우가 있다. 내가 필요한 데이터 프레임의 size를 알고 있다면 numpy의 0행렬 만드는 기능을 통해 쉽게 0으로 채워진 데이터 프레임을 만들 수 있다. 1. 0 행렬 만들기 import numpy as np import pandas as pd myArr = np.zeros((7, 6)) # size를 알고 있어야 함 myArr np.zeros 는 0행렬을 만들어주는 numpy 함수이다. 7 X 6 size의 0행렬이 만들어졌음을 확인할 수 있다. 2. 데이터 프레임 만들기 df_zero = pd.DataFrame(myArr, columns = ['.. 2022. 5. 31. [python] 데이터프레임 조건에 맞는 행 index 뽑아오기 - index 데이터프레임 조건에 맞는 행 index 뽑아오기 - index 데이터 프레임에서 조건에 맞는 행의 index를 뽑아오는 방법은 바로 .index를 붙이면 된다. 바로 전 글에서 isin을 사용해서 데이터 프레임에서 값으로 행을 추출하는 방법에 대해 설명했는데 2022.05.30 - [self.python] - [python] 데이터프레임 조건에 맞는 행 index 뽑아오기 그 바로 뒤에 .index를 붙이면 그 조건을 만족하는 행의 인덱스를 알 수 있다. 보통 이렇게 쓰는 경우는 그 조건에 부합하는 행을 삭제하기 위해서 사용하는 경우가 많은 것 같다. isin() 을 사용해서 조건에 맞는 행을 뽑아내고 바로 drop을 하면 에러가 나게 된다. drop함수 안에는 index를 써야 제대로 drop이 된다... 2022. 5. 30. [python] isin() 사용해서 데이터 프레임에서 데이터 값으로 행 추출하는 방법 isin() 사용해서 데이터 프레임에서 데이터 값으로 행 추출하는 방법 데이터 프레임에서 데이터 값으로 그 행을 가져오는 방법은 isin 함수를 사용하는 것이다. isin 함수를 사용하지 않고 데이터 프레임 필터 기능을 사용해서 가져오는 방법도 물론 가능한데 이 경우 여러개를 가져오고 싶을때 여러번 써줘야 한다는 단점이 있다. 지정하려는 데이터가 있는 열을 index로 지정하여 가져오는 방법도 있지만, 그 데이터가 이후에 접근해야 하는 데이터라면 index에서 다시 데이터로 변환해주어야 하기 때문에 isin 함수를 사용하는 것이 편리할 것이라 생각한다. 코드로 보면 더 이해가 될 것 같다. 1. 데이터 프레임 준비 import numpy as np import pandas as pd score = {'Y.. 2022. 5. 29. 뉴로모픽 컴퓨팅(엔지니어링) neuromorphic computing 이란 ? 뉴로모픽 컴퓨팅(엔지니어링) neuromorphic computing 이란 ? 뉴로모픽 공학(neuromorphic engineering) 이라고도 부른다고 한다. 인공지능에서 더 나아가 뉴런의 형태를 모방한 회로를 만들어 인간의 뇌 기능을 비슷하게 구현하려고 하는 공학 분야라고 한다. 인간의 뇌 기능을 하드웨어적으로 비슷하게 구현하여 만든 회로나 칩(chip)을 뉴로포픽 회로, 뉴로모픽 칩 이라고 부른다. ** 뉴런은 신경계를 구성하고 있는 사람의 세포로 우리가 세상을 보고, 인식하는 등의 정보를 받아들이고 저장하는 역할을 한다. 뉴런은 연산을 하고 시냅스가 저장을 하는 구조이다. 인간의 뇌에는 보통 1000억개의 뉴런이 있다고 알려져 있다. 인공지능이나 머신러닝에 관심이 있는 사람이라면, 인공 신경망.. 2022. 5. 28. [python] 데이터 프레임 행(row) 추가하기 데이터 프레임 행(row) 추가하기 2022.05.19 - [self.python] - [python] loc , iloc 으로 행 데이터 접근하기 저번에 loc, iloc 으로 행 데이터 접근하는 방법을 공부해 봤었는데 그 때 만든 데이터 프레임을 활용해서 데이터 프레임에 행을 추가하는 방법에 대해 공부해보자. import numpy as np import pandas as pd score = {'Year' : ['2016', '2017', '2018', '2019', '2020', '2021', '2022'], 'Mary': [90, 68, 70, 80, 92, 68, 78], 'Kate': [90, 68, 70, 80, 92, 68, 78], 'Mark': [39, 59, 60, 73, 84, 87.. 2022. 5. 22. [python] 입력 받은 수를 이진수 변환 - 재귀함수 이용 입력 받은 수를 이진수 변환 - 재귀함수 이용 숫자를 입력받아 이진수로 변환하는 방법은 정말 여러가지가 있지만 재귀호출을 이용하여 작성해보겠다. 숫자를 이진수로 변경하려면 숫자를 2로 나눠서 나머지가 0이면 '0', 나머지가 0이 아니면 '1'을 나오는 순서대로 뒤에서부터 쓰는 것이다. 예를 들어 8을 이진수로 변경한다고 하면 8 // 2 ... 0 4 // 2 ... 0 2 // 2 ... 0 1 // 2 ... 1 되어 '1000' 이 나오게 된다. def myBinary(num) : # 이진수로 변환하는 함수 if num == 0 : # 기저조건 1 return '0' elif num == 1 : # 기저조건 2 return '1' if (num % 2 == 0) : return myBinary(n.. 2022. 5. 20. [python] loc , iloc 으로 행 데이터 접근하기 데이터 프레임에서 loc , iloc 으로 행 데이터 접근하기 열 데이터를 접근하려면 그냥 column 명으로 접근하면 된다. 여러 column의 값을 가져오고 싶으면 원하는 column 명을 리스트 형식으로 쓰면 된다. 데이터 프레임에서 행 방향으로 데이터를 접근.. 또는 선택 하는 방법은 .loc 와 .iloc 이 있다. .loc : 인덱스 명을 적어서 참조하는 방법 .iloc : 정수 인덱스 형식으로 적어서 참조하는 방법 예시를 위해 임의의 데이터 프레임을 하나 만들어보겠다. import numpy as np import pandas as pd import seaborn as sns score = {'Mary': [90, 68, 70, 80, 92, 68, 78], 'Kate': [90, 68, 7.. 2022. 5. 19. [python] 데이터 프레임 열 순서 변경하는 방법 데이터 프레임(DataFrame) 열 순서 변경하는 방법 데이터 프레임에서 열 끼리의 연산을 해서 새로운 열을 만들어 냈는데 그 경우 열이 맨 끝에 추가되서 보기가 어렵다거나 그냥 열 순서가 엉망인 경우... 열 순서를 바꾸고 싶은 경우가 있다. 열 순서를 변경하는 방법은 간단하다. '이름', '성별', '나이' 라는 세 개의 열을 가진 df 라는 데이터프레임이 있을 때 df = df[['성별', '나이', '이름']] 이렇게 원하는 순서대로 열 이름을 리스트로 넣어주면 된다. 모든 열의 이름을 넣어야 한다. 만약 ['성별', '이름'] 이렇게 넣게 되면 '나이' 열은 없어지게 된다. 열을 삭제하고 싶었다면 그렇게 해도 된다. 예시) import numpy as np import pandas as pd .. 2022. 5. 17. [python] 재귀호출로 최대공약수 구하기 - 유클리드 호제법 이용 재귀호출로 최대공약수 구하기 - 유클리드 호제법 이용 유클리드 호제법은 최대공약수를 구하는 알고리즘 중의 하나이다. * 최대공약수 GCD, greatest common divisor 위키백과 참고 https://ko.wikipedia.org/wiki/%EC%9C%A0%ED%81%B4%EB%A6%AC%EB%93%9C_%ED%98%B8%EC%A0%9C%EB%B2%95 유클리드 호제법을 간단히 설명하자면 gcd(x, y) 라는 함수는 x와 y의 최대공약수를 구하는 함수라고 하자. 그러면 gcd(x, y) = gcd(y, x % y) 가 성립하게 된다는 알고리즘이다. 예를 들어 36, 20 두 숫자의 최대공약수를 구한다고 하자. gcd(36, 20) = gcd(20, 16) = gcd(16, 4) 여기서 16은.. 2022. 5. 16. [공모전] 2022년 반도체 공정실무 직무체험 모집 소개 2022년 반도체 공정실무 직무체험 모집 소개 고용노동부에서 주관하는 직무체험이 있다. 반도체 산업의 경우 국가보안사업이어서 기업 밖에서 접할 수 있는 정보와 기업 내에서 접할 수 있는 정보가 확실히 차이가 난다고 생각한다. 특히 반도체 공정에 관한 내용은 직접 실무를 체험해보면서 하는게 이해도 잘 될 것 같다. 공부하려고 열심히 자료, 논문을 읽어봐도 사실 일하기 전이랑 일한 후랑 정보를 받아들이는 것에 큰 차이를 느낄 것이라고 생각한다. 뭐 그것은 반도체 말고 다른 산업도 비슷하겠지만... 그래서 반도체와 관련된 회사에 취직을 생각하고 있다면 이런 직무 체험을 지원해 보는 것이 도움이 될 것 같아서 소개한다. * 개요 - 참여 대상 : 서울(경기)권역 대학 재학(졸업, 휴학)생 - 45명 - 참여 기.. 2022. 5. 16. 차세대 반도체 메모리 MRAM - Magnetic Random Access Memory 이란 ? 메모리 반도체 하면 보통 DRAM 와 FLASH 가 가장 먼저 떠오른다. 간단하게 설명하자면 DRAM 은 외부 전원에 의존하여 Active 상태에 있어야만 정보가 남아있고, 외부 전원이 차단되면 정보가 사라지는 휘발성 메모리 소자이다. 그리고 FLASH는 외부전원이 차단되어도 정보를 갖고 있는 비휘발성 메모리가 맞는데, 차세대 반도체 메모리는 FLASH 에 비하여 기존 특성들(전력, 데이터 유지, write/read 특성 등)이 뛰어나기 때문에 최근 미래 먹거리로 많이 연구되고 있는 메모리이다. 연구되고 있는 차세대 메모리는 정말 다양하게 있는데 그 중 내가 자주 들어본 건 MRAM과 PRAM 이다. ( 둘 다 비휘발성 메모리이다.) 그중 MRAM이 무엇인지 찾아보았다. MRAM : Magnetic Ra.. 2022. 5. 15. [공모전] 2022년 대전 SOS랩 리빙랩톤 대회 소개 대전에서 SOS Lab에서 주관하는 공모전이 하나 있다. 대전 시민이라면 이 공모전에는 상금도 있으니 참여하면 좋을 것 같아서 참가 신청이 며칠 남지 않았지만 소개하려고 한다. 대전 시청도 그렇고 이렇게 시민이 참여할 수 있는 활동이 가끔 있는데 괜찮은 것 같다. 2022년 대전 SOS랩 리빙랩톤 대회 행사명 : 대전 SOS랩 리빙랩톤 대회 접수기간 : 4/20 ~ 5/18 [ 1차 서면평가 합격시, 대회 참여기간은 6/10 까지] 행사주관 : 대전정보문화산업진흥원, 와우디랩 참가대상 : 만 19세 이상 대전 소재 대학생 및 일반인. 개인 또는 팀(5인 이내) 참여가능 지정주제로 할 수 있고 자유주제로 할 수 있는데 보통 이런건 지정주제로 하는게 쉽지 않나..? 자유주제를 생각해 둔 것이 있다면 그걸로 .. 2022. 5. 14. [python] DataFrame의 결측치를 시각화 해서 확인하기 - missingno 사용 DataFrame의 결측치를 시각화 해서 확인하기 - missingno 사용 데이터를 불러왔을 때 결측 값의 유무를 isnull( ) 또는 isna( ) 함수를 사용하여 확인할 수 있지만 missingno.matrix( ) 를 사용하여 시각화하여 확인할 수 도 있다. 그러려면 우선 missingno 라는 라이브러리가 설치되어 있어야 한다. 예시를 위해 seaborn 에서 기본적으로 제공하는 데이터셋 중 하나인 titanic 데이터를 불러 오겠다. 1. 필요한 라이브러리 import import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 데이터 분석에 있어서 기본적인 라이브러리 import 1.. 2022. 5. 13. [python] DataFrame 의 결측값, 중복값 확인하고 제거하기 DataFrame 의 결측값, 중복값 확인하고 제거하기 데이터 프레임 내의 데이터들은 결측치(값이 없는 칸) 또는 중복값(모든 열의 값이 동일한 row 들)이 있을 수 있다. 데이터 분석을 하기 전에 이 값들을 제거하고 시작하는 것이 용량을 줄이기에도 좋고, 이상한 결과가 나오지 않게 하는 데에도 좋다. import numpy as np import numpy as pd import matplotlib.pyplot as plt import seaborn as sns # 데이터 분석하는데 import 하고 시작하는 것들. # 이번 글에서는 필요없는 부분도 있지만 보통 데이터 분석할 때 다 쓰인다. 1. 결측치 확인하기 결측치는 .isna( ) 또는 .isnull( ) 함수로 쉽게 확인할 수 있다. df1... 2022. 5. 12. [python] 정규표현식(Regular Expressions)과 메타문자 정리 정규표현식(Regular Expressions) 특정 규칙을 가진 문자열을 표현하는 방식이다. '이름 : XXX, 나이 : 99, 국적 : 한국, 010-1234-1234, 123456-1234567, 취미 : python' 예를 들어 위와 같은 주민등록번호가 포함된 긴 문자열을 입력 받았을 때, 주민등록번호만 뽑아내고 싶다면 ? 숫자 6개로 시작해서 중간에 '-' 부호가 들어가고 숫자 7개가 연이어 나와 있는 부분을 가져오면 된다. 전화번호가 포함된 긴 문자열을 입력 받았을 때, 전화번호만 뽑아내고 싶다면? 010 으로 시작해서 숫자 4개씩 '-' 부호를 사이에 끼고 있는 부분을 가져오면 된다. 그런 것들을 정규표현식을 사용하여 해결할 수 있다. re 라이브러리를 import 해주어야 하고, re.fi.. 2022. 5. 12. [python] seaborn 기본 제공 데이터셋 불러오기, heatmap 그리기 seaborn 그래프 그리기 그래프를 그리기 위해 필요한 라이브러리를 먼저 import 한다. import matplotlib.pyplot as plt import seaborn as sns 예시로 사용할 데이터는 seaborn 내에서 제공하는 데이터셋을 사용해보겠다. seaborn에서 자체적으로 'flights', 'iris', 'taxis' 등 여러가지를 제공하고 있다. 파일을 따로 불러오지 않아도 seaborn 에서 제공해주기 때문에 사용할 수 있는 데이터셋이다. sns.get_dataset_names() 를 사용하여 어떤 데이터셋을 제공하고 있는지 확인해볼 수 있다. sns.get_dataset_names() ''' ['anagrams', 'anscombe', 'attention', 'brain_.. 2022. 5. 11. 이전 1 2 3 4 5 다음 반응형