반응형

데이터분석 44

2. dict 자료형 탐색하기

dict 자료형에 저장된 value들을 key값을 이용해 탐색하는 두가지 방법에 대해서 알아보겠습니다. 1. dict이름['key']로 탐색하기 2. get()을 이용해 탐색하기 (1) .setdefault()를 이용해 dict에 추가하기 1. dict이름['key']로 탐색하기 1 2 number = {'one':1, 'two':2,'thr':3,'fou':4} number['fou'] cs [실행결과] 원하는 value의 key값을 직접 입력하여 찾을 수 있습니다. * 검색하고 싶은 key값이 자료 안에 있는 지 확인하기 위해서 'key' in dict이름 을 사용하시면 됩니다. 'Fou' 라는 key 가 있는지 검색해보겠습니다. 1 'Fou' in number cs [실행결과] false 없다고 뜹..

1. dict 자료형 생성하기

파이썬에서는 dict형 자료가 정말 중요합니다. 먼저 dict 자료형의 생성의 5가지 방법에 대해서 알아보도록 하겠습니다. 생성방법 1. 기본적인 생성방법 1 2 3 d = {'one':1, 'two':2, 'thr':3} print(d) print(d['one'],d['two'],d['thr']) cs 가장 기본적인 생성방법입니다. 중괄호{}를 사용해서 직접 key값과 value 값을 심어주는 것입니다. [실행결과] 2.(key,value)형 리스트를 이용하여 dict 자료 생성하기 1 2 3 number_names =[('fou',4), ('fiv',5), ('six',6), ('sev',7)] dict(number_names) print(dict(number_names)['fou']) cs (key..

<Python matplotlib> 기본적인 선그래프 만들기

matplotlib 라이브러리에 대해서 알아보겠습니다. matplotlib에 대해서 더 자세히 알고 싶으신분은 https://matplotlib.org/ Matplotlib: Python plotting — Matplotlib 3.4.2 documentation matplotlib.org 직접 사이트로 방문해보시기를 바랍니다. 오늘은 matplotlib를 이용하여 가장 기본적인 x,y축을 가진 선 그래프를 만들어보겠습니다. 1. pip을 통해서 matplotlib을 설치합니다. pip install matplotlib *저는 Anaconda와 jupyter notebook을 사용하고 있습니다. 2. 다운받은 이후에 matplotlib를 불러옵니다. 불러온 pyplot을 plt로 지정합니다. 그리고 x축과..

<Python> 워드 클라우드 만들기

사용한 라이브러리 requests, bs4, Konlpy, matplotlib, wordcloud, counter 실행한 페이지 >나무위키 베스트 라이브 1. 실행할 페이지 스크래핑 2.Konlpy Okt()를 통해 형태소 분할하기 3.분할한 형태소 자료 가공하기 4. 워드 클라우드 만들기 1. 실행할 페이지 스크래핑 > 나무위키 베스트 라이브의 페이지 1부터 49까지 스크래핑을 해보겠습니다. 먼저 스크래핑을 시행할 페이지로 이동해서 게시판의 주소 구조와 개발자 도구를 이용해 html구조를 살핍니다. 게시판의 주소는 arca.live/b/live?p=2 지금 페이지가 2페이지니까 페이지는 p값으로 이동한다는 것을 알았습니다. 그리고 html 구조를 보면 class명이 title ion-ios-photos..

<Python Pandas> 5.Column 이름과 Rows 변경하기 1

1. column 이름 변경 *x.upper() **df.columns.dtr.replace ***rename 2. row 변경 - df.loc[] 오늘은 columns의 이름 rows를 변경해보겠습니다. 먼저 데이터프레임을 짜줍니다. 1. column 이름 변경 그리고 df.columns를 이용하면 columns들이 잡혀나옵니다. 그리고 그 안에는 columns의 이름인 name age address가 들어있는 것을 알 수 있습니다. 잡아온 columns들의 내용을 바꿔주겠습니다. 형식은 df.columns 안에 들어 있듯이 같은 형태로 합니다. df.columns = ['이름','나이','주소'] 이렇게 실행을 해주면 column들의 이름이 바뀌어 있는 것을 확인 할 수 있습니다. *영어로 colum..

<Python Pandas> 4. 중간점검 공공 데이터에 적용해보기

1. 생략된 row나 column 모두 표시하기 2. 데이터 형을 확인하고 숫자형 자료형으로 변경하기 df.dtypes, pd.to_numeric 3. 필터 생성하여 검색하기 4. 정렬하기와 인덱스 지정하기 df_sort_by_values, df.set_index 지금까지 알아보았던 것들을 복습도 할겸 371rows와 13개의 column을 가지고 있는 코로나 관련 공공데이터를 가지고 왔습니다. 1. 생략된 row나 column 모두 표시하기 df 에 넣어서 출력했더니 너무 길어서 중간에 생략을 했습니다. 이렇게 생략된 자료를 보기 위해서는 pd.set_option('display.max_rows',371)을 사용해 줍니다. * column의 수가 많아 생략이 되었다면 pd.set_option('disp..

<Pandas 사용하기> 3.검색 필터 작성하기 [1]

Pandas를 사용하여 데이터 안에서 원하는 조건에 맞는 데이터를 찾을 수 있는 필터를 작성하는 법에 대해 알아보겠습니다. 우선 people를 pandas를 사용하여 DataFrame을 짜 줍니다. 그러면 위의 표 형식으로 출력이 됩니다. 그럼 여기서 나이가 24인 row를 찾으려면 필터를 작성해 줘야합니다. 1. 필터 작성하기 (1)필터로 쓸 변수의 이름을 'filt'로 정하겠습니다. *파이썬에는 내장 함수로 filter가 있습니다. 그래서 filter를 직접 변수로 쓰지 마시고 다른 이름들을 사용해 주시면 더 좋습니다. (2)그리고 필터를 작성해줍니다. 데이터프레임의 이름이 df 이므로 df 안에 'age' 속성이 '24'인 row를 찾아야 합니다. df['age'] == '24' 라고 표현할 수 있..

xml로 된 공공데이터 python으로 읽기(xml parsing, bs4, requests)

☆parsing에 대한 노하우가 조금 쌓인 후에 보니 엉성하기 짝이 없는 글입니다. 그나마 발전한 이 페이지로 이동해주셔서 보시면 감사하겠습니다.☆ https://operstu1.tistory.com/87 어느 정도 노하우가 쌓인 xml 공공데이터 parsing과 CSV 저장 * 필요한 라이브러리 1. 파싱하기 전에 반드시 해야 할것 1)미리보기를 통한 데이터형태 파악하기 2)참고문서 다운받기 2. 파싱시작하기 1) 라이브러리 불러오기 2) 요청 명세를 보고 u operstu1.tistory.com ♧다만, 원시적인 방법을 사용한 만큼 처음이신분이라면 이글이 더 쉬울수 있습니다.♧ 오늘은 파이썬을 이용하여 xml로 된 공공데이터안의 데이터를 불러와 보겠습니다. *사용한 라이브러리 : requests, b..

pandas 사용하기 2 index 바꾸기 (df.set_index())

pandas에서 CSV 파일을 불러들이면 가장 앞에 index부분이 0부터 시작하는 숫자로 지정되며, 그 column의 이름이 지정되지 않습니다. 그렇기에 앞서 살펴본 loc으로 하는 검색에 불편함이 생길 수 있습니다. 오늘은 초기 지정되는 index column을 표 내부의 내용으로 바꿔서 loc로 하는 검색이 원활해 질 수 있는 set_index()에 대해 살펴보겠습니다. 초기에 dic 자료형인 people를 DataFrame으로 df를 만들면 위에서 보는 바와 같이 가장 앞에 인덱스 값이 0,1,2로 나오며 이 곳의 name은 지정되지 않습니다. 이 인덱스를 address값으로 바꿔보겠습니다. 방법은 간단합니다. df.set_index('adress') 를 실행해 주면 됩니다. 그리고 다시 df를 ..

<Python> Pandas 사용하기 [list와 dictionary 자료형의 사용]

dictionary 자료형의 형태는 표의 형태와 비슷합니다. dictionary 자료형의 모습은 이렇게 중괄호 안에 Key 값 : value 값으로 나눠져 있습니다. 마치 자바의 해쉬맵과 흡사한 구조입니다. dictionary 자료형은 key 값에 여러 value 값을 list로 지정할 수 있습니다. 이런식으로 name 이라는 key 값에 김똘칠, 박달달, 홍복길 이라는 value 값을 넣을 수 있습니다. name을 column에 넣고, 김똘칠, 박달달, 홍복길을 그 값으로 넣을 수 있습니다. name 김똘복 박달달 홍복길 pandas 의 데이터프레임에 dic형 자료 people를 넣으면 pandas에서 표로 만들어 줍니다. (1) column안의 값 찾기 df['column의 이름'] df['addre..

반응형