본문 바로가기

파이썬

(6)
[외전] 네이버증권 테마종목 크롤링 (4) 엑셀 다루기 https://mssg.tistory.com/145 [파이썬] 네이버증권 테마종목 크롤링 (3) List → DataFrame → Excel 첫 글에서 설정한 목적은 아래와 같은 엑셀 파일을 얻는 것이다. 지난 과정을 통해 저장한 데이터는 다음과 같다. name[j] : 테마명 리스트 comp_t[j][i] : 회사명 리스트 info_t[j][i] : 설명 리스트 j개의 mssg.tistory.com 여기에 있는 data_fin.xlsx파일 가지고 노는법 1. 1행의 A:D 열을 드래그하고 2. 필터를 체크하면 원하는 목록을 볼 수 있다. 필터에서 검색부분에 원하는 키워드를 검색한다. 췌장암을 검색했더니 16개가 나왔고 중복을 제외해도 12개 종목이 나온다. ‘비메모리’ 같은 한국에서만 쓰는 단어를 넣어..
[파이썬] 네이버증권 테마종목 크롤링 (3) List → DataFrame → Excel 첫 글에서 설정한 목적은 아래와 같은 엑셀 파일을 얻는 것이다. 지난 과정을 통해 저장한 데이터는 다음과 같다. name[j] : 테마명 리스트 comp_t[j][i] : 회사명 리스트 info_t[j][i] : 설명 리스트 j개의 테마가 있고, 각각의 테마명에는 i개의 리스트가 있다. 애초에 df를 만들고 거기에 넣으면 편할 것 같은데 그걸 못 해서 우선 list에 받고 그걸 dict에 옮기고, 그걸 다시 df로 바꾸는 끔찍한 과정을 거쳤다. 사실 이 페이지에는 맨 마지막 줄인 df1.to_excel()만 있으면 끝이지만 그걸 못 해서 돌아갔다. list → dict import os import pandas as pd data = dict() data['테마명'] = [] data['사명'] = []..
[파이썬] 네이버증권 테마종목 크롤링 (2-2) beautifulsoup4 크롤링 지난 글에서 모든 테마 이름과, 테마 번호까지 얻었다. 그리고 그 테마에 접근하는 url의 규칙 또한 알고 있다. num이라는 list에 테마 넘버가 다 들어가 있고, 그것을 위 url의 XXX 부분에 대입하면 된다. 1번 글에서 확인했듯이 회사명은 에, 설명은 에 있다. 그렇게 얻은 데이터를 string으로 처리하는 과정에 대한 설명을 생략하고 코드를 보면 아래와 같다. detail_url = "" now = detail_url+'36' res = requests.get(now) soup = bs(res.text, 'lxml') info = soup.find_all('p', attrs={"class": "info_txt"}) #회사 설명 company = soup.find_all('strong', at..
[파이썬] 네이버증권 테마종목 크롤링(2-1) beautifulsoup4 크롤링 1. 테마 번호 추출 지난 글에서 종목을 찾은 것처럼 테마별 시세에서 각각의 테마를 의미하는 값을 보니 안에 테마 넘버가 있다. import requests from bs4 import BeautifulSoup as bs url = "" page_url = "" num = [] urls = [] name = [] now = page_url+"1" res = requests.get(now) soup = bs(res.text, 'lxml') theme_list = soup.find_all('td', attrs={"class": "col_type1"}) for i in theme_list: print(i) 현재 보고 있는 첫 페이지(page=1)만 처리하는 코드 url = “naver.com/(생략)&page..
[파이썬] 네이버증권 테마종목 크롤링 (1) url 분석 및 html 구조 파악 이번 글까지는 파이썬 코드가 등장하지 않는다. 사실 다 써놓고 보니 너무 조악해서 안 보고 넘어가도 좋을 것 같다. 크롤링의 기초와 HTML 구조를 파악하여 어떻게 접근할 지 구상하는 것이 이번 글의 목표이다. 그리고 최종 목적은 네이버증권의 테마별 종목과 테마명을 크롤링하여 엑셀에 저장하는 것까지이다. 그러기위해 네이버증권의 웹페이지를 살펴보자. 여기에서 우리가 관심있는 것은 테마이다. 더보기를 누르면 수많은 테마가 있는데 약 2024년 기준 약 283개이다. 처음보는 단어인 ‘제대혈’ 테마를 눌러서 물음표에 마우스를 올리면 제대혈에 대한 설명이 뜬다. 종목명 옆의 문서모양에 마우스를 올리면 해당 종목이 해당 테마로 분류된 이유를 서술한다. 약 280개 테마가 있고 한 테마는 2~141개의 종목이 있는..
[파이썬] 네이버증권 테마종목 크롤링 (0) 업로드 계기 및 잡설 누가 내 글을 보는 것도 부끄럽지만 누가 내 코드를 보는 것은 훨씬 부끄럽다. 내 코드는 개쓰레기이기 때문이다. 내가 봐도 안 좋은 글이 블로그에 많다. 하지만 이 코드만큼 나쁜 글은 보통 여기에 올리지 않는다. 18세의 문과 여고생이 처음으로 짠 코드라면 귀엽게 봐줄 수도 있겠으나 난 늙고 병든 아저씨이고 컴퓨터를 전공하기까지 했다. 오답노트와 같은 내 코드를 블로그에 올리는 것이 여간 수치스러운 일이 아니지만 그럼에도 불구하고 한번 해보기로 했다. 오랜만에 코드를 짜보니 기분이 괜찮아서 ㅎㅎ; 잘하는 사람이 여기까지 올 일은 없겠으나 누군가가 내 코드를 어떻게 수정하면 좋을지 조언을 해주었으면 좋겠다. 내가 알고 있는 문제점과 알지도 못하는 문제점이 있을 텐데 내가 아는 문제점은 아래와 같다. 우선 ..