일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- timeinput
- xlsx
- node
- electron
- react
- electron-builder
- Route53
- readableStream
- gitignore
- 프로그래머스
- react-sortable-hoc
- react-xml-parser
- API Gateway
- react-admin
- JavaScript
- axios
- yml
- react DOM
- AWS
- domtoimage
- react-hook-form
- window.postMessage
- cognito
- zerocho
- TypeScript
- icrawler
- jimp
- dynamodb
- 가상 DOM
- signIn
Archives
- Today
- Total
꾸준히 공부하는 개발자
[Python] icrawler를 활용한 google image crawling 본문
학교에서 친구와 aws 프로젝트 중 image 수집을 도와달라길래 귀찮은 저는 crawling 을 하기로 마음먹었습니다.
그래서 찾는도중 icrawler 라는 좋은 오픈소스가 있길래 pycharm 을 바로 설치하여 crawling 을 하여 친구에게
image를 줬습니다.
# -*- coding: utf-8 -*-
from icrawler.builtin import GoogleImageCrawler
def main():
word = '국밥'
dir_name = '/Users/baro/Desktop/크롤링/국밥'
google_crawler = GoogleImageCrawler(
feeder_threads=1,
parser_threads=1,
downloader_threads=4,
storage={'root_dir': dir_name})
google_crawler.crawl(keyword=word, offset=0, max_num=100,
min_size=(200, 200), max_size=None, file_idx_offset=0)
if __name__ == "__main__":
main()
#-- coding: utf-8 -- : 한글호환
dir_name : 저장할 디렉토리 경로 ex) '/Users/baro/Desktop/crawlimage'
word : google 검색어 ex) 'pizza'
max_num : 긁어올 사진 개수
Comments