안녕하세요. 도메인 주소를 입력받아 그 주소와 비슷한 카테고리를 추천하는 머신러닝/딥러닝 알고리즘을 만들려고 하는 학생입니다.
다름이 아니라 데이터셋을 만들려고 하는데 애로사항이 있어. 네트워크의 전문가분들이 계시는 이곳에 질문드리는 게 적합해 보여서, 글을 올립니다.
한국 내의 모든 주소 혹은 한국인이 가장 많이 방문하는 사이트를 확실하게 구하려면 어떠한 방법이 최선일까요?
리스트 예시)
https://www.naver.com/
https://www.daum.net/
http://www.tistory.com/
.
생각해둔 현실적인 방법은 이 정도 밖에 없는데, 혹시 이것들보다 더좋은 효율적인 방법이 있는지 조언을 구합니다.
1. 네이버와 다음카카오 지도 api를 이용해 지도 상 주소에 같이 등재되있는 웹사이트가 있는 경우 수집한다.
2. website report/statics를 무료로 공개하는 사이트 ex)https://www.siteindices.com/ 와 같은 곳에서 Most Visited country korea를 구글 검색 크롤링을 이용해 추출한다.
만약 돈을 쓰는게 필수 불가결하다면 어느정도의 비용이 드나요? (예산은 부끄럽지만 학생이라서 최대 25만원정도 생각하고 잇습니다.)
마지막으로 한국 내 도메인의 수는 대략 얼마정도 할까요? 통계청 2021.05웗부로 .kr .한국 도메인이 약 110만건이라고 하던데 위에서 언급한 .com .net 등까지 합하면 얼마나 될까요?
혹시라도 이곳에 질문을 올린것이 잘못됬다면 어디에 올리면 좋을지도 조언해주시면 감사하겠습니다.