[인터뷰] 김경호 해시스크래퍼 대표 “한 번의 클릭으로 빅데이터를 수집할 수 있는 SaaS 솔루션을 만들었습니다”

[인터뷰] 김경호 해시스크래퍼 대표 “한 번의 클릭으로 빅데이터를 수집할 수 있는 SaaS 솔루션을 만들었습니다”

클라우드, AI 기술 접목해 대용량 데이터를 신속 정확하게 수집·분석, 웹기반 대시보드와 API 제공, 영어 지원 작업 완료, 해외 진출 포석… 일본 비롯해 미국 유럽 진출 준비 중 ‘특허 등록’ 출원, 핵심은 ‘IP차단’을 우회하면서도 안정적으로 데이터 수집할 수 있는 웹크롤링 기술, 그리고 자동화

Sep 19, 2023
  • 클라우드, AI 기술 접목해 대용량 데이터를 신속 정확하게 수집·분석, 웹기반 대시보드와 API 제공
  • 영어 지원 작업 완료, 해외 진출 포석… 일본 비롯해 미국 유럽 진출 준비 중 ‘특허 등록’ 출원
  • 핵심은 ‘IP차단’을 우회하면서도 안정적으로 데이터 수집할 수 있는 웹크롤링 기술, 그리고 자동화
 
notion image
디지털 전환의 큰 물결 속에 많은 기업들은 디지털 환경에 파편화된 데이터를 수집·분석하는데 집중하고 있다. (이미지=픽사베이)
 
많은 기업들은 디지털 환경에 파편화된 데이터를 수집·분석하는데 집중하고 있다. 저마다의 사업에 관련된 의사결정을 위해, 혹은 고객군의 니즈를 파악하기 위해서 등 목적는 다양하다. 이와 같은 현상은 코로나19 팬데믹을 거치며 화두가 된 디지털 전환의 큰 물결 속에서 가속화되고 있다.
하지만 데이터 확보는 여전히 쉬운 문제가 아니다. 수많은 이용자를 확보하고 있는 소셜네트워크서비스를 비롯해 무수히 많은 사이트들은 개인정보보호 강화를 요구 받고 있고, 이전까지 자유롭게 공유됐던 서드파티쿠키 지원 중단을 정책으로 내세우고 있다.
결과적으로 이러한 환경 변화는 디지털 환경 속 개인화된 마케팅이 중요해지는 상황에서 기업들에게 적잖은 걸림돌로 작용하고 있다. 고객의 성향을 파악하는 첫 단계인 데이터 획득에서부터 벽을 만나게 되는 것이다. 이에 각 기업 및 마케팅 에이전시 등은 다양한 방식으로 자체 데이터와 고객의 성향을 간접적으로 파악할 수 있는 부가 데이터 등을 결합해 타깃팅의 정확도를 높이고자 노력하고 있다. 하지만 역시 기본적으로 정밀한 타깃팅을 위해 필요한 것은 충분한 데이터 확보라는 사실은 변함이 없다.
그러한 상황에서 해시스크래퍼는 사명과 동일한 솔루션을 선보이며 기업들의 니즈에 부응하고 있다. 해시스크래퍼는 웹페이지에서 한 번의 클릭만으로 데이터를 수집할 수 있다. IP차단 회피, 프록시, 캡챠(보안문자) 우회를 비롯해 대량의 클라우드 서버를 통해 빅데이터 수집이 가능한 모든 솔루션을 제공한다.
notion image
 
이러한 해시스크래퍼의 기술은 AI 기반 자연어처리 및 이미지 분석을 통해 국내외 5000여개가 넘는 사이트에서 데이터를 수집하고, 이를 다시 고객 기업이 원하는 방식으로 커스텀해주는 유지보수까지 포함된다. 한마디로 해시스크래퍼는 정제된 데이터를 안정적으로 공급해주는 솔루션인 셈이다.
이를 통해 기업들은 시장 내 제품 및 서비스와 관련된 데이터를 수집은 물론 이슈 키워드 및 콘텐츠 레퍼런스, 마케팅 결과 및 여론·평판, 자사 및 브랜드의 VOC(Voice Of Customer) 등을 수집·분석할 수 있다. 이는 경쟁사 데이터도 예외가 아니다.
창업 5년여의 스타트업이 이와 같이 막강한 기술력을 쌓고 이제 국내를 넘어 이제 일본과 미국, 유럽 시장 공략을 준비할 수 있었던 비결은 무엇일까? 서울핀테크랩에 위치한 해시스크래퍼 사무실에서 진행된 김경호 대표와의 인터뷰는 그런 호기심으로 시작됐다.
 

경쟁력의 핵심은 꾸준한 연구개발… 목표는 ‘완전 자동화’

 
notion image
2018년 해시스크래퍼를 창업한 김경호 대표는 데이터수집 분야에서 20년 이상 노하우를 쌓아온 전문가다. (사진=테크42)
 
2018년 해시스크래퍼를 창업한 김경호 대표는 데이터수집 분야에서 20년 이상 노하우를 쌓아온 전문가다. 그 중 7년가량은 1인 기업으로 삼성, 렉서스, 현대카드, 두산로보틱스 등 다양한 기업의 대형 개발 프로젝트에 참여하기도 했다. 그렇게 여러 기업에서 성과를 내던 그는 토종 OTT 기업인 왓챠의 초기 멤버로서 활약하기도 했다. 그런 김 대표에게 처음 개발에 관심을 가졌던 순간을 물었다. 기억을 더듬던 김 대표가 꺼낸 첫 마디는 애플의 ‘알파벳e’ 컴퓨터였다.
“열 살 무렵에 100권 정도의 컴퓨터 잡지와 아주 오래된 애플 컴퓨터인 ‘알파벳e’를 받게 됐어요. 그걸 가지고 그 안에 있는 게임 소스코드를 따라 치면서 무심결에 처음 코딩을 접했죠. 이후에는 학원을 다니며 대회 수상을 하기도 했고 자연스레 컴퓨터공학을 전공하게 됐어요. 그러다 보니 코딩이나 프로그램이 어느새 제 천직이 됐네요.”
업계에서 다양한 경험을 쌓은 김 대표가 변화를 감지한 것은 O2O(online to offline) 플랫폼 서비스들이 등장할 즈음이었다. 플랫폼 서비스의 등장과 함께 기업들로부터 데이터 수집 요구가 급증했기 때문이다. 당시에는 디지털화된 데이터가 많지 않아 기업들이 자체적으로 투자를 해 데이터를 확보하던 시기이기도 했다. 김 대표는 이러한 흐름을 경험하며 ‘데이터 수집과 분석의 시스템화’를 떠올렸다.
“데이터 수집과 분석을 하는 솔루션을 만들어야겠다고 생각했는데, 1인 기업으로는 한계가 있었어요. 대기업 등의 프로젝트를 맡기 위해서는 법인이 필요하기도 했고요. 이미 현대카드나 옐로모바일 등과 PoC(개념검증)까지 마친 상황에서 본격적으로 시작해도 되겠다 싶어 해시스크래퍼를 창업하게 된 거죠.”
 
notion image
해시스크래퍼는 '하이브리드 크롤링을 통한 데이터 수집' '동일 구조 데이터 추출 방법' 등 국내 특허를 등록했고, 미국과 유럽에도 출원을 진행하고 있다.
 
해시스크래퍼 기술의 핵심은 차별화된 ‘웹크롤링’이다. 웹크롤링은 이미 데이터를 수집하는 보편적인 기술로 알려져 있지만, 문제는 각 사이트들의 보안 시스템과 IP 차단으로 인해 안정적인 데이터 수집이 쉽지 않다는 점이다. 해시스크래퍼의 웹크롤링 서비스는 이 부분에 집중했다.
“기업들은 안정적으로 꾸준히 데이터를 확보하기를 원해요. 또 정확성도 중요하죠. 그런 부분에서 있어서 저희는 클라우드 서버를 기반으로 IP차단을 회피하는 기술을 지속적으로 개발하며 서비스하고 있어요. 관건은 유지 보수죠. 경우에 따라 수십개 혹은 수백개의 사이트를 크롤링하기도 하는데, 이 부분이 꽤 까다롭고 각 기업 내부 개발자들이 모두 소화하기는 쉽지 않죠. 저희는 이런 유지보수에도 특화된 전문성을 보유하고 있다는 것이 경쟁력입니다.”
즉 현재 SaaS(서비스형 소프트웨어) 형식으로 제공되고 있는 해시스크래퍼 솔루션은 기업 고객의 요청에 의해 경우에 따라 유지보수도 추가되는 방식으로 서비스되고 있다는 말이다. 문제는 이러한 커스텀 서비스의 비중이 커질수록 솔루션 기업으로서 스케일업은 어려워지게 된다는 점이다. 김 대표 역시 이를 해결하기 위해 자동화에 집중하고 있다. 목표는 10명이 필요한 일을 1명이 해결할 수 있는 수준의 자동화다.
 
 

데이터셋 구축과 함께 AI 접목 시도

해시스크래퍼의 기술 분야는 AI도 아우르고 있다. 데이터 수집을 넘어 분석과 가공에도 기업들의 니즈가 적지 않기 때문이다. 김 대표는 “AI 기술을 적극적으로 활용해 크롤러를 만들고 유지·보수하는데 있어 자동화를 많이 이뤄내고 있다”며 말을 이어갔다.
“AI기술을 도입해 자동화하면 할수록 저희 역시 비용을 줄일 수 있다는 것이 우선 장점입니다. 데이터 수집을 할 때는 서버를 각 고객사에게 할당하기도 하지만, 수집이 필요 없어질 때는 자동으로 제거가 되며 비용 절감이 되는 자동화 시스템이 구축돼 있어요. 또 고객사들이 요구하는 공통적인 메이저 채널들이 있어 한번 데이터를 수집하면 그 리소스를 다양하게 활용할 수 있다는 것도 장점이고요.”
 
notion image
이른바 고객의 모든 소리를 듣는 ‘소셜 리스닝 서비스’를 표방하고 있는 트렌드 패드는 텍스트 기반 데이터 2억건을 바탕으로 다양한 트렌드 분석 서비스를 제공하고 있다.
 
이러한 상황을 만들기까지 해시스크래퍼는 초기 3년간 베이스 프레임워크를 만들고 멀티 클라우드를 운영할 수 있는 기술을 개발을 병행했다. 김 대표의 표현을 빌리자면 ‘자동화 공장’ 같은 구조를 구축한 셈이다.
“사람이 늘어날수록 더 손쉽게 물건을 만들고 이득을 창출할 수 있는 ‘자동화 공장’ 같은 구조를 만드는데 집중했어요. 그러다 보니 상장사 고객들도 늘어나고 저희가 처리할 수 있는 데이터 양도 점점 증가하고 있죠. 가변적이긴 하지만 이제는 하루에 수집하는 데이터가 50만건 정도 됩니다. 또 데이터를 확보하는데도 집중하고 있어요. 이제까지 쌓인 데이터는 대략 10억건 정도죠.”
이를 기반으로 김 대표는 해시스크래퍼 외에도 ‘트렌드 패드’ 서비스를 선보이도 했다. 이른바 고객의 모든 소리를 듣는 ‘소셜 리스닝 서비스’를 표방하고 있는 트렌드 패드는 덱스트 기반 데이터 2억건을 바탕으로 다양한 트렌드 분석 서비스를 제공하고 있다.
김 대표는 “생성 AI를 만드는 기업들이 생겨나고 있고, 그런 수요에 대비해 데이터를 판매할 수 있는 구조로 만들어 놓고 있다”며 장기적 관점의 데이터 비즈니스 계획을 언급하기도 했다.
 

성과를 바탕으로 한 글로벌 진출, 버티컬 사업화 모색

이제까지 해시스크래퍼는 중소벤처기업부 글로벌 API 마켓플레이스 대표기업, 신용보증기금 Start-up NEST 5기, 토스 스타트업 서바이벌 Found, 2020년 청년창업사관학교 10기 선정되는 등의 성과를 만들어 왔다. 올해의 경우 데이터 바우처 지원사업 공급기업으로 3년 연속 선정되기도 했다. 이러한 성과를 바탕으로 이제는 국내를 넘어 해외 시장 공략을 준비하는 중이다.
“저희는 단순히 스크래핑을 핵심으로 하는 기업은 아니에요. 글로벌 시장을 보면 결국은 API를 통해 소프트웨어 간 연계하고 자동화되는 추세를 보이고 있어요. 이러한 상황에서 저희는 API를 강화해 데이터 스크래핑 전용 API와 같은 독보적인 위치를 만들려고 하고 있어요. 이는 국내 뿐 아니라 해외에서도 통하는 방식이라고 할 수 있습니다.”
이러한 상황에서 해시스크래퍼가 개발자나 데이터사이언티스트 등의 전문가 그룹에게 인정받고 있다는 점은 남다른 경쟁력으로 지목되고 있다. 더구나 데이터 스크래핑 전용 API는 국내보다 해외에서 소규모 단체나 개인 등을 중심으로 이미 적잖은 규모의 시장이 형성돼 있다.
 
Video preview
 
이를 두고 김 대표는 “현재는 B2B 커스텀 개발을 통해 데이터 납품을 지속하고 있지만, 해외 시장에 초점을 두면서 장기적으로 B2B를 기반으로 B2C 확장을 추구하고 있다”고 말하기도 했다. 그렇다면 글로벌 시장에서 데이터 분석 솔루션을 내세우며 경쟁하고 있는 상황에서 해시스크래퍼의 경쟁력은 어느 정도일까? 김 대표는 “시장 전략이 다르다”며 말을 이어갔다.
“데이터 분석 솔루션을 내 놓은 글로벌 기업들은 빵을 만드는 곳이라고 할 수 있어요. 저희는 빵을 만드는 원재료를 가공해 밀키트나 생지(반죽)을 만들어 제공하는 개념이예요. 저희는 제품의 기초가 되는 밀키트를 다양한 기업에 자동으로 납품하고, 기업들은 저희가 제공하는 밀키트를 가지고 각자 포지션에 맞는 제품을 만들어 고부가가치를 창출할 수 있는 거죠. 물론 저희 장기적인 목표는 밀키트를 넘어 제품도 만드는 겁니다. 그런 시도가 ‘트렌드 패드’ 서비스이기도 하고요.”
김 대표의 말에 따르면 해시스크래퍼는 데이터 스크래핑 기술과 자동화가 바탕이 된 상황에서 버티컬 사업을 선정해 론칭 할 계획도 가지고 있다. 분야나 타깃에는 제한이 없다. 어떤 분야든 필수적인 데이터가 이미 확보돼 있기 때문이다. 이를테면 여느 스타트업이 특정 분야에 서비스나 플랫폼을 개발한 뒤 데이터를 쌓으며 후속 사업을 진행하는 반면, 해시스크래퍼의 경우는 이미 확보한 다양하고 막대한 데이터를 바탕으로 시장성 있는 사업을 선별해 공략하는 전략이 가능한셈이다. 인터뷰 말미, 김 대표는 ‘우선 목표는 국내 데이터 산업계에 스탠다드가 되는 것”이라며 남다른 각오를 내비쳤다.
“아직 국내 데이터 산업계는 춘추전국 시대라고 할 만큼 명확한 툴이나 플랫폼이 없는 상황이예요. 무주공산인 상태라고 할 수 있죠. 이러한 상황에서 해시스크래퍼의 지향점은 데이터 산업에 스탠다드로서 자리잡는 겁니다. 이제까지 해 왔던 작업이 그런 목표를 위한 준비 과정이라고 할 수 있죠.”