1. DataScraping이란?

다른 툴 대비 Uipath의 강력한 장점 중 하나다.

'웹크롤링' 생산성을 비약적으로 높여주는 액티비티다.

(**modern 기준 extract structured data)

 

규칙성이 있는 2개의 Element만 찍어주면 자동으로 규칙성을 찾아 화면의 데이터를 datatable로 담아온다.

사용법은 굉장히 간단하게 돼있다.

첫번째 element를 클릭하고 다음 element를 클릭하면 UI의 구조적 규칙성을 찾아 알아서 구성해준다.

(**modern 기준으로는 하나만 찍고 특성을 골라도 되는 것처럼 보임)

이것이 가능한 이유는 UI요소들의 배치가 일반적으로는 구조적 규칙성을 띄기 때문이다.

 

사용법은 이렇다. (Legacy Template 기준. modern도 방식은 거의 비슷하나 use app browser로 생성된다는 차이가 있음.)

1. 첫번째 Element 선택(Get info of ui by UI Explorer)

2. 두번째 Element 선택(Get info of ui by UI Explorer)

3.규칙성 찾음(구조적 규칙성[웹이라면 X-path])

4.특정 Selector 기준으로 규칙성에 따라 Get Data

 

2. 기준 Selector와 Metadata 조정의 필요성

다만 다음과 같은 경우에 대응이 어렵다.

A. 광고유무, 특정 트리거 유무에 따라 구조가 달라지는 경우

B. 기준이 되어야 할 요소가 화면상 특정 요소에 가려져 있는 경우

 

A는 데이터를 가져오는 기전을 생각하면 너무나 자명한 결과다.

심지어 구조적으로 같으면 해당 컬럼에 그 데이터를 넣기 때문에 잘못 가져올 수 있는 위험도 있다.

따라서 케이스에 대한 정확한 파악이 있어야 한다.

대부분 기준 selector를 잘 찾아야 해결이 된다.

필요하다면 Find Children 같은 액티비티를 이용해 동적인 기준을 잡아야 한다.

 

B는 구조상 DIV가 Wrapping 돼있어 구조를 따로 파고 들어가지 않는 이상 선택이 어려운 경우다.

기준 요소를 다시 잡는 것은 어렵지 않으나 바뀐 기준에 따라 변경된 MetaData는 새롭게 수정해줘야 한다.

 

 

3. Data Scraping MetaData의 조정

MetaData는 기준으로 잡힌 Selector에서 어떻게 데이터를 가져올지 구조를 열거한 XML 데이터다.

row 태그 : 1줄의 기준을 어디로 잡을지를 정한다.

column 태그 : 가져오는 컬럼을 정한다. 속성 exact를 1로 하면 그 구조가 안 맞는 경우 안 가져온다. 0으로 하면 없을 때, 구조가 비슷한 것을 가져온다.

name 속성 : name은 기본적으로 가져오는 컬럼명이다. 같은 구조에서 다른 attr을 가져오고 싶다면, name2='다른이름' 식으로 적어주고 해당하는 attr을 attr2='속성명'으로 적어주면 된다.

attr 속성 : metadata 구조에 해당하는 타겟으로부터 얻고자 하는 속성.

 

예시를 보자.

<extract>
	<row exact='1'>
		<webctrl tag='div' />
		<webctrl tag='article' idx='1' />
	</row>
	<column exact='1' name='예시1' attr='text' name2='예시3' attr='src'>
		<webctrl tag='div' />
		<webctrl tag='article' idx='1' />
		<webctrl tag='section' idx='1' />
		<webctrl tag='h3' idx='1' />
		<webctrl tag='span' idx='1' />
	</column>
	<column exact='1' name='예시2' attr='text'>
		<webctrl tag='div' />
		<webctrl tag='article' idx='1' />
		<webctrl tag='section' idx='2' />
		<webctrl tag='div' idx='1' />
	</column>
 </extract>

예상 결과값

dtData = ["예시1", "예시3", "예시2"

"test1", "src값", "test2222"

"test11", "src값", "test222222"]

이때 row의 첫줄 div는 기준 셀렉터의 아래 div태그를 의미한다.

기준 셀렉터 기준으로 아래에 div - article이라는 태그가 있으면 그 기준을 하나의 행 기준으로 보겠다는 의미다.

예시1 컬럼을 보면 row에 해당하는 기준 아래에

section이라는 태그, h3 태그, span 태그의 text를 가져온다.

예시2 컬럼은 row에 해당하는 기준 아래 section이라는 태그 중 2번째, 그리고 div 태그의 text값을 가져온다.

예시3 컬럼은 예시1과 같은 구조에서 src값을 가져온다.

 

 

이를 지정하기 위해선 기준 Selector의 Xpath나 Fullpath를 알아야 한다.[각주:1]

/html/body/div[2]/div[1]/div[2]/div[2]/div/div[2]/div/div/div[2]/div[2]/section/div[1]/div[1]/article/section[1]/h3/span

위에 예시를 보면 파란색 글씨가 기준 셀렉터로 잡힌 곳, 빨간색으로 표시된 곳이 row이고

그 아래에 어떤 구조의 태그로 들어가느냐를 row를 포함해서 적어주면 된다.

 

 

사용상 주의점

- 기본이 Continue On Error로 돼있기 때문에 데이터가 들어가지 않거나 selector를 못 잡아도 그냥 넘어간다.

- 기준이 되는 요소가 틀 형태로 먼저 뜨고 로딩 이후 데이터가 뿌려진다면 Retry Scope으로 row 수나 nothing 여부를 체크해야 한다.[각주:2]

- 경우에 따라 metadata 자체가 조건에 맞춰 변화해야 할 수도 있다. 가령 랜덤으로 광고가 뜨면서 구조가 바뀐다든가 하는 경우도 많다. 또는 안정적인 셀렉터가 자동으로 잡히는 셀렉터의 상위 구조에 있을 수 있다.

- 버그같아 보이는데, 추출 column이 여러 개 일때, 앞선 태그가 없으면, 그 뒤의 정보들의 구조가 맞더라도 데이터가 안 들어오는 경우가 있다. 재밌는 점은 메타데이터에 쓰인 순서를 변경하면 해결되기도 한다는 것. 가령 price1, price2, price3으로 크롤링 했는데 price1의 구조가 비어있는 경우 price2, price3, price1 형태로 바꾸면 잘 된다. 그럼 price2가 없는 경우 같은 현상이 일어나지 않을까 했는데, 그건 잘 가져왔다. 왜 그러는지 가늠이 잘 안 되지만 안 되면 순서를 바꿔보자. 아마도 metadata의 추출 과정에서 True/False 순서에 영향을 받는 거 아닐까 추정만 하는 중.

  1. 브라우저 개발자 도구에서 element를 찾아 우클릭하면 copy 가능하다. [본문으로]
  2. 기준 요소만 뜨면 데이터를 가져오려고 하기 때문이다. 데이터를 기다리지 않는다. [본문으로]

+ Recent posts