신뢰성

신뢰성이란 “AI면접관을 과연 믿을 수 있는가” 를 의미하며,
뷰인터HR은 이러한 물음에 답하기 위하여 아래와 같은 노력을 지속하고 있습니다.

목차

AI신뢰성 평가 : Trustworthiness

국내유일 HR분야 TTA AI신뢰성 평가 완료

AI신뢰성(Trustworthiness) 평가란, 대상 서비스가 “신뢰할 수 있는 인공지능 개발 안내서(2022)”에 명시된 신뢰성 요구사항 및 검증항목을 충족하는지 여부를 한국정보통신기술협회(TTA)가 평가하는 것을 의미합니다.

“신뢰할 수 있는 인공지능 개발 안내서(2022)”는 미국, 유럽 등 주요 선진국들과 국제 기구들에서 발표한 인공지능 개발 관련 권고안 및 가이드를 참고하여, 인공지능의 신뢰성을 확보하기 위해 개발자들이 자율적으로 점검할 수 있는 16개의 개발 요구사항과 59개 정성적 · 정량적 검증 항목을 제시한 안내서입니다.

뷰인터HR은 채용 서비스와 관련된 41개의 인공지능 신뢰성 검증 항목(2022년 기준)을 모두 통과하였으며, 이는 뷰인터HR이 AI모델 개발/운영에 따르는 위험요소 · 편향요소 · 보안요소에 대한 안정성 평가 기준을 충족하고 있음을 제3의 공인된 기관이 확인하였음을 의미합니다.

세부 검증 내용

N/A는 서비스 특성 상, 대상 서비스에 해당 항목을 적용할 필요가 없음을 의미합니다.

생명주기 단계

요구사항 및 검증항목

준수 여부

1. 기획 및 설계

01. 요구사항 인공지능 시스템에 대한 위험관리 계획 및 수행

Y

01-1. 인공지능 시스템 생명주기에 걸쳐 나타날 수 있는 위험요소를 분석하였는가?

Y

E-01. 인공지능 시스템의 위험 요소를 도출하고 이의 파급효과를 파악하였는가?

Y

E-02. 위험 요소 제거 방안을 도출하고 파급효과가 감소하였는지 확인하였는가?

Y

2. 데이터 수집 및 처리

02. 데이터의 활용을 위한 상세 정보 제공

Y

02-1. 데이터의 명확한 이해와 활용을 지원하는 상세한 정보를 제공하는가?

Y

E-03. 정제 전과 후의 데이터 특성을 설명하였는가?

Y

E-05. 보호변수의 선정 이유 및 반영 여부를 설명하였는가?

Y

E-06. 라벨링 작업자를 위해 교육을 시행하고 작업 가이드 문서를 마련하였는가?

Y

02-2. 데이터의 출처는 기록 및 관리되고 있는가?

Y

E-07. 신뢰할 수 있는 출처로부터 제공되는 데이터셋을 사용하였는가?

N/A

E-08. 오픈소스 데이터셋을 활용하는 경우, 출처를 명시하였는가?

N/A​

03. 데이터의 활용을 위한 상세 정보 제공

N/A​

03-1. 데이터 이상값식별 및 정상・오류 여부를 점검하였는가?

N/A​

E-10. 학습 데이터 이상값 식별 기법을 적용하였는가?

N/A​

03-2. 데이터 공격에 대한 방어 수단을 강구하였는가?

N/A​

E-11. 데이터 중독, 회피 등 공격에 대한 방어 대책을 마련하였는가?

N/A​

04. 수집 및 가공된 학습 데이터의 편향 제거

Y

04-1. 데이터 수집 시, 인적・물리적 요인으로 인한 편향 완화 방안을 마련하였는가?

Y

E-12. 인적 편향을 제거하기 위한 절차적, 기술적 수단을 적용하였는가?

Y

E-13. 데이터의 다양성 확보를 위해 이기종 수집 장치를 활용하였는가?

N/A

E-14. 하드웨어로 인해 발생할 수 있는 데이터의 편향을 점검하였는가?

Y

04-2. 학습에 사용되는 특성을 분석하고 선정 기준을 마련하였는가?

N/A

E-15. 보호변수 선정 시 충분한 분석을 수행하였는가?

N/A

E-16. 편향을 발생시킬 수 있는 특성을 배제하였는가?

N/A

E-17. 데이터 전처리 시 특성이 과도하게 제거되었는지 검토하였는가?

N/A

04-3. 데이터 라벨링 시, 발생 가능한 편향을 확인하고 방지하였는가?

Y

E-18. 데이터 라벨링을 위한 작업 기준을 명확히 수립하고 작업자에게 제공하였는가?

Y

E-19. 다양한 데이터 라벨링 작업자를 섭외하기 위해 노력하였는가?

N/A

E-20. 다양한 데이터 라벨링 검수자를 확보하기 위해 노력하였는가?

N/A

04-4. 편향 방지를 위해 데이터 분포 검증을 통한 데이터 샘플링을 수행하였는가?

Y

E-21. 편향 방지를 위한 샘플링 기법을 적용하였는가?

Y

3. 인공지능 모델개발

05. 오픈소스 라이브러리의 보안성 및 호환성 확보

Y

05-1. 오픈소스 라이브러리의 안정성을 확인하였는가?

Y

E-22. 신뢰할 수 있는 출처로부터 제공되는 오픈소스 라이브러리를 사용하였는가?

Y

05-2. 오픈소스 라이브러리의 위험 요소는 관리되고 있는가?

Y

E-23. 사용 중인 오픈소스 라이브러리의 라이선스 준수사항을 이행하였는가?

Y

E-24. 사용 중인 오픈소스 라이브러리의 호환성 및 보안취약점을 확인하였는가?

Y

06. 인공지능 모델의 편향 제거

Y

06-1. 모델 편향을 제거하는 기법을 적용하였는가?

Y

E-25. 개발하려는 모델에 맞게 편향제거 기법을 선택하였는가?

Y

07. 인공지능 모델 공격에 대한 방어 대책 수립

N/A

07-1. 모델 추출 공격에 대한 방어 기법을 도입하였는가?

N/A

E-27. 모델 추출 공격에 대비하는 방어 기법을 적용하였는가?

N/A

08. 인공지능 모델 명세 및 출력 결과에 대한 설명 제공

Y​

08-1. 인공지능 모델의 예측 결과를 설명하기 위한 기법 적용에 대한 검토를 하였는가?

Y​

E-28. 필요 시, 모델 출력에 대한 설명을 제공하는가?

Y​

E-29. 사용자가 출력 결과를 수용할 수 있도록 출력 결과에 대한 근거를 제공하는가?

N/A

E-30. 설명 가능한 인공지능 기술 적용이 어려운 경우, 대안을 마련하였는가?

Y​​

08-2. 팩트 시트를 통해 인공지능 모델의 명세를 투명하게 제공하는가?

Y​​

E-31. 시스템 개발 과정과 모델 작동 방식에 대한 세부 정보가 설명된 문서를 작성하였는가?

Y​​

09. 인공지능 모델 출력에 대한 신뢰도 제공

Y​​

09-1. 신뢰도 제공이 필요한 인공지능 모델 출력 려과에 대한 신뢰도를 제공하는가?

Y​​

E-32. 신뢰도 제공이 필요한지 검토 하였는가?

Y​​

E-33. 신뢰도를 계산하고, 계산 결과를 기반으로 모델의 신뢰 수준을 정의하였는가?

Y​​

E-34. 모델 성능의 임계치를 도출하고, 임계치 이하일 경우 신뢰도를 제공하는가?

N/A

09-2. 신뢰도가 낮을 경우, 적절한 조치방안을 마련하는가?

Y​​

E-35. 모델 출력의 신뢰 수준이 임계치 이하일 경우 사용자에게 추가 설명을 제공하는가?

Y​​

E-36. 모델 성능이 허용 임계치 이하일 경우 이해관계자에게 경고하는 기능을 개발하였는가?

Y​​

4. 시스템 구현

10. 인공지능 시스템 구현 시 발생 가능한 편향 제거

Y​​

10-1. 소스 코드 및 사용자 인터페이스로 인한 편향을 제거하기 위해 노력하였는가?

Y​​

E-37. 데이터 접근 방식 구현과정 등 소스 코드에서의 편향 발생 가능성을 확인하였는가?

Y​​

E-38. 사용자 인터페이스및 인터랙션 방식으로 인한 편향을 확인하였는가?

N/A

11. 인공지능 시스템의 안전 모드 구현

Y​​

11-1. 공격, 성능 저하 및 사회적 이슈 등의 문제 발생 시 안전 모드를 적용하는가?

Y​​

E-39. 문제 상황에 대한 예외 처리 정책이 마련되어 있는가?

Y​​

E-40. 인공지능 시스템의 보안 강화를 위한 보안 메커니즘을 적용하였는가?

Y​​

E-41. 문제 상황 발생 시, 사람의 개입을 고려하는가?

N/A​

E-42. 예상되는 사용자 오류에 대한 안내 및 대응을 제공하는가?

Y​

11-2. 인공지능 시스템에서 문제가 발생할 경우 리포팅을 수행하는가?

Y

E-43. 편견, 차별 등 윤리적 문제에 대한 리포팅 절차를 수립하였는가?

Y

E-44. 시스템 성능 저하를 평가하기 위한 지표 및 절차를 설정하였는가?

Y

12. 인공지능 시스템의 설명에 대한 사용자의 이해도 제고

Y

12-1. 인공지능 시스템 사용자의 특성과 제약사항을 분석하였는가?

N/A​

E-45 . 사용자 특성에 따른 세부 고려사항을 분석하였는가?

N/A​

12-2. 사용자 특성에 따른 충분한 설명을 제공하는가?

Y

E-46. 사용자 특성에 따른 설명 평가의 기준을 수립하였는가?

Y

E-47. 사용자가 이해하기 어려운 전문 용어 사용을 지양하였는가?

Y

E-48. 사용자의 구체적인 행동과 이해를 이끌어낼 수 있도록 명확한 표현을 사용하였는가?

Y

E-49. 설명이 필요한 위치와 타이밍은 적절한가?

Y

E-50. 사용자 경험을 평가할 수 있는 다양한 사용자 조사 기법을 활용하였는가?

Y

5. 운영 및 모니터링

13. 인공지능 시스템의 추적 가능성 확보

Y

13-1. 인공지능 시스템의 의사결정에 대한 추적 및 대응 방안을 수립하였는가?

Y

E-51. 데이터 소스 변경에 대한 모니터링 방안을 확보하였는가?

N/A

E-52. 인공지능 시스템의 의사결정에 대한 기여도 추적 방안은 확보하였는가?

N/A

E-53. 인공지능 시스템의 의사결정 추적을 위한 로그 수집 기능을 구현하였는가?

N/A

E-54. 지속적인 사용자 경험 모니터링을 위해 사용자 로그를 수집 및 관리하고 있는가?

Y

13-2. 학습 데이터의 변경 이력을 주기적으로 관리하고 있는가?

Y

E-55. 데이터 변경 시, 버전관리를 수행하였는가?

Y

E-56. 데이터 변경에 대비하여, 이해관계자를 대상으로 한 설명 절차를 수립하였는가?

Y

E-57. 데이터 흐름 및 형상을 추적하기 위한 조치를 구현하였는가?

Y

13-3. 학습 데이터의 업데이트 이력을 주기적으로 관리하고 있는가?

Y

E-58. 학습용 데이터 중 신규 데이터의 비율을 기록 및 관리하고 있는가?

Y

E-59. 신규 데이터 확보 시, 인공지능 모델의 성능평가를 재수행하였는가?

Y

14. 서비스 제공 범위 및 상호작용 대상에 대한 설명 제공

Y

14-1. 인공지능 서비스의 올바른 사용을 유도하기 위한 설명을 제공하는가?

Y

E-60. 서비스의 목적과 목표에 대한 설명을 제공하는가?

Y

E-61. 서비스의 한계와 범위에 대한 설명을 제공하는가?

Y

14-2. 상호작용의 대상을 명확히 설명하는가?

N/A

E-62. 사용자가 인공지능과 상호작용하고 있음을 명확하게 인지할 수 있도록 안내하는가?

N/A

AI모델의 성능 평가 : Verification & Validation

학습용 데이터와 AI모델의 데이터 간 비교 검증 완료

AI모델의 내적 신뢰도는 AI면접관이 면접전문가의 인사이트를 얼마나 안정적으로 학습했는가를 의미합니다. 이는 면접전문가들의 면접영상 평가 데이터와, 이를 학습한 AI모델의 평가 데이터가 얼마나 일치하는지를 PCC (Pearson correlation coefficient)와 MAE(Mean Absolute Error) 지표를 통해 확인할 수 있습니다.

PCC는 두 변수 간의 선형 관계를 측정하는 지표로 -1부터 1까지의 값을 가집니다. 1에 가까울수록 두 변수 간의 양의 선형 관계가 강하고, -1에 가까울수록 음의 선형 관계가 강합니다. 0에 가까울수록 두 변수 간의 선형 관계가 거의 없음을 의미합니다. 이러한 PCC를 통해 AI모델의 평가 데이터와 면접전문가들의 평가 데이터 사이의 선형 관계를 확인할 수 있습니다. AI모델의 성능을 판단하는 기준은 분야에 따라 다를 수 있습니다. 뷰인터HR은 선발 및 평가분야의 특성에 기반하여 PCC 0.6 이상일 때 성능이 확보되었다고 판단합니다.

한편, MAE는 AI모델의 평가 데이터와 면접전문가들의 평가 데이터 간 차이(절대값)의 평균을 나타내는 지표로, MAE가 작을수록 AI모델과 면접전문가의 평가 간 차이가 적음을 의미합니다. 면접전문가들은 면접 영상을 5개의 척도로 평가하며, AI모델은 0에서 1사이의 점수로 평가합니다. 따라서 면접전문가 평가의 1점 차이는 AI모델의 0.2점 차이와 같습니다. 이를 근거로 MAE가 0.2이하일 때, 즉 면접전문가 평가에서 척도 하나 미만의 차이를 보일 때 AI모델의 평가가 면접전문가의 평가와 일치한다고 판단합니다.

뷰인터HR AI모델의 신뢰도를 검증하기 위하여 면접전문가들의 평가 데이터 중 80%는 AI모델을 학습시키는데 활용(이하 학습데이터)하고, 나머지 20%는 AI모델의 평가 데이터와 비교/검증하는데 활용(이하 검증데이터)합니다. 학습데이터와 검증데이터를 구분하는 과정에서의 편향을 최소화하기 위해 이러한 작업을 5회 실시하는데 이를 5겹 교차검증이라 명명합니다. 5회의 교차검증에서 평균적으로 PCC가 0.6 이상, MAE가 0.2 이하일 때 AI모델이 안정적인 성능 확보했다고 판단합니다.

AI모델 검증 프로세스

AI모델 검증 프로세스​

한국정보통신기술협회(TTA)의 V&V 평가 완수

V&V (Verification & Validation, 확인 및 검증) 시험 이란, 기업에서 자체 개발한 소프트웨어 및 IT 서비스의 기능, 성능, 보안성, 안전성 등에 대해 신청기업의 요구사항에 따라 한국정보통신기술협회(TTA)가 시험하는 것을 의미합니다.

제네시스랩은 위와 같은 시험항목 · 시험목표 · 기준에 대해 TTA에 시험을 의뢰하여 뷰인터HR의 AI모델에 대한 성능을 TTA가 평가하였으며, 모든 시험항목이 기준에 도달한 것으로 확인되었습니다. 이는, 제네시스랩이 자체 개발하여 평가한 AI모델의 성능지표가 객관적으로도 정확하고 정직하게 보고하고 있음을 의미합니다.

평가자 간 신뢰도 검증: IRR(Inter-rater reliability)

사람면접관과의 우수한 평가 일치도 확인!

평가자 간 신뢰도란, 복수의 평가자들이 동일한 대상자를 얼마나 동일하게 평가하는지를 의미하며 흔히 급내상관계수(ICC : Intraclass Correlation)를 판단의 기준으로 삼고 있습니다. ICC 값이 클수록 평가자들 간 평가결과가 일치함을 의미하며, ICC 값이 1이면 완벽한 일치를 나타내고 0은 전혀 관련이 없음을 나타냅니다.

신뢰도 계수(ICC) 해석 기준

신뢰도 계수(ICC)

해석

0.75 이상

매우 우수한 수준

0.6 ~ 0.75

우수한 수준

0.4 ~ 0.6

수용 가능한 수준

0.4 미만

신뢰도가 부족한 수준

평가자 간 신뢰도란, 복수의 평가자들이 동일한 대상자를 얼마나 동일하게 평가하는지를 의미하며 흔히 급내상관계수(ICC : Intraclass Correlation)를 판단의 기준으로 삼고 있습니다. ICC 값이 클수록 평가자들 간 평가결과가 일치함을 의미하며, ICC 값이 1이면 완벽한 일치를 나타내고 0은 전혀 관련이 없음을 나타냅니다.

평가자 간 신뢰도 분석 프로세스

프로세스

수행 내용

1. 평가자 교육

평가방법과 평가기준에 대한 교육과 워크숍 실시
① 역량의 정의 및 행동지표에 대한 이해
② 샘플 영상에 대한 평가 실시
③ 개별 평가 결과에 대한 논의를 통해 평가 관점 통일
※ 평가자 간 신뢰도가 최소 0.5 이상이 될 때까지 ②~③ 반복 진행

2. 면접영상 평가

복수의 평가자가 동일한 면접 영상에 대해 평가 진행
– 역량 별 100개 이상의 면접 영상을 평가
– 역량 별 최소 3명 이상의 평가자 배정
– 동일한 영상에 대해 AI면접관의 평가 데이터 확보

3. 평가자 간 신뢰도 분석

AI면접관과 사람 면접관 점수간 급내상관계수(ICC) 분석 및 결과 해석

0.4 미만

신뢰도가 부족한 수준

고객사A의 평가자 간 신뢰도 분석 사례

평가요소

신뢰도계수(ICC)

AI면접관 vs 사람면접관

사람면접관 간

커뮤니케이션 평가

종합점수

0.769

0.683

0.769

0.683

역량평가
(BEI방식)

종합점수

역량1

역량2

역량3

역량4

역량5

0.607

0.466

0.718

0.454

0.300

0.377

0.757

0.538

0.667

0.439

0.729

0.575

평가요소

신뢰도계수(ICC)

AI면접관
vs
사람면접관

사람면접관 간

커뮤니케이션 평가

종합점수

0.769

0.683

역량평가(BEI방식)

종합점수

0.607

0.466

0.718

0.454

0.300

0.377

0.757

0.538

0.667

0.439

고객사A와 함께 수행한 평가자 간 신뢰도 분석 결과, 커뮤니케이션 평가와 역량평가 모두에서 AI면접관과 사람면접관 간 평가결과가 우수한 수준 이상으로 일치함을 알 수 있었습니다. 그리고 세부 역량 별로도 대체로 우수한 수준의 신뢰도를 갖는 것으로 나타났습니다. 다만, 역량2에서는 신뢰도가 부족한 것으로 나타났는데, 이는 사람면접관 간 평가의 불일치에 따른 것으로 이해할 수 있습니다. 이는 평가자 교육과 워크숍을 통해 사람면접관 간 일치도를 최대한 높였음에도 불구하고 실제로 평가할 때에는 면접관 본인의 주관이 개입되고 있음을 의미하기도 하며, 수용 가능한 수준 이상의 일치도를 보이는 역량에서는 모두 우수한 수준으로 AI면접관의 결과와 일치하고 있음을 확인하였습니다.

준거관련 타당도 검증 : Criterion-related validity

타당도란 ‘어떤 검사의 목적과 정밀성을 측정하기 위하여, 검사 점수에서 이끌어 낼 수 있는 추론의 적절성과 정확성에 따라 검사를 평가하는 기준’을 의미하며, 뷰인터HR에 대해서는 AI면접이 평가하고자 하는 목표와 AI면접관의 평가 결과 사이에 관련성이 얼마나 높은지 분석함으로써 준거관련타당도(criterion-related validity)를 확인할 수 있습니다.

제네시스랩은 AI면접의 준거관련타당도를 검증하기 위하여 상관분석을 실시하며, 미국 노동부에서 발간한 [채용 도구 활용에 대한 가이드(Testing and Assessment : an employer`s guide to good practices]에 따라 결과를 해석합니다.

이 가이드에 따르면 일반적으로 타당도 계수가 0.35 이상이면 AI면접이 채용 도구로써 ‘매우 타당함’에 이르는 수치이고, 0.21이상이면 채용 도구로써 ‘타당함’이라고 해석할 수 있습니다. 또한 “직무에서의 성공에는 매우 다양한 변수가 작용하기 때문에, 단 하나의 독립적인 채용도구는 직무성과를 절대로 완전히 예측할 수 없으며, 이로 인해 신뢰도 계수와 달리 타당도 계수는 r = 0.40을 거의 넘지 못한다”고 언급합니다.

타당도 계수(상관계수) 해석 기준

신뢰도 계수(상관계수)

해석

0.35 이상

매우 타당함 (very beneficial)

0.21이상 ~ 0.35미만

타당함 (likely to be useful)

0.11이상 ~ 0.21미만

상황에 따라 사용가능 (depends on circumstances)

0.11 미만

비권장 (unlikely to be useful)

타당도 계수(상관계수) 해석 기준

신뢰도 계수
(상관계수)

해석

0.35 이상

매우 타당함
(very beneficial)

0.21이상 ~ 0.35미만

타당함
(likely to be useful)

0.11이상 ~ 0.21미만

상황에 따라 사용가능
(depends on circumstances)

0.11 미만

비권장
(unlikely to be useful)

고객사B의 AI면접 타당도 분석 사례

평가요소

매우 타당함 (very beneficial)

대면면접 접수

대면면접 결과(합/불)

종합점수

0.55

0.45

커뮤니케이션 평가

0.45

0.38

역량평가(BEI방식)

0.56

0.45

고객사B와 함께 수행한 AI면접의 타당도 분석 결과, 모든 항목에서 “타당함” 수준 이상의 타당도 계수를 보임으로써 AI면접이 타당한 평가도구임을 알 수 있었습니다. 또한, 아래와 같이 대면면접 합격자와 불합격자 간 AI면접 점수에 의미있는 차이가 있음을 통계적으로 검증하여 AI면접이 합격자 집단과 불합격자 집단을 잘 구분하고 있음을 알 수 있었습니다.

고객사B의 합격자/불합격자 간 AI면접 점수 분포도

고객사B의 합격자/불합격자 간 AI면접 점수 분포도​

뷰인터HR은 이러한 결과를 근거로 대면면접의 일부를 AI면접으로 대체할 수 있도록 지원함으로써 고객사가 보다 정확한 평가를 할 수 있도록 하고 있습니다.

Scroll to Top

고객 지원