대부분의 상황에서 대부분의 사람들에게 적합한 아이 트래커를 만드는 것은 비교적 쉽습니다. 기본적인 수준에서는 카메라, 광원, 처리 장치만 있으면 됩니다. 빛은 사람의 눈을 비추어 동공과 홍채의 대비를 높이고 각막에 반사를 일으킵니다. 카메라가 사람의 눈 이미지를 촬영하면 처리 장치가 동공과 각막의 이러한 반사를 찾습니다. 이 정보, 카메라와 광원의 알려진 위치, 사람의 눈의 해부학적 구조를 통해 각 눈의 위치와 회전 각도를 계산할 수 있습니다. 사용자에게 위치가 알려진 물체를 보도록 요청하여 시선추적 시스템을 보정하면 사람이 어디를 보고 있는지 파악하는 데 필요한 모든 것을 갖추게 됩니다.
하지만 새로운 사용 사례마다 새로운 과제가 발생하기 때문에 모든 것을 해결할 수 있는 비법이 있었으면 좋겠지만, 안타깝게도 그런 공식은 없습니다. 기본적인 시선추적 시스템을 신뢰할 수 있는 시스템으로 바꾸려면 노력과 헌신이 필요합니다.
우선, 일반적으로 방대한 데이터 세트를 생성해야 합니다. 어떤 정보를 찾고 대상 응용 분야에 맞게 데이터를 조각화하는 방법을 알아야 합니다. 예를 들어, 연구 시나리오에는 VR 헤드셋의 포비티드 렌더링과 같은 대중 시장 제품( — )의 디바이스 기본 기능처럼 까다로운 모집단 범위 요구사항이 필요하지 않습니다.
그리고 지연 시간 문제도 있습니다. 예를 들어 일부 컴퓨팅은 디바이스에서, 일부는 클라우드에서 수행하는 분할 렌더링을 사용하는 그래픽이 많은 응용 분야에서는 네트워크와 아이 트래커 모두 지연 시간이 짧은 연결이 필요합니다. 반면, 눈으로 제어하는 메뉴 선택을 지원하는 응용 분야는 지연 시간이 동일하지 않으므로 사용자 경험을 향상시키기 위해 상당한 시간 필터링이 필요합니다.
시선추적은 순수한 컴퓨터 과학 문제이며, 머신러닝이 모든 것을 해결해 줄 것이라고 주장하는 사람들도 있습니다. 머신 러닝이 솔루션의 중요한 부분이지만 시선추적 알고리즘을 설계할 때는 눈의 해부학적 구조, 뇌가 시각 신호를 해석하는 방식, 대상 응용 분야의 목표 등을 고려해야 합니다.
하지만 가장 큰 어려움은 아이디어에서 상용화로 넘어갈 때라고 생각합니다. 수백만 대의 기기가 여러분의 기술에 의존하여 완벽하게 작동하는 대중 시장 시나리오에서 실패는 선택 사항이 아닙니다. 인구 커버리지 99% 이상에 도달한다는 것은 아이디어 구상 단계에서 이상값으로 간주되었던 시나리오와 사람들을 이제 해결해야 한다는 것을 의미합니다. 처진 눈꺼풀, 중요한 이목구비를 가리는 메이크업, 도수 안경, 콘택트렌즈, 사시/사난시 등이 대표적인 예입니다. 또한 헤드셋 미끄러짐은 물론 동공 간 거리(IPD), 얼굴형, 근적외선에서의 피부 반사율, 홍채 색상, 구성 요소 및 배치 허용 오차의 변화도 관리해야 할 수 있습니다.